TPEdigitaal Jaargang 9 nr. 3 oktober Inleiding: Veldexperimenten voor beleid... 1 Sander Onderstal

Transcriptie

1 TPEdigitaal Jaargang 9 nr. 3 oktober 2015 Minithema: Veldexperimenten voor beleid Inleiding: Veldexperimenten voor beleid... 1 Sander Onderstal Veldexperimenten in de praktijk: opzet, uitvoering en analyse... 4 Nadine Ketel en Sandra Vriend Praktische problemen bij veldexperimenten Sander Gerritsen en Patricia Prüfer Hoe stimuleer je vrijwillige bijdragen aan een publiek goed? Robert Dur en Ben Vollaard Helpt competitief beoordelen mannelijke studenten weer op de rails? Een overzicht van experimenteel bewijs Sander Onderstal Kwaliteitsmeting middelbare scholen beloont selectie Erik Schut en Margreet den Haan Hoe progressief is de verdeling van de belastingdruk op het brutoinkomen van huishoudens? Geert Reuter Rigiditeit door flexibiliteit: management bureaucratieën in Nederland. 97 Alfred Kleinknecht, Zenlin Kwee en Lilyana Budyanto Piet de Wolff ( ) Wiskundig econoom en gezaghebbend beleidsadviseur Martin Fase TPEdigitaal is een uitgave van de Stichting TPEdigitaal te Amsterdam. ISSN:

2

3 Colofon Het tijdschrift TPEdigitaal verschijnt vier maal per jaar en wordt uitgegeven door de onafhankelijke stichting TPEdigitaal te Amsterdam onder ISSN Redactie dr. M. de Graaf-Zijl N. de Groot, MSc. dr. D.A. Hollanders drs. A.R.B.J. Houkes-Hommes drs. J.F.M. de Jong dr. A.M. Onderstal dr. L.A.W. Tieben Redactieadres redactie/tpedigitaal.nl (NB, u dient zelf de schuine streep te vervangen door een apenstaartje in het adresveld van uw programma) Wetenschappelijke adviesraad dr. P.A. Boot prof. dr. C.L.J. Caminada prof. dr. H.P. van Dalen prof. dr. W.H.J. Hassink prof. dr. M.W. Hofkes prof. dr. L.H. Hoogduin prof. dr. B. van der Klaauw prof. dr. C.C. Koopmans drs. L.M.T. van Velden prof. dr. B. ter Weel Bureauredactie J.L. Verbruggen Foto website bibiphoto / Shutterstock.com Uitgever Stichting TPEdigitaal p/a Amstelveenseweg JV Amsterdam

4

5 Inleiding: Veldexperimenten voor beleid Sander Onderstal Kinderen zitten maar één keer op de basisschool: slecht idee om met hen te experimenteren, concludeert columniste Aleid Truijens in de Volkskrant van 26 september Ze reageert in haar column op een opiniestuk van Maurice de Hond in dezelfde krant waarin hij betoogt dat ICT in het onderwijs een succes is. Om het ongelijk van De Hond aan te tonen, verwijst Truijens naar een OESOrapport dat tot tegenovergestelde conclusies komt. Zij beschuldigt De Hond ervan een gelovige te zijn die hardnekkig is in zijn aannames. Maar verwijt hier de pot de ketel niet dat hij zwart ziet? Het OESO-rapport laat weliswaar zien dat scholieren die veelvuldig gebruik maken van computers op school relatief slecht presteren, maar laat in het midden of het verband oorzakelijk is. Juist aan de hand van experimenten op basisscholen kunnen we leren of ICT in het onderwijs al dan geen succes is. Zo zou een veldexperiment waarin een willekeurige selectie van basisscholen stevig inzet op ICT, De Honds hypothese overtuigend kunnen toetsen. We kunnen onze kinderen vervolgens gefundeerd weinig (of juist veel) gebruik laten maken van computers in de klas. Een beleidsvraag beantwoorden aan de hand van een veldexperiment is zeker geen revolutionair idee. Sterker nog: Nederlandse beleidsmakers vertrouwen geregeld op veldexperimenten om bestaand beleid te evalueren en nieuw beleid voor te bereiden. Het uitgangspunt bij veldexperimenten is de gouden standaard die de Engelse bioloog en statisticus Ronald Fisher beschreef in zijn boek The Design of Experiments dat hij in 1935 publiceerde. De gouden standaard houdt in dat de onderzoeker personen (of huishoudens, bedrijven, instanties, etc.) willekeurig verdeelt over treatmentgroep en controlegroep. De onderzoeker stelt vervolgens alleen de treatmentgroep bloot aan een interventie. Dankzij de randomisatie kan de onderzoeker vervolgens het causale effect van de interventie identificeren. Zoals Kooreman en Potters (2011) helder beschrijven, spreken we van een gouden standaard, omdat met andere methodes, zoals regressieanalyses op basis van niet-gecontroleerde experimenten, alleen causale verbanden kunnen worden geïdentificeerd onder sterke aannames. 1 Dit nummer bevat vier artikelen waarin veldexperimenten worden beschreven die zijn uitgevoerd om concrete beleidsvragen te beantwoorden. De eerste twee artikelen concentreren zich vooral op methodologische en praktische aandachts- 1 Zie Harrison en List (2004) voor een methodologische discussie en Levitt en List (2009) voor een historisch overzicht. List (2011) presenteert praktische tips & tricks. TPEdigitaal 2015 jaargang 9(3) 1-3

6 2 Inleiding: Veldexperimenten voor beleid punten bij het opzetten van veldexperimenten. De andere twee artikelen bespreken resultaten van veldexperimenten op het gebied van afvalbeleid en tentamens in het hoger onderwijs. Beleidsmakers blijken de lessen uit de verschillende besproken veldexperimenten serieus te nemen en om te zetten in beleid. Nadine Ketel en Sandra Vriend bijten het spits af met een artikel over methodologische valkuilen, waarin onderzoekers kunnen vallen als ze een veldexperiment opzetten en uitvoeren. Ze illustreren deze valkuilen aan de hand van concrete veldexperimenten in de zorg, het onderwijs en de sociale zekerheid. Vervolgens lichten ze toe hoe ze over de valkuilen heen zijn gesprongen via informatievoorziening rondom het experiment, het experimenteel ontwerp en de data-analyse. De lessen uit de besproken veldexperimenten zijn niet onopgemerkt gebleven. Beleidsmakers in de langdurige zorg en van de Dienst Werk en Inkomen in Amsterdam hebben naar aanleiding ervan concrete aanpassingen gemaakt in hun aanpak. Sander Gerritsen en Patricia Prüfer zoomen in op praktische aandachtspunten bij het uitvoeren van veldexperimenten. Dit doen ze aan de hand van veldexperimenten die het Centraal Planbureau heeft uitgevoerd in opdracht van het ministerie van Onderwijs, Cultuur en Wetenschappen. Ze komen tot vijf aanbevelingen: (1) Vorm een geloofwaardige controlegroep; (2) Organiseer commitment van alle partijen die bij het experiment betrokken zijn; (3) Controleer of de interventie volgens plan is uitgevoerd; (4) Verzamel informatie over onderliggende mechanismen van mogelijke effecten; (5) Voer poweranalyses uit voorafgaande aan het experiment. Robert Dur en Ben Vollaard presenteren resultaten van veldexperimenten waarmee ze toetsen welke beleidsinterventies burgers stimuleren om hun straat schoon te houden. De experimenten vonden plaats in Rotterdam en Heerlen. Zowel een harde aanpak (dreigen met boete) als een zachte aanpak (gesprek aangaan) blijken effectief te kunnen zijn om mensen hun huisvuil op de gewenste manier op straat te laten plaatsen. Tegelijkertijd reageren huishoudens niet als ze louter worden geïnformeerd over wat de bedoeling is. De gemeenten Rotterdam en Heerlen hebben inmiddels hun afvalbeleid aangepast naar aanleiding van deze bevindingen. In het laatste artikel binnen het thema veldexperimenten voor beleid bespreek ik de literatuur over het effect van tentamendruk op de relatieve prestaties van mannen en vrouwen in het hoger onderwijs. Mannen presteren de laatste decennia gemiddeld slechter dan vrouwen in alle lagen van het onderwijs. In andere contexten blijken mannen beter te presenteren in relatief competitieve omgevingen, terwijl de mate van competitiviteit geen invloed heeft op de prestaties van vrouwen. Het opvoeren van de tentamendruk is dus een natuurlijke kandidaat om mannen hun achterstand op vrouwen in het hoger onderwijs te laten inlopen. De literatuur laat echter geen eenduidig effect zien. Waar mannen volgens sommige empirische onderzoeken relatief goed presteren op competitieve tentamens vinden we in een veldexperiment op de Universiteit van Amsterdam enkel binnen een kleine subgroep een geslachtseffect.

7 Sander Onderstal 3 Auteur Sander Onderstal ( A.M.Onderstal@uva.nl) is universitair hoofddocent aan de Universiteit van Amsterdam. Literatuur Harrison, G.W. en J. List, 2004, Field experiments, Journal of Economic Literature, vol. 42(4): Kooreman, P. en J. Potters, 2011, De gouden standaard: Veldexperimenten in de voorbereiding en evaluatie van beleid, TPEdigitaal, vol. 5(3): Levitt, S.D., en J.A. List, 2009, Field experiments in economics: The past, the present, and the future, European Economic Review, vol. 53(1): List, J.A., 2011, Why economists should conduct field experiments and 14 tips for pulling one off, Journal of Economic Perspectives, vol. 25(3): 3-15.

8 Veldexperimenten in de praktijk: opzet, uitvoering en analyse Nadine Ketel en Sandra Vriend Veldexperimenten vormen, mits correct uitgevoerd, een overtuigende methode om het causale effect van een interventie te schatten. In dit praktisch ingestoken artikel worden aandachtspunten besproken die van belang zijn bij de opzet en uitvoering van experimenten. Aan de hand van een drietal veldexperimenten met uiteenlopende beleidsvraagstukken worden deze aandachtspunten toegelicht en wordt besproken hoe hiermee, zowel in de opzet als in de data-analyse, rekening gehouden kan worden. 1 Inleiding Steeds vaker wordt, bijvoorbeeld door overheden, gevraagd om evidence-based beleid, met een wetenschappelijke onderbouwing van de (te verwachten) causale effecten. Om het causale effect van een bepaald beleid te meten, dient de uitkomst met de interventie vergeleken te worden met de uitkomst zonder de interventie. Per definitie wordt altijd slechts één van deze twee uitkomsten geobserveerd. Er zijn in de afgelopen decennia tal van quasi-experimentele econometrische methoden ontwikkeld om empirisch het effect van een beleidsinterventie te kunnen schatten, maar die berusten vaak op (strenge) aannames. Daarom wordt in de economische wetenschap steeds vaker gebruik gemaakt van gerandomiseerde veldexperimenten. Daarbij worden participanten willekeurig ingedeeld in een groep die wordt blootgesteld aan de interventie en een controlegroep die niet wordt blootgesteld aan die interventie. De randomisatie maakt het mogelijk om verschillen in uitkomsten tussen deze twee groepen toe te wijzen aan de interventie. Een veldexperiment is, mits correct uitgevoerd, een overtuigende manier om het effect van beleid te meten. Er zijn bij de uitvoering echter verschillende valkuilen die de resultaten kunnen vervuilen. In dit praktisch ingestoken artikel bespreken wij enkele hordes bij de opzet van veldexperimenten en ervaringen daarmee in een drietal recentelijk uitgevoerde veldexperimenten. We bespreken hoe rekening kan worden gehouden met deze hordes bij de opzet van het experiment en wat de gevolgen zijn voor de data-analyse. De aandachtspunten die uitgebreid aan bod komen, zijn: 1. de informatievoorziening rondom een experiment en het Hawthorne-effect; TPEdigitaal 2015 jaargang 9(3) 4-20

9 Nadine Ketel en Sandra Vriend 5 2. naleving van de opdrachten van een experiment door deelnemers en uitvoerders van het experiment (compliance); 3. het niveau van randomisatie en; 4. de externe validiteit van experimenten. De besproken experimenten bestrijken een breed beleidsspectrum met toepassingen in de zorg, het onderwijs en de sociale zekerheid. Bovendien laten we zien dat, wanneer de genoemde hordes bij de opzet en uitvoering van veldexperimenten omzeild kunnen worden door de juiste technieken te benutten, veldexperimenten belangrijke beleidslessen kunnen opleveren en invloed kunnen hebben op de beleidspraktijk. In de volgende sectie worden eerst diverse algemene aandachtspunten bij de opzet en uitvoering van veldexperimenten besproken. Een drietal van die aandachtspunten wordt vervolgens in de toepassingen uitgebreid toegelicht en gekoppeld aan analyses. Sectie 3 kijkt naar een experiment in de markt voor langdurige zorg. In sectie 4 wordt een veldexperiment in de sociale zekerheid besproken en sectie 5 beschrijft een experiment over collegegelden. Ten slotte geeft sectie 6 de conclusies van het artikel weer. 2 Aandachtspunten bij de opzet van een experiment Bij het opzetten van een experiment dienen enkele belangrijke keuzes te worden gemaakt, die deels afhankelijk zijn van het effect waarin men geïnteresseerd is, maar die ook gedreven kunnen worden door de context waarin het experiment zal worden uitgevoerd. 1 In sommige gevallen is het mogelijk om perfect te randomiseren, maar dat is niet altijd aan te houden in een complexe omgeving. Indien hiervan wordt afgeweken, moet worden bekeken wat de gevolgen daarvan zijn voor de analyse van de data en of de experimentele opzet in dat geval nog steeds tot valide resultaten kan leiden. In deze sectie bespreken we in het algemeen een aantal belangrijke aspecten, te weten: de methode van randomisatie; de eenheid waarop wordt gerandomiseerd; de benodigde steekproefomvang en looptijd van het experiment; de informatievoorziening rondom een experiment; de benodigde gegevens en daaraan gerelateerd mogelijke uitval van deelnemers aan het experiment; de externe validiteit van een veldexperiment. 1 Een uitgebreide behandeling van de afwegingen bij het maken van deze keuzes is te vinden in Duflo et al. (2008) en List (2011). Kooreman en Potters (2011) noemen in hun uiteenzetting van het wetenschappelijke en maatschappelijke belang van veldexperimenten nog enkele andere aandachtspunten.

10 6 Veldexperimenten in de praktijk: opzet, uitvoering en analyse Een eerste keuze betreft de methode van randomisatie. Een veel gebruikte methode is om volledig willekeurig te bepalen wie de interventie krijgt en wie niet, of om gestratificeerd te randomiseren. Dit is echter niet in elke situatie haalbaar. Bijvoorbeeld in het geval van aanvragers van een bijstandsuitkering, een groep individuen die centraal staat in het in sectie 4 besproken experiment, kunnen er ethische bezwaren zijn tegen het onthouden van bepaald beleid aan een deel van de klanten. In 2008 werd dit bezwaar door Freek van Ossel, toenmalig wethouder van Werk en Inkomen in Amsterdam, nog gebruikt als reden om een veldexperiment voor deze groep af te wijzen: Het idee om bijstandsgerechtigden ( ) te selecteren om ze moedwillig de mogelijkheid te onthouden het traject te volgen, is om logische redenen afgewezen. De inspanningen van gemeenten en het re-integratiebudget zijn er om mensen met een uitkering aan een baan te helpen, niet om wetenschappers van de straat te houden. (NRC Handelsblad, 27 november 2008). In 2011 was het klimaat in zoverre veranderd dat de Dienst Werk en Inkomen in Amsterdam wel open stond voor een veldexperiment. In dit experiment werd echter geen gebruik gemaakt van volledige randomisatie maar van een zogenaamd encouragement design (Behaghel et al. 2013). Klantmanagers kregen in dit experiment een standaardkeuze, waar ze alleen van mochten afwijken als toepassing van de standaardkeuze tot schrijnende situaties zou leiden. Deze uitwijkmogelijkheid was essentieel voor de acceptatie van het experiment binnen de organisatie. In sectie 4 bespreken we uitgebreid welke gevolgen deze opzet heeft voor de analyse van de data. Een tweede keuze is de eenheid waarop randomisatie plaatsvindt. Zo kan bijvoorbeeld op individueel niveau, op instellingsniveau of op gemeenteniveau worden gerandomiseerd. In sommige gevallen wordt de randomisatie-eenheid direct bepaald door de interventie en het effect waar men in geïnteresseerd is. In het onderzoek naar de effecten van het toetsingsmoment op het gedrag van zorgaanbieders in de markt voor langdurige zorg bepaalt de interesse in gedragseffecten bij zorgaanbieders dat zorgaanbieders moeten worden gerandomiseerd over treatment- en controlegroepen. In andere situaties speelt in de keuze voor de eenheid van randomisatie mee in welke mate treatment- en controlegroep elkaar kunnen beïnvloeden en daarmee spillover-effecten veroorzaken. De randomisatie-eenheid dient zo te worden gekozen dat de mogelijkheden voor spillover-effecten worden beperkt. Gegeven de gekozen randomisatie-eenheid is het essentieel om in de analyses de uitkomsten op dat niveau te vergelijken. Alleen op dat niveau is immers sprake van (volledige) randomisatie. Ten derde is het van belang om vooraf te bepalen welke looptijd van het experiment en hoeveel deelnemers nodig zijn om met voldoende zekerheid te kunnen vaststellen of de interventie een effect van een bepaalde omvang heeft. Daarvoor kan gebruik worden gemaakt van zogenaamde power-analyses, waarbij sprake is van een afruil tussen de omvang van het te vinden effect en de schaal van het experiment. De power van een bepaald experimenteel ontwerp hangt af van een aantal factoren, waaronder de methode van randomisatie en de randomisatie-

11 Nadine Ketel en Sandra Vriend 7 eenheid in combinatie met de eenheid waarop de gegevens beschikbaar zijn. Wanneer er geen volledige randomisatie plaatsvindt, zoals in het eerder besproken encouragement design, moet in de power-analyse ook rekening worden gehouden met compliance. Als er vaak wordt afgeweken van de initiële randomisatie is een grotere steekproef nodig. Een vierde aandachtspunt heeft te maken met de informatievoorziening rondom het experiment, zowel aan deelnemers van het experiment als aan de uitvoerders. Wanneer deelnemers wordt verteld dat zij onderdeel zijn van een experiment, kan dit hun gedrag direct beïnvloeden (het Hawthorne-effect). Generalisatie van gemeten effecten naar andere situaties kan daardoor worden bemoeilijkt. Bij voorkeur worden de participanten daarom niet geïnformeerd, maar dit is in de praktijk niet altijd mogelijk. Zo was het bijvoorbeeld in het experiment in de langdurige zorg, dat in sectie 3 wordt besproken, noodzakelijk om zorgaanbieders in te lichten over het experiment. In sectie 3 bespreken we hoe kan worden bekeken of het informeren op zichzelf gevolgen heeft gehad voor het gedrag van zorgaanbieders in het experiment. Wijzigingen in de werkwijze van uitvoerders als gevolg van het experiment vereisen eveneens zorgvuldige communicatie. Soms wordt bijvoorbeeld van een uitvoerder gevraagd om willekeurig te bepalen welke behandeling een deelnemer krijgt, terwijl de uitvoerder gewend is hier een afgewogen keuze in te maken. Daarnaast kan bij uitvoerders het idee ontstaan dat een experiment niet opgezet is om het beleid maar om de uitvoerders zelf te evalueren. Steun van de uitvoerders is essentieel, maar in de praktijk blijkt dat deze er alleen zal komen als de top van de organisatie zich committeert aan het experiment. Naast deze commitment is controle van de uitvoering essentieel om er voor te zorgen dat er uiteindelijk daadwerkelijk verschil is tussen de behandeling die verschillende treatmentgroepen krijgen. In sectie 4 bespreken we wat voor controlemechanismen waren ingebouwd in het experiment met een encouragement design om voldoende verschillen tussen treatment-groepen te krijgen. De voorgaande aandachtspunten hadden elk te maken met interne validiteit, maar ook externe validiteit, dus de mate waarin resultaten kunnen worden gegeneraliseerd naar andere situaties, is van essentieel belang om tot relevante conclusies en beleidsaanbevelingen te kunnen komen. De aanwezigheid van een Hawthorne-effect, zoals hiervoor al benoemd, kan een belangrijke bedreiging vormen voor de externe validiteit van een experiment. In sectie 5 bespreken we een experiment waarbij het initiatief voor het experiment niet direct vanuit de beleidsmakers kwam, maar was gemotiveerd vanuit een wetenschappelijke vraag. De uitdaging hier was om een opzet te vinden waarin deze vraag goed kon worden beantwoord, en waarin mensen bereid waren om mee te werken. Ook hier is de externe validiteit belangrijk: de setting moet niet te kunstmatig zijn zodat de resultaten generaliseerbaar zijn. In de volgende secties behandelen we drie van de hiervoor genoemde aandachtspunten in detail. We bespreken telkens hoe dit aandachtspunt in het betreffende experiment naar voren is gekomen en wat voor gevolgen dit heeft

12 8 Veldexperimenten in de praktijk: opzet, uitvoering en analyse gehad voor de analyses en de effectmeting. In een eerste toepassing is onderzocht wat het effect is van het toetsingsmoment op de kwaliteit en kwantiteit van aanvragen voor langdurige zorg ingediend door zorgaanbieders. Hierbij was de informatievoorziening een belangrijk aandachtspunt. In een tweede toepassing kijken we naar het effect van re-integratieinstrumenten, specifiek het opleggen van een zoekperiode, op de uitstroom van bijstandsgerechtigden. Naleving van de uitvoering van het experiment bleek in dit onderzoek een belangrijk aspect te zijn. Een derde toepassing kijkt ten slotte naar het effect van het geven van een korting op de kosten van bijlessen op de aanwezigheid en prestatie van studenten. Voor dit experiment gaan we in op de externe validiteit en het niveau van randomisatie. 3 Een experiment in de markt voor langdurige zorg Achtergrond. Sinds 2005 functioneert het Centrum Indicatiestelling Zorg (CIZ) als poortwachter voor de toegang tot (een deel van) de AWBZ-gefinancierde langdurige zorg. Om gebruik te kunnen maken van langdurige zorg, moet een aanvraag bij het CIZ worden ingediend. Dit wordt in de regel gedaan door de aanbieders van langdurige zorg. Voordat zorg kan worden ingezet, dient de aanvraag door het CIZ te worden omgezet in een indicatie. Voor een willekeurige steekproef van de aanvragen gaat dit gepaard met een toetsingsprocedure waarin wordt bekeken of de aangevraagde zorg (bijvoorbeeld type, hoeveelheid en leveringsvorm) overeenkomt met regels en richtlijnen en de benodigde zorg voor de cliënt. Iedere getoetste aanvraag krijgt een label conform of niet conform. Niet conform betekent dat er een verschil is tussen de aangevraagde zorg enerzijds en de regels en richtlijnen en benodigde zorg anderzijds. Een niet-conforme toetsing kan ertoe leiden dat de inzetbare zorg afwijkt van de aangevraagde zorg. Aangezien de beschikbare middelen voor het uitvoeren van toetsingen beperkt zijn, kwam vanuit het CIZ de vraag op hoe de kleine geldstroom (de operationele kosten die gemoeid zijn met de verwerking en toetsing van aanvragen) de grote geldstroom (de AWBZ-uitgaven) kan beïnvloeden. Enerzijds kan een bijstelling van de aangevraagde zorg bij een niet-conform toetsingsresultaat voor een directe verandering van de AWBZ-uitgaven zorgen. Anderzijds kan de inrichting van de toetsingspraktijk invloed hebben op het aanvraaggedrag van zorgaanbieders, bijvoorbeeld de kwaliteit van aanvragen, en daarmee indirect, zelfs als geen toetsing plaatsvindt, de AWBZ-uitgaven beïnvloeden. Er zijn verschillende instrumenten in het toetsingsbeleid waarmee kan worden gevarieerd. Een daarvan is het moment van toetsing. Van september 2012 tot april 2013 hebben Lindeboom et al. (2013, 2015) in een veldexperiment onderzocht wat het effect is van het toetsingsmoment op het aanvraaggedrag van zorgaanbieders (het aantal aanvragen en de kwaliteit van de ingediende aanvragen, waarbij het laatste wordt gemeten door de behaalde fractie conforme toetsingen). Het moment van toetsing bepaalt of bijstelling van de aangevraagde zorg mogelijk is bij een

13 Nadine Ketel en Sandra Vriend 9 niet-conform resultaat. In dit experiment werd onderscheid gemaakt tussen drie groepen: 1. een groep met ex-ante (vooraf) toetsing waarbij de mogelijkheid tot correctie van de aangevraagde zorg bestaat; 2. een groep met ex-post (achteraf) toetsing, in welk geval het niet mogelijk is om de inhoud van de zorgvraag aan te passen naar aanleiding van het toetsingsresultaat, en 3. een groep waarin het moment van toetsing werd aangepast op basis van behaalde toetsingsresultaten. In deze laatste groep vertaalde een hoog conformpercentage zich in ex-post toetsing, terwijl zorgaanbieders met lage conformpercentages vooraf werden getoetst (Lindeboom et al. 2015). Informatievoorziening en het Hawthorne-effect. In het experiment werden zorgaanbieders willekeurig toegewezen aan een van de drie bovengenoemde groepen. De zorgaanbieder als randomisatie-eenheid is een logische keuze gezien de interesse in gedragseffecten van zorgaanbieders. Alle deelnemende zorgaanbieders konden volledig willekeurig over de groepen worden verdeeld. Deelname van deze zorgaanbieders was bovendien verplicht. De steun voor het experiment (van de top) binnen het CIZ in combinatie met de verplichte deelname van het merendeel van de zorgaanbieders, maakt dat in dit onderzoek geen sprake is geweest van problemen omtrent de naleving van de experimentele variatie (noncompliance) en dat voldoende aanvragen werden ingediend om effecten met voldoende statistische betrouwbaarheid te kunnen vinden. De informatievoorziening omtrent het experiment is bij dit experiment in het bijzonder een aandachtspunt geweest. Omdat de onderzoekers geïnteresseerd waren in het gedragseffect van een verandering in het toetsingsbeleid en omdat het experiment voor sommige zorgaanbieders directe gevolgen had voor de toetsingsprocedures waarmee zij werden geconfronteerd, was het noodzakelijk om zorgaanbieders vooraf op de hoogte te brengen van het experiment. Zorgaanbieders werden geïnformeerd over de verschillende groepen die binnen het experiment werden onderscheiden. Bovendien werd te kennen gegeven welke verandering in het moment van toetsing de zorgaanbieders tijdens het experiment zouden ondervinden. De uitvoerders van het experiment, dus relatiebeheerders en toetsers bij CIZ, zijn vooraf op de hoogte gebracht van de inhoud van het experiment en de implicaties voor hun werk. Tijdens het experiment is voor hen een presentatie gegeven over het verloop van het onderzoek en enkele tussentijdse resultaten, om zo problemen vroegtijdig te kunnen onderkennen en uitvoerders te motiveren om het experiment zo goed mogelijk te laten verlopen. Dat de onderzoekers genoodzaakt waren om zorgaanbieders te informeren over het experiment en de veranderingen in het toetsingsmoment die dat voor hen opleverde, kan directe gedragsveranderingen van zorgaanbieders tot gevolg hebben

14 10 Veldexperimenten in de praktijk: opzet, uitvoering en analyse (het eerder benoemde Hawthorne-effect). Daarom dient in de analyses te worden bekeken of sprake is van een Hawthorne-effect. Dat kan worden gedaan door gebruik te maken van gegevens over niet-deelnemende zorgaanbieders en de uitkomst voor deze groep te vergelijken met de uitkomst voor de groep waarvoor het toetsingsmoment niet wijzigt ten opzichte van de situatie voorafgaand aan het experiment (in dit geval de groep met vooraf toetsing). De niet-deelnemende zorgaanbieders zijn niet direct geïnformeerd over het experiment en voor deze groep valt dus ook geen gedragsreactie op basis daarvan te verwachten. Wanneer de trend in de uitkomst voor de niet-deelnemende zorgaanbieders gelijk is aan de trend voor de zorgaanbieders in de groep met vooraf toetsing, is het niet waarschijnlijk dat het gedrag van zorgaanbieders in de groep met vooraf toetsing gedurende het experiment toegeschreven kan worden aan een Hawthorne-effect. Figuur 1 laat de trend in het aantal aanvragen zien voor de groep zorgaanbieders die tijdens het experiment, net als voorafgaand aan het experiment, vooraf getoetst werd en de niet-deelnemende zorgaanbieders. 2 Voorafgaand aan het experiment was het aantal aanvragen dat werd ingediend constant. Tijdens het experiment is een stijgende trend te zien in het aantal aanvragen. Dit zou (gedeeltelijk) het gevolg kunnen zijn van gedragsaanpassingen vanwege deelname in een experiment. Echter is een soortgelijke trend ook waarneembaar voor nietdeelnemende zorgaanbieders. 3 Dat maakt het onwaarschijnlijk dat de geschatte effecten van de variatie in het toetsingsmoment vervuild zijn door de aanwezigheid van een Hawthorne-effect. 2 De niet-deelnemende zorgaanbieders waren gemiddeld kleiner in termen van het aantal ingediende aanvragen dan de zorgaanbieders in de groep met vooraf toetsing. De grafiek gaat uit van nietdeelnemende zorgaanbieders met een aantal aanvragen in dat gebied waarin ook zorgaanbieders in de andere groep vallen, en vice versa voor de zorgaanbieders in de groep met vooraf toetsing. Ten slotte zijn de niet-deelnemende zorgaanbieders gewogen om de gewogen verdeling van het aantal aanvragen van niet-deelnemende en deelnemende zorgaanbieders gelijk te maken. De grafiek geeft het gewogen gemiddelde aantal aanvragen weer voor de niet-deelnemende zorgaanbieders en het aantal aanvragen voor de selectie van zorgaanbieders in het regime met vooraf toetsing (groep 1). 3 Formeel kan worden getest of sprake is van een verandering in het aantal aanvragen voor de nietdeelnemende zorgaanbieders ten opzichte van de zorgaanbieders in de groep met vooraf toetsing tijdens de experimentperiode door een gewogen panel fixed effects model te schatten. Hieruit volgt dat er geen sprake is van een significant verschil in het aantal aanvragen tijdens het experiment voor deze twee groepen (zie Lindeboom et al. (2015) voor meer details).

15 Nadine Ketel en Sandra Vriend 11 Figuur 1 Trend in het (gewogen) gemiddelde aantal aanvragen per zorgaanbieder per week. Noot: De verticale lijnen geven de starten einddatum van het experiment weer. Naast informatievoorziening voorafgaand aan het experiment, was in deze studie ook informatievoorziening tijdens het experiment van belang. Daarbij is het essentieel om vooraf na te denken welke informatie moet worden verschaft, in welke opzet en aan welke groepen in het experiment, zonder dat dit een op zichzelf staand effect kan hebben op de uitkomst waarin de onderzoekers geïnteresseerd zijn. In dit experiment vereiste de periodieke verandering in het toetsingsmoment op basis van recente conformpercentages in de derde treatment-groep dat zorgaanbieders in deze groep tijdens het experiment van feedback werden voorzien over de voor hen uitgevoerde toetsingen en de resulterende aanpassing in het toetsingsmoment. Wanneer echter geen soortgelijke informatie zou worden verschaft aan zorgaanbieders in de andere groepen, zou in een effectmeting niet alleen het effect van variatie in toetsingsmoment worden opgepakt, maar eveneens het effect van variatie in de verschafte feedback. Resultaat. De resultaten van het veldexperiment laten zien dat een regime met vooraf toetsing, en dus de mogelijkheid tot correctie van de aangevraagde zorg, 10% minder aanvragen tot gevolg heeft ten opzichte van een regime met achteraf toetsing. Een conditioneel toetsingsregime gaat gepaard met een significante 20%- afname van het aantal aanvragen ten opzichte van de groep met achteraf toetsing. Echter worden deze afnames voor een belangrijk deel verklaard door substitutie naar soorten aanvragen die niet onderhevig zijn aan de experimentele variatie in het moment van toetsing, zoals beschreven in Lindeboom et al. (2015). Daarnaast vinden we negatieve effecten op de kwaliteit van aanvragen: het gemiddelde conformpercentage daalt voor zowel de groep die vooraf wordt getoetst als de

16 12 Veldexperimenten in de praktijk: opzet, uitvoering en analyse groep waarin het toetsingsmoment prestatie-afhankelijk is gemaakt. Het gaat hierbij om afnames met 4 procentpunt en 3 procentpunt respectievelijk. Dit lijkt echter gedeeltelijk verklaard te worden uit een verschil in ex-ante en ex-post toetsing bij de toetsers. Samengevat is ondanks de noodzakelijke informatievoorziening aan deelnemende zorgaanbieders, de effectmeting in dit experiment niet gehinderd door de aanwezigheid van een Hawthorne-effect. Mede naar aanleiding van de resultaten van het veldexperiment is begin 2014 het toetsingsbeleid voor sommige typen aanvragen aangepast. Het resultaat dat variatie in het toetsingsmoment effect heeft op het gedrag van zorgaanbieders en dat er minder aanvragen worden ingediend lijkt te suggereren dat vooraf toetsing als kritisch wordt ervaren door zorgaanbieders. In het nieuwe toetsingsbeleid wordt het toetsingspercentage conditioneel, op basis van geobserveerde prestatie, periodiek aangepast. 4 Zoekperiode voor aanvragers van een bijstandsuitkering Achtergrond. De bezuinigingen van de afgelopen jaren op het re-integratiebudget dwingen uitkeringsinstanties terughoudender te zijn met het aanbieden van reintegratie-instrumenten. Daarnaast dragen gemeentes sinds de invoering van de Wet Werk en Bijstand de financiële verantwoordelijkheid voor de uitvoering van de bijstandswet. Uitkeringsinstanties zijn daarom steeds meer op zoek naar trajecten die daadwerkelijk effectief zijn. Zo kwam in het voorjaar van 2011 de vraag vanuit de Dienst Werk en Inkomen van de gemeente Amsterdam om de effectiviteit te meten van de re-integratie-instrumenten die zij inzetten voor de groep met de relatief kortste afstand tot de arbeidsmarkt. Dit zijn klanten waarvoor ingeschat wordt dat ze binnen zes maanden werk kunnen vinden. Een van de gebruikte re-integratie-instrumenten is de zogenaamde zoekperiode. Een zoekperiode wordt opgelegd tijdens de aanvraag van een uitkering en stelt behandeling van de uitkeringsaanvraag met maximaal vier weken uit. Gedurende deze vier weken is het de bedoeling dat de klant actief naar werk zoekt. De uitkeringsaanvraag wordt alleen geactiveerd als de klant na de zoekperiode terugkeert. Indien de aanvraag wordt toegekend, krijgt de klant met terugwerkende kracht een bijstandsuitkering vanaf de dag van melding. De facto vertraagt een zoekperiode dus alleen het moment van de eerste uitbetaling. Daarom mogen klantmanagers geen zoekperiode opleggen aan klanten met ernstige financiële problemen. Ook als iemand al aantoonbaar vaak heeft gesolliciteerd voor de uitkeringsaanvraag wordt vaak geen zoekperiode opgelegd. De effectiviteit van het opleggen van een zoekperiode is in een veldexperiment, dat in maart 2012 van start is gegaan, door Bolhaar et al. (2014) onderzocht. Voorafgaand aan het experiment werd bij ongeveer 40% van de klanten een zoekperiode ingezet. De beslissing om een zoekperiode op te leggen wordt gemaakt door de klantmanager die het intakegesprek voert. Zonder een experimentele opzet is het moeilijk de effectiviteit van een zoekperiode te bepalen.

17 Nadine Ketel en Sandra Vriend 13 De zoekperiode werd niet voor alle klanten ingezet, en het is heel aannemelijk dat de groep klanten die wel een zoekperiode krijgt verschilt van de groep die geen zoekperiode krijgt. Verschillen in uitkomsten tussen beide groepen kunnen dan net zo goed het gevolg zijn van het krijgen van een zoekperiode als van al bestaande (voor een deel niet-geobserveerde) verschillen tussen beide groepen. Een veldexperiment maakt het mogelijk om deze laatste verschillen uit te sluiten en daarmee de effectiviteit van de zoekperiode te meten. Methode van randomisatie: encouragement design. De voornaamste zorg die bij de Dienst Werk en Inkomen Amsterdam leefde, was dat een veldexperiment met volledig gerandomiseerd toewijzen van zoekperiodes tot schrijnende gevallen zou kunnen leiden. Daarom is gebruik gemaakt van een zogenaamd encouragement design. Randomisatie in deze opzet was op het niveau van de klantmanager. Elke klantmanager kreeg gedurende een periode van drie maanden een standaardkeuze, waarvan alleen mocht worden afgeweken als daar een goede reden voor was. Op deze manier behield de klantmanager de mogelijkheid om ongewenste situaties te voorkomen. Het bieden van deze uitwijkmogelijkheid bleek cruciaal in het overtuigen van de klantmanagers om mee te werken aan het experiment. Omdat klanten willekeurig werden toegewezen aan klantmanagers, leidde dit er automatisch toe dat ook klanten willekeurig werden blootgesteld aan verschillend beleid. Een voordeel van de randomisatie op het niveau van de klantmanager was dat de klanten niet geïnformeerd werden dat ze onderdeel van een experiment waren. Hierdoor was er in dit experiment, in tegenstelling tot het hiervoor besproken experiment, geen zorg over een potentieel Hawthorne-effect. Cruciaal voor het slagen van een experiment met een encouragement design is dat het gedrag van de uitvoerders onder de standaardkeuzes voldoende verschilt. Klantmanagers kregen drie verschillende standaardkeuzes: (1) leg zo vaak mogelijk een zoekperiode op, (2) leg nooit een zoekperiode op en (3) bepaal zelf of een zoekperiode opgelegd wordt (normaal beleid). Deze standaardkeuzes worden in de rest van dit stuk aangegeven met respectievelijk altijd, nooit en normaal beleid. Naleving van de standaardkeuzes. In de uitvoering werden een aantal elementen ingebouwd die konden bijdragen aan een hogere naleving van de standaardkeuzes. Zo vulden klantmanagers voor iedere klant een formulier in waarop hun standaardkeuze voor die periode voorgedrukt was. Op deze manier werden zij continu herinnerd aan de standaardkeuze. De formulieren boden daarnaast de mogelijkheid om tussentijds bij de klantmanagers langs te komen om de formulieren op te halen. Daardoor bleven de klantmanagers zich steeds bewust van het lopende onderzoek en kon tijdens het experiment worden bijgehouden of ze zich aan de standaardkeuzes hielden. In Figuur 2 zien we het percentage klanten aan wie een zoekperiode is opgelegd onder de verschillende opdrachten over tijd. Onder de opdracht nooit werden bijna geen zoekperiodes opgelegd. Gedurende het jaar neemt het langzaam

18 14 Veldexperimenten in de praktijk: opzet, uitvoering en analyse toe, maar het komt nooit boven de 15%. Onder de opdracht normaal beleid was het aantal opgelegde zoekperiodes aan het begin van het onderzoek ongeveer 40%, om toe te nemen tot bijna 60% in december Het verschil tussen de opdracht altijd en normaal beleid was hierdoor het grootst bij de start van het onderzoek. Het aantal zoekperiodes onder de opdracht altijd is redelijk constant over tijd (ongeveer 60%) en ligt over de gehele periode genomen negen procentpunt boven het aantal zoekperiodes onder normaal beleid. Er zijn (zoals verwacht) geen verschillen in de kenmerken van de klanten in de drie groepen, wat betekent dat de groepen alleen verschillen in de kans dat ze een zoekperiode krijgen. Figuur 2 Aantal opgelegde zoekperiodes over tijd, uitgesplitst per standaardkeuze. Niet alle klantmanagers hielden zich echter even goed aan het onderzoek. Figuur 3 geeft per klantmanager aan hoe goed de naleving van de opdrachten was. Op de horizontale as is aangegeven welk percentage van de klanten een zoekperiode krijgt van een klantmanager onder normaal beleid. De verticale as geeft dat onder de standaardkeuze nooit. De grootte van een cirkel geeft aan hoeveel klanten een klantmanager heeft gehad. Indien de standaardkeuzes niet nageleefd waren en klantmanagers hun gedrag niet veranderen naar aanleiding van de standaardkeuzes, zouden alle bollen zich rond de 45 -lijn bevinden. Als de klantmanagers de opdracht nooit volledig naleven zouden alle bollen zich op de horizontale as bevinden. In Figuur 3 is te zien dat een groot deel van de klantmanagers zich (redelijk) aan de opdracht houdt, en een stuk minder zoekperiodes oplegt onder de opdracht nooit dan onder de opdracht normaal beleid. Daarnaast zijn er ook een paar klantmanagers die zich geheel niet aan de opdracht houden en voor wie de bollen op of boven de 45 -lijn liggen.

19 Nadine Ketel en Sandra Vriend 15 Figuur 3 Aantal opgelegde zoekperiodes onder de standaardkeuzes normaal beleid en nooit, uitgesplitst per klantmanager. Bij het analyseren van de data zijn er twee manieren om met de niet volledige naleving van de standaardkeuzes om te gaan. Een vergelijking van de uitkomsten van de drie groepen, zonder mee te nemen of er daadwerkelijk een zoekperiode is opgelegd, geeft het zogenaamde intention-to-treat-effect. In dit geval is dat te interpreteren als het effect van het hebben van een klantmanager met een bepaalde opdracht. Omdat klantmanagers soms afwijken van de standaardkeuze is dit niet gelijk aan het effect van het opgelegd krijgen van een zoekperiode. Om dit laatste effect te schatten, wordt gebruik gemaakt van een instrumentele-variabelenaanpak, waarin de standaardkeuze van de klantmanager het opleggen van de zoekperiode instrumenteert. Dit geeft het effect van de zoekperiode voor mensen die daadwerkelijk een zoekperiode hebben gekregen. Het is essentieel om hier een instrumentele-variabelenaanpak te gebruiken en niet simpelweg de klanten waarvoor klantmanagers hun opt-out-mogelijkheid hebben ingezet weg te laten. Dat is namelijk een keuze van de klantmanager en betreft daarom een (zeer) selectieve groep klanten, waardoor niet het gewenste treatment-effect wordt geschat. Of het intention-to-treat-effect of het instrumentele-variabeleneffect de voorkeur heeft, hangt af van de beleidsvraag. Indien wordt overwogen om de zoekperiode voor iedereen in te voeren, is het tweede effect het meest interessant. Wanneer ook bij bredere invoering van de zoekperiode de klantmanager de mogelijkheid zal behouden om geen zoekperiode op te leggen, is het intention-totreat-effect een betere weergave van het te verwachten effect. Resultaat. Omdat de opdrachten tot flinke verschillen leidden in het aantal opgelegde zoekperiodes was het mogelijk om tot een goede schatting van het effect

20 16 Veldexperimenten in de praktijk: opzet, uitvoering en analyse van een zoekperiode te komen. Het geschatte instrumentele-variabeleneffect van de zoekperiode geeft aan dat een zoekperiode leidt tot 20 procentpunt minder toekenningen van bijstandsuitkeringen. Het gaat hierbij niet alleen om een korte termijn effect, ook na zes maanden is door de zoekperiode het percentage individuen met een bijstandsuitkering nog altijd 12 procentpunt lager. Door het opleggen van de zoekperiode zijn er dus mensen niet in de bijstand terecht gekomen die deze uitkering anders minstens zes maanden hadden ontvangen. De totale bespaarde uitkeringslast is meer dan 800 euro per opgelegde zoekperiode. Klanten compenseren wat ze minder aan bijstandsuitkering ontvangen volledig met meer inkomen uit werk: in de eerste zes maanden wordt gemiddeld 914 euro extra uit werk verdiend. Klanten wijken niet uit naar andere uitkeringen en er is ook geen effect op het gemiddeld uurloon, wat er op wijst dat een zoekperiode er niet toe leidt dat mensen een baan met een lager uurloon accepteren. Samengevat was het gebruik van het encouragement design in dit experiment belangrijk voor de acceptatie van het experiment op de werkvloer en was er, door het inzetten van veel monitoren en communicatie, genoeg naleving van de standaardkeuzes om tot een goede effectmeting te komen. Met de resultaten van het experiment werd voor de Dienst Werk en Inkomen van Amsterdam duidelijk dat een zoekperiode leidt tot een besparing op uitkeringslasten, zonder dat mensen er in inkomen op achteruit gaan. Het gebruik van de zoekperiode is daarom geïntensiveerd. Daarnaast wordt momenteel gekeken om de zoekperiode op een bredere groep klanten toe te passen. 5 Collegegeldexperiment Achtergrond. In veel landen is onderwijs sterk gesubsidieerd. De argumenten hiervoor zijn onder andere de aanwezigheid van positieve externaliteiten, de imperfectie van kapitaalmarkten (het is niet voor iedereen mogelijk om geld te lenen voor onderwijs) en gelijkheidsoverwegingen. De subsidies voor onderwijs kunnen echter een negatief effect hebben op de tijd en moeite die studenten in hun studie steken. Dit kan op twee manieren: ten eerste trekt een lager collegegeld studenten aan die minder waarde hechten aan het onderwijs; ten tweede kan een lager collegegeld er via het sunk-cost-effect voor zorgen dat studenten zich minder verplicht voelen om tijd en moeite in de studie te steken. In het tweede mechanisme kan het bedrag dat wordt betaald dienen als een vrijwillige verbintenis (commitment) om meer tijd en moeite in de studie te steken. Het eerste effect (het selectie-effect) is al veel onderzocht, maar studies naar het sunk-cost-effect zijn nog schaars. 4 Om te testen voor het sunk-cost-effect is een opzet nodig waarin mensen gemiddeld dezelfde bereidheid hebben om te betalen voor onderwijs, maar in werkelijkheid verschillende prijzen betalen. Omdat deze situatie ongebruikelijk is, 4 Voor een volledige beschrijving van het onderzoek en de resultaten, zie Ketel et al. (2015).

21 Nadine Ketel en Sandra Vriend 17 is gekozen voor een veldexperiment. Idealiter zou de hoogte van het collegegeld hierin worden gevarieerd. Omdat dit een dure aangelegenheid is, is gekeken naar variatie in de kosten van bijlessen. In dit experiment werden kortingen van verschillende omvang gegeven aan studenten die zich hadden ingeschreven voor bijlessen en zich dus al hadden gecommitteerd aan het betalen van het totale bedrag voor de bijles (65 tot 75 euro voor vier of vijf lessen). Er waren vier verschillende treatments. Studenten konden een korting krijgen voor het volledige bedrag, moesten 10 euro betalen, kregen een korting van 10 euro, of moesten het volledige bedrag betalen. Op deze manier kon onderscheid worden gemaakt tussen het effect van het geven van een korting, het effect van de grootte van de korting en het effect van niets hoeven betalen (alles ten opzichte van betaling van het volledige bedrag). De omvang van de korting werd bepaald door studenten een envelop te laten trekken uit een stapel. Daardoor waren studenten op de hoogte van het feit dat ze deelnamen in een experiment. Om te voorkomen dat ze zich anders zouden gaan gedragen door het experiment, werd het doel van het experiment zo vaag mogelijk gehouden. Externe validiteit. In tegenstelling tot de eerder besproken veldexperimenten was er bij de opzet van dit experiment geen directe betrokkenheid van beleidsmakers. De uitdaging was daarom om een opzet te vinden waarin deze vraag goed beantwoord kon worden en waarin mensen bereid waren om mee te werken. De voornaamste zorg hierbij is de externe validiteit van de bevindingen. Eerdere studies naar het sunk-cost-effect werden vaak in het lab uitgevoerd, met als voordeel dat de omgeving goed controleerbaar is. Zo is bijvoorbeeld te voorkomen dat studenten met elkaar praten, en worden mogelijke spillover-effecten voorkomen. De vraag is echter of resultaten uit zulke experimenten te generaliseren zijn naar een onderwijssituatie waar studenten tijd en moeite in hun studie steken. Een veldexperiment biedt hierbij uitkomst. Het experiment is uitgevoerd in samenwerking met een bedrijf dat bijlessen aanbiedt aan bachelorstudenten (de Bijlespartner). Door deze samenwerking is er een opzet met de juiste doelgroep (universitaire studenten), die geld uitgeven aan het juiste product (onderwijs), en met duidelijk observeerbare uitkomsten (de aanwezigheid bij de lessen). Het bedrijf had zelf geen geldelijk voordeel van de medewerking aan het experiment, maar kon met de experimentele gegevens wel meer inzicht krijgen in de ervaringen van studenten met de bijlessen. Als de onderzoeksvraag niet bij de organisatie zelf vandaan komt kan het zijn dat er minder betrokkenheid is voor een juiste uitvoering van het experiment. Daarom is voor aanvang van het experiment een contract getekend met de belangrijkste afspraken over de uitvoering en over het naar buiten brengen van de resultaten. Niveau van randomisatie. In dit experiment is er voor gekozen om te randomiseren binnen de bijlesgroepen, in plaats van op groepsniveau. Beide benaderingen hebben voor- en nadelen. Een nadeel van randomisatie binnen een groep is dat er spillovers kunnen zijn: als van twee vrienden in een groep de een

22 18 Veldexperimenten in de praktijk: opzet, uitvoering en analyse wel korting heeft en de ander niet en de persoon zonder korting haalt degene met korting over om toch naar de les te komen, dan zal de onderzoeker geen effect vinden van de korting. Het nadeel van randomisatie op groepsniveau is dat een groep die weinig heeft betaald zou kunnen denken dat de kwaliteit van de docent of de lessen lager is. Dit zou een onafhankelijk effect kunnen hebben op de aanwezigheid in de lessen. Door studenten met verschillende kortingen samen in een klas te hebben, kan dit nooit het geval zijn. Een tweede reden om niet op groepsniveau te randomiseren is power; er zouden bij randomisatie op groepsniveau veel meer groepen en dus observaties nodig zijn om een effect te kunnen bepalen. In dit geval wogen de nadelen van randomisatie op groepsniveau zwaarder en is gekozen voor randomisatie binnen groepen. 5 Resultaat. De voornaamste uitkomstmaat in dit onderzoek was de aanwezigheid in de lessen. 6 Het sunk-cost-effect voorspelt dat studenten die een hogere korting krijgen minder vaak naar de bijlessen zullen komen. Dit is het geval voor de studenten die niks betalen: zij waren minder vaak bij alle lessen aanwezig dan studenten in de overige drie groepen. Het patroon in aanwezigheid over de groepen is echter niet geheel zoals verwacht, aangezien de studenten in de groep met een grote korting het meest aanwezig zijn. In de volledige steekproef lijkt daarom geen sprake te zijn van een sunk-cost-effect. Een onderdeel van de vragenlijst was een hypothetische sunk-cost-vraag. 7 Deze vraag dient om te kijken of bepaalde studenten gevoeliger zijn voor het sunk-cost-effect dan anderen. In de gehele steekproef is 45% van de studenten gevoelig voor het sunk-cost-effect. Voor die groep studenten lijkt er in het experiment wel een sunk-cost-effect te zijn: des te meer een student betaalt voor de cursus, des te vaker de student bij alle lessen aanwezig is. Al met al is er geen onomstotelijk bewijs dat het subsidiëren van onderwijs ertoe leidt dat studenten minder tijd en aandacht aan hun studie besteden, maar suggereren de resultaten voor de groep van sunk-cost-gevoelige studenten dat dit effect voor een subgroep wel aanwezig is. Dat de vraag niet direct van beleidsmakers afkomstig was, betekende overigens niet dat er geen interesse voor was bij beleidsmakers. De resultaten van dit veldexperiment zijn regelmatig gepresenteerd voor een beleidspubliek. Bij zulke presentaties heeft een veldexperiment als bijkomend voordeel dat de opzet transparant is en de resultaten voor een breed publiek begrijpelijk zijn. Samengevat was een belangrijke keuze bij dit experiment, naast het vinden van een partner voor de samenwerking, de keuze voor het randomisatie-niveau. In dit 5 Studenten werden wel gevraagd op te schrijven met welke mensen in de groep ze bevriend waren, om te kunnen controleren voor eventuele spillovers. 6 In Ketel et al. (2015) worden ook de effecten op andere uitkomstmaten besproken, zoals het behaalde cijfer, of een student geslaagd is voor het vak en het aantal uur dat aan het vak is besteed. 7 De vraag was: Stel je hebt een fles sap gekocht voor 2,-. Zodra je begint te drinken merk je dat je de smaak van het sap niet lekker vindt. Drink je de fles leeg?. Daarna werd dezelfde vraag nog twee maal gesteld maar nu met de bedragen 5,-en 1,-. Een participant is gevoelig voor het sunkcost-effect als hij de fles altijd leeg drinkt, of alleen leeg drinkt voor de hoge prijs en niet voor een lagere prijs.

23 Nadine Ketel en Sandra Vriend 19 geval was er geen ideale keuze, zowel randomisatie op groepsniveau als randomisatie binnen de groep hadden voor- en nadelen. Hierbij is het belangrijk van te voren te bepalen welke potentiële vervuilende effecten de grootste invloed zullen hebben op de bevindingen, en op basis hiervan de afweging te maken. 6 Conclusie Veldexperimenten vormen, mits correct uitgevoerd, een overtuigende en transparante methode om beleid te toetsen. Bij de opzet en uitvoering van zulke experimenten moet echter rekening worden gehouden met een aantal potentiële valkuilen die wij in dit artikel aan de hand van veldexperimenten in de zorg, het onderwijs en de sociale zekerheid bespreken. De belangrijkste lessen die we in dit artikel hebben besproken zijn, allereerst, dat het van belang is om vooraf te bepalen welke communicatie noodzakelijk is en wat de mogelijke gevolgen hiervan zijn voor het gedrag van deelnemers aan het experiment. Ten tweede is besproken welke overwegingen relevant zijn wanneer methodes anders dan volledige randomisatie worden ingezet en wat de gevolgen zijn voor de analyses. Ten derde dient de randomisatie-eenheid zo gekozen te worden dat spillovers worden beperkt. Ten slotte dient de externe validiteit van het experiment bij de opzet in de gaten te worden gehouden. Een voordeel van veldexperimenten is dat de resultaten voor beleidsmakers eenvoudig te interpreteren zijn, wat de vertaling in daadwerkelijk beleid bevordert. Zo heeft het experiment in de langdurige zorg er mede toe geleid dat na beëindiging van het onderzoek grootschalige prestatie-afhankelijke variatie in toetsingspercentages bij ex-ante toetsing werd ingevoerd. Bij de Dienst Werk en Inkomen in Amsterdam is het gebruik van de zoekperiode naar aanleiding van de onderzoeksresultaten geïntensiveerd. Daarnaast wordt er momenteel naar gekeken om de zoekperiode op een bredere groep klanten toe te passen. Auteurs Nadine Ketel ( n.ketel@vu.nl) is promovenda bij de Universiteit van Amsterdam en de Vrije Universiteit Amsterdam. Sandra Vriend ( s.vriend@vu.nl) is promovenda bij de afdeling Algemene Economie bij de Vrije Universiteit Amsterdam. Beiden zijn ook verbonden aan het Tinbergen Instituut. Literatuur Behaghel, L., B. Crepon, en M. Gurgand, 2013, Robustness of the encouragement design in a two-treatment randomized control trial, IZA Discussion Papers Bolhaar, J., N. Ketel en B. van der Klaauw, 2014, Onderzoek naar effectiviteit inzet reintegratieinstrumenten DWI, VU/UvA, Amsterdam.

24 20 Veldexperimenten in de praktijk: opzet, uitvoering en analyse Duflo, E., R. Glennerster, en M. Kremer, 2007, Using Randomization in Development Economics Research: A Toolkit in Schultz, T. P. and Strauss, J. A., eds., Handbook of Development Economics, vol. 4: , North Holland, Amsterdam. Ketel, N., J. Linde, H. Oosterbeek en B. van der Klaauw, 2015, Tuition Fees and Sunk-Cost Effects, The Economic Journal, forthcoming. Koning, P., 2011, Experimenten in de sociale zekerheid, Economische Statistische Berichten, vol. 96(4605): Kooreman, P. en J. Potters, 2011, De gouden standaard: Veldexperimenten in de voorbereiding en evaluatie van beleid, TPEdigitaal, vol. 5(3): Lindeboom, M., B. van der Klaauw en S. Vriend, 2013, Proeftuin onderzoek Meten is Weten : Eindrapportage, in opdracht van Centrum Indicatiestelling Zorg. Lindeboom, M., B. van der Klaauw en S. Vriend, 2015, The effect of audit regimes on applications for long-term care, CEPR Discussion Paper No List, J. A., 2011, Why Economists Should Conduct Field Experiments and 14 Tips for Pulling One Off, Journal of Economic Perspectives, vol. 25(3): Ossel, F., 2008, Effect van reïntegratie meten we juist wel, NRC Handelsblad, :7

25 Veldexperimenten voor Beleid Sander Gerritsen en Patricia Prüfer In opdracht van het ministerie van OCW voert het Centraal Planbureau (CPB) regelmatig veldexperimenten uit. De auteurs geven een aantal voorbeelden van veldexperimenten die het CPB recentelijk heeft uitgevoerd en op dit moment uitvoert. Ze sluiten het stuk af met een paar aanbevelingen: (1) er moet een geloofwaardige controlegroep worden gevormd, (2) commitment van alle betrokken partijen bij het veldexperiment is noodzakelijk, (3) er moeten gegevens worden verzameld om het experiment te monitoren, (4) het is nuttig informatie te verzamelen over onderliggende mechanismen van het effect van het experiment, (5) het is nuttig om voorafgaande aan een gerandomiseerd experiment een poweranalyse uit te voeren. 1 Inleiding Dit themanummer gaat over veldexperimenten. Dat uit dergelijke experimenten veel geleerd kan worden voor beleid, behoeft geen betoog. Dat is immers veelvuldig in de literatuur besproken (zie bijvoorbeeld Van Elk 2014; of Kooreman en Potters 2011). Ook willen we niet uitvoerig ingaan op welke econometrische technieken en methoden de onderzoeker tot zijn beschikking heeft om tot een goede evaluatie van een veldexperiment te komen. Daar zijn immers ook goede overzichtsartikelen voor (zie ook Van Elk 2014; Kooreman en Potters 2011). In dit stuk willen we vooral ingaan op de praktische kant van het doen van veldexperimenten. Waar loop je als onderzoeker soms tegenaan? Het CPB voert regelmatig veldexperimenten uit in opdracht van het ministerie van OCW. We zullen voorbeelden geven van veldexperimenten die het CPB recent heeft gedaan en van experimenten waar we op dit moment mee bezig zijn. Aan de hand van deze ervaringen sluiten we het stuk af met een paar aanbevelingen. Deze ervaringen beslaan een vijftal experimenten, die worden uiteengezet in de komende paragrafen. Hierin worden zowel de geslaagde experimenten als een minder geslaagd experiment beschreven. In de volgende paragraaf beginnen we met het veldexperiment bij ROC Rijnijssel. Dit experiment betrof het ideaal voor de onderzoeker: het gerandomiseerde veldexperiment. In zo n experiment worden mensen via loting aan een behandel- of controlegroep toegewezen. De behandelgroep krijgt de interventie, terwijl de controlegroep de interventie onthouden wordt. De loting zorgt ervoor dat voorafgaande aan het experiment de behandelen controlegroep vergelijkbaar zijn, waardoor na afloop het effect van de interventie TPEdigitaal 2015 jaargang 9(3) 21-31

26 22 Veldexperimenten voor Beleid kan worden bepaald door de uitkomsten van de behandelgroep met die van de controlegroep te vergelijken. 1 In paragraaf 3 leggen we vervolgens - aan de hand van een ander voorbeeld - uit dat een dergelijke opzet niet altijd noodzakelijk is om een interventie te evalueren, en dat er ook andere manieren zijn. In paragraaf 4 beschrijven we dan een experiment dat minder succesvol verlopen is om daarna, in paragrafen 5 en 6, experimenten te beschrijven waarbij de lessen van het minder geslaagde experiment zijn meegenomen. In paragraaf 7 volgt ten slotte de conclusie. 2 ROC Rijnijssel: intensieve begeleiding voor mbo 2 leerlingen Een voorbeeld van een succesvol verlopen veldexperiment, is het experiment met intensieve begeleiding voor leerlingen op mbo-2 niveau op het ROC Rijnijssel in Arnhem (zie Van Elk et al. 2012). Dit experiment was gericht op het tegengaan van schooluitval. Aanleiding voor het experiment was de relatief hoge uitval die dit opleidingsniveau traditioneel kent, en de behoefte bij het ministerie van OCW om meer evidence-based kennis te vergaren over de werking van interventies gericht op het reduceren van schooluitval. Het ministerie stelde voor dit experiment middelen beschikbaar voor een coach die intensieve begeleiding gaf aan enkele groepen van gemiddeld 20 mbo-studenten. Deze coach had als doel om uitval te voorkomen en begeleidde de studenten door middel van een-op-een gesprekken om de studievoortgang en persoonlijke problemen te bespreken. Daarnaast ondersteunden de coaches hen tijdens de reguliere lessen, organiseerden zij groepsactiviteiten en gingen zo nodig op huis- en stagebezoek. Enkele klassen binnen het ROC werden door middel van loting toegewezen aan een experimentgroep (met een extra coach) of een controlegroep (zonder extra coach). Op die manier kon het effect van de interventie worden bepaald door de uitval uit de opleiding in de experimentgroepen na 1 en 2 jaar te vergelijken met de uitval in de controlegroepen. Uit het experiment bleek dat de leerlingen in de experimentgroep minder uitvielen dan de leerlingen in de controlegroep. Met andere woorden: de inzet van de coaches verkleinde de kans op schooluitval (Van Elk et al. 2012). Dit experiment was een mooi voorbeeld van een situatie waarbij beleidsmakers van het ministerie, onderwijsprofessionals op het ROC en onderzoekers intensief samenwerkten om te leren over de effecten van nieuw beleid. Dit project was daarmee misschien ook wel een schoolvoorbeeld van een experiment waarbij in grote lijnen alles volgens plan is uitgevoerd. De loting heeft naar behoren plaatsgevonden, dat wil zeggen dat na vaststelling van de loting alle ingelote opleidingen ook daadwerkelijk behandelgroep werden en alle uitgelote opleidingen controlegroep. Ook was er commitment 1 Gestratificeerd loten verdient uiteraard de voorkeur, als dat mogelijk is. In dat geval kunnen op basis van beschikbare informatie voorafgaande aan het experiment paartjes gemaakt worden van personen die op elkaar lijken wat betreft opleidingsniveau, geslacht etc. Vervolgens kan binnen die paartjes geloot worden.

27 Sander Gerritsen en Patricia Prüfer 23 van alle betrokken partijen, waardoor zowel de loting als de dataverzameling zonder problemen verliep. Verder was de opzet van het experiment zodanig dat de behandelgroep de controlegroep niet of nauwelijks kon beïnvloeden (de coach kon immers alleen zijn toegewezen groep coachen, en de leerlingen zaten in verschillende behandelen controlegroepen). 2 Kortom, dit experiment was qua uitvoering redelijk goed verlopen. Maar betekent dit nu dat deze ideale opzet altijd mogelijk is? En moet dat altijd? 3 De Wijkschool Nieuwe beleidsevaluaties hoeven niet alleen maar door middel van randomisatie plaats te vinden. Bij de invoering van nieuw beleid zijn er vaak ook andere kansen die voor evaluaties kunnen worden benut. Zo vinden er in het onderwijs vaak proefprojecten plaats, die goede mogelijkheden bieden voor een evaluatie. Dit kan bijvoorbeeld door de regels te gebruiken voor toewijzing aan de pilot (de experimentgroep) of de controlegroep. Soms kunnen deze regels ervoor zorgen dat een geloofwaardige controlegroep wordt gecreëerd. Dit laatste idee is gebruikt bij een evaluatie van de wijkscholen in Rotterdam (zie Van Elk et al. 2013). Dit type experimenten worden ook wel quasi-experimenten genoemd. 3 In 2009 is een tweejarige pilot gestart met twee wijkscholen die jongeren met complexe problemen op meerdere leefgebieden een intensief programma biedt. De pilot had als doel hen te begeleiden naar het reguliere onderwijs of naar werk. Jongeren die aan een bepaald profiel voldeden werden door de gemeente aangemeld bij de Wijkschool. Door de beperkte capaciteit op de wijkscholen was na verloop van tijd echter geen plek meer voor nieuwe deelnemers. Dit bood de mogelijkheid een controlegroep te vormen. Deze kon namelijk worden geconstrueerd uit de groep jongeren die wel in aanmerking kwamen voor de Wijkschool, maar niet konden deelnemen aan het programma omdat er geen plek meer was op het moment dat zij zich aanmeldden. Als er wel plek was geweest, waren deze jongeren verwezen naar de Wijkschool. Deze groep van vergelijkbare jongeren kreeg vervolgens door de gemeente een regulier traject aangeboden. Het CPB heeft deze toewijzingsprocedure gebruikt voor de evaluatie van de effecten van de Wijkschool. De effectiviteit is bepaald door sociaal-economische uitkomsten van jongeren op de Wijkschool te vergelijken met jongeren in een regulier 2 Bij elk veldexperiment moet goed worden nagedacht over mogelijke contaminatie of besmetting. Er is sprake van contaminatie als deelnemers in de controlegroep ook een deel van de interventie toebedeeld krijgen. Dat moet zoveel mogelijk voorkomen worden. 3 Soms kan een quasi-experiment zelfs te prefereren zijn boven een gerandomiseerd experiment. Bij gerandomiseerde experimenten kunnen de deelnemers weten dat zij onderdeel zijn van een onderzoek waarvan een bepaalde uitkomst in hun belang kan zijn. In dat geval kunnen ze hun gedrag daarop aanpassen, en worden misschien niet meer de effecten gemeten die de onderzoeker zou willen meten.

28 24 Veldexperimenten voor Beleid traject. 4 Uit de analyse kwam naar voren dat leerlingen van de Wijkschool geen grotere kans op onderwijsdeelname of werk hadden vergeleken met de controlegroep. Daarnaast bleek dat een verwijzing naar de Wijkschool zelfs tot een toename in criminaliteit leidde ten opzichte van een verwijzing naar een regulier traject. Een verklaring hiervoor werd gevonden in het feit dat de Wijkschool, in tegenstelling tot de reguliere trajecten, jongeren bij elkaar zet die een crimineel verleden hebben. Hierdoor konden negatieve spillovers (het van elkaar leren van crimineel gedrag) ontstaan die leidden tot meer crimineel gedrag. Dit was een verrassende uitkomst. De verwachtingen waren immers dat er positieve effecten van de Wijkschool zouden zijn; met die intentie was zij immers ook bedacht. Daarmee onderstreept dit onderzoek ook wel het belang van veldexperimenten. Als de Wijkschool niet eerst getest was in deze vorm, en het wijkschoolconcept nationaal geïmplementeerd was, dan zou dat waarschijnlijk tot maatschappelijke schade hebben geleid. Het loont dus om eerst met een idee of beleid te experimenteren, alvorens het landelijk uit te rollen. Daarnaast laat dit veldexperiment zien dat als randomisatie niet mogelijk is, er slim gebruik kan worden gemaakt van de toewijzingsregels om een geloofwaardige controlegroep te vormen. Vaak dienen dit soort mogelijkheden zich aan wanneer er duidelijke restricties worden opgelegd aan deelname aan een pilot. In dit voorbeeld waren dat capaciteitsrestricties, maar men kan ook denken aan budgetrestricties (slechts een bepaalde hoeveelheid geld is beschikbaar, en wie het eerst komt wie het eerst maalt), of een kwaliteit- of niveaurestrictie, bijvoorbeeld als op basis van test scores of IQ studenten worden ingedeeld in een behandel- of controlegroep. Het veldexperiment met de Wijkschool kan dus, hoewel niet gerandomiseerd, gezien worden als een redelijk succesvol verlopen experiment. Helaas is dat niet altijd het geval, zoals bij het mbo-taalexperiment. 4 Mbo Taalexperiment In dit experiment wordt gekeken wat de effecten zijn van het geven van extra taallessen aan mbo-leerlingen. Dit experiment is in het leven geroepen vanuit het ministerie van OCW omdat er zorgen waren en nog steeds zijn over het taalniveau van mbo-leerlingen. Taalvaardigheid is immers een belangrijke factor voor later arbeidsmarktsucces. Uit een aantal onderzoeken blijkt dat het taalniveau van een deel van de mbo-studenten achterblijft bij de niveaus die ze geacht worden te bereiken aan het eind van hun studie. Ook blijkt dat het niveau van geletterdheid onder de beroepsbevolking sinds het midden van de jaren negentig het meest is afgenomen onder middelbaar opgeleiden. De zorgen over taalniveaus van met name middelbaar opgeleiden hebben geleid tot meer beleidsaandacht voor taal, resulte- 4 Daarbij uiteraard rekening houdend met de verschillen in aanmeldingsdatum. In econometrisch jargon: er is een regression discontinuity model gebruikt voor het schatten van de effecten.

29 Sander Gerritsen en Patricia Prüfer 25 rend in onder andere de invoering van centrale examens in het mbo voor lezen en schrijven vanaf Het taalexperiment is in drie achtereenvolgende schooljaren uitgevoerd, onder telkens een nieuw cohort eerstejaars mbo-leerlingen van niveau 3 en niveau 4. In elk schooljaar werd ongeveer de helft van de opleidingen ingeloot. Binnen deze opleidingen (de behandelgroep) werden extra lessen gegeven. De andere helft kreeg deze taallessen niet en vormde dus de controlegroep. Het aantal opleidingen dat aan het experiment zou meedoen werd voorafgaande aan het experiment middels een poweranalyse bepaald. In een dergelijke analyse wordt een indicatie verkregen van de grootte van de steekproef, dat wil zeggen, het aantal waarnemingen dat nodig is om relevante effecten te kunnen vinden. 5 Op basis hiervan zijn er in het eerste schooljaar 36 opleidingen (van de 72) ingeloot die gedurende het eerste studiejaar extra taallessen kregen. De overige 36 kregen deze extra taallessen dus niet. De focus van de extra lessen lag op het aanleren van lees- en schrijfstrategieën. Voor de lessen was apart lesmateriaal ontwikkeld en zij werden gegeven door getrainde docenten. Beoogd was een uitbreiding van het aantal lessen met 30 uur, wat gemiddeld overeen zou komen met een uitbreiding van de onderwijstijd voor Nederlands met 35 procent. Aan het begin en het eind van het schooljaar werden toetsen afgenomen op het vlak van taalverzorging, lezen en schrijven. Uit een (tussen)evaluatie 6 van het CPB bleek dat de extra taallessen geen effect hebben gehad op de taalniveaus aan het eind van het schooljaar. Ook waren er geen aanwijzingen voor positieve effecten voor bepaalde subgroepen. 7 De vervolgvraag die gesteld werd was waarom er geen effecten waren van de extra lessen. Een voor de hand liggende gedachte was dat het de extra lessen zelf waren die geen effect hadden gesorteerd. Maar uit nadere analyse, aan de hand van enquêtes en gesprekken met betrokkenen, kwam een ander beeld naar boven. Diverse factoren leken een rol te hebben gespeeld voor het gevonden nuleffect, hoewel niet precies viel te ontleden in welke mate. Ten eerste de gerealiseerde omvang van de interventie. Het aantal daadwerkelijk gerealiseerde extra lessen was met gemiddeld 24 lessen 20 procent lager dan het vooraf beoogde aantal van 30 lessen. Dit betekende dus dat de interventie niet volledig was uitgevoerd. Een andere belangrijke factor leek de lage motivatie van studenten voor de extra lessen. Dit uitte zich onder meer in een hoog verzuim dat bijna twee keer zo hoog was als bij de reguliere lessen Nederlands. Andere factoren waren een ontbrekend belang van de toetsen voor de studievoortgang, ontevredenheid bij de taaldocenten met het ontwikkelde lesmateriaal en een gebrekkig draagvlak bij de opleidingen voor het experiment. Dit laatste leek vooral te maken te hebben met 5 Relevante effecten wil hier zeggen de minimale effectgrootte van de interventie welke de onderzoeker met zijn onderzoek wil aantonen. Hoe hoger de power van het experiment, hoe hoger de kans dat men kleine effecten van de interventie kan vinden. 6 Deze tussenevaluatie is niet openbaar gemaakt. In 2015 wordt het rapport opgeleverd met de resultaten van de afgelopen drie jaar. 7 Er is uitgesplitst naar geslacht en niveau.

30 26 Veldexperimenten voor Beleid het feit dat docenten van buiten de opleidingen de extra lessen verzorgden. Ten slotte kan de kwaliteit van de ingezette taaldocenten een rol hebben gespeeld: ongeveer 40 procent van hen was niet bevoegd om lessen Nederlands te verzorgen. 8 Uit het experiment van dit eerste schooljaar bleek dus dat de implementatie van de extra taallessen niet optimaal is verlopen. Extra taallessen zouden misschien wel hebben kunnen helpen, maar niet in deze vorm. Wat nu als de docenten wel tevreden waren over het lesmateriaal en er een groot draagvlak was voor het geven van de extra taallessen? Waren er dan wel effecten van de extra taallessen gevonden? Dit project heeft laten zien hoe belangrijk monitoring van een veldexperiment is. Dit wil zeggen dat wordt onderzocht in hoeverre het beleid of de interventie waarvan het effect moet worden gemeten, ook daadwerkelijk volgens plan is uitgevoerd. Voor een goede effectevaluatie van de taallessen zou op zijn minst aan een paar randvoorwaarden moeten zijn voldaan, zoals draagvlak onder de docenten voor het geven van de extra lessen en tevredenheid over het lesmateriaal. Daarnaast laat het ook zien dat het belangrijk is informatie te verzamelen over de context waarbinnen het wordt uitgevoerd. Het hoge verzuim van de studenten en de lage motivatie voor de taallessen gaven een extra indicatie waarom de extra taallessen niet tot effecten hebben geleid. Inmiddels heeft het CPB het derde experimentjaar afgerond, waarbij de lessen die zijn getrokken uit het eerste jaar zijn meegenomen. De taalinterventie is in dit derde jaar beter van de grond gekomen. Docenten zijn tevreden met het nieuw ontwikkelde lesmateriaal, en er is veel minder verzuim onder studenten. Helaas heeft zich in dit experimentjaar echter een ander probleem voorgedaan, dat vooral lag in de methodische opzet van het experiment. In het derde experimentjaar is namelijk de loting niet naar behoren uitgevoerd. Van de 83 opleidingen waarover zou worden geloot (42 in de behandelen 41 in de controlegroep) zijn ongeveer 30 opleidingen uitgevallen. Dit had onder andere te maken met het feit dat de opleidingen uit de onderzoeksgroep geen toestemming van de teamleider hadden gekregen om deel te nemen aan het experiment (dit terwijl het hogere management die goedkeuring wel had gegeven). Ook waren er docenten die op eigen houtje hadden besloten voor sommige ingelote groepen de interventie niet uit te voeren. Daarnaast zaten er van de overgebleven opleidingen een paar opleidingen bij die zich niet helemaal aan de loting hielden. Sommige opleidingen waren ingeloot in de behandelgroep, maar werden controlegroep en kregen dus geen extra lessen. Sommige opleidingen die waren uitgeloot kregen deze extra lessen alsnog en werden dus behandelgroep. In de literatuur wordt dit gemarchandeer met controle- en behandelgroep ook wel met de term noncompliance aangeduid. Dat hoeft in principe geen probleem te zijn omdat het kan worden opgelost door een statistische techniek die bekend staat als instrumentele 8 Onbevoegd wil hier zeggen dat de docenten geen eerste- of tweedegraadsbevoegdheid Nederlands hadden. Ze waren door het betreffende ROC wel als bekwaam bestempeld.

31 Sander Gerritsen en Patricia Prüfer 27 variabele analyse. 9 Maar in dit geval was zelfs dat niet meer mogelijk aangezien de non-compliance daarvoor te groot was (dat wil zeggen dat er te veel opleidingen waren die zich niet meer aan de loting hadden gehouden). 10 Een belangrijke les uit dit taalexperiment is dan ook dat commitment van alle betrokken partijen belangrijk is voor een goede uitvoering van het experiment. Alleen een goedkeuring voor het experiment, afgegeven door het hogere management, kan onvoldoende zijn, aangezien dit geen garantie is dat het lagere management en/of de werknemers op de werkvloer daar gehoor aan geven. In dit voorbeeld gingen sommige teamleiders hun eigen gang. Commitment van alle partijen, en misschien nog wel het meest van de degenen die direct of het dichtst bij het experiment betrokken zijn, is dus zeer belangrijk. De ervaringen met dit veldexperiment zijn meegenomen bij de opstart van een viertal gerandomiseerde veldexperimenten die het CPB uitvoert om voortijdig schoolverlaten (VSV) in het mbo tegen te gaan. Zo is bijvoorbeeld, voorafgaande aan de experimenten, de voorwaarde gesteld dat de subsidie voor het experiment alleen wordt verstrekt als de betrokken organisatie akkoord is met loting van deelnemers in behandelen controlegroepen. Daarnaast is er bij elk ROC een (contact)persoon aangesteld die verantwoordelijk is gemaakt voor het experiment. Deze persoon zorgt ervoor dat de loting naar behoren wordt uitgevoerd en helpt bij de dataverzameling. We zullen twee van deze experimenten kort toelichten. 5 VSV-experiment: de verbeterde intake Het CPB evalueert een veldexperiment bij een ROC waarbij de interventie bestaat uit een verbeterd intakegesprek. Dit gesprek heeft als doel de uitval van vooral risicoleerlingen te verminderen. In het veldexperiment wordt de verbeterde intake afgezet tegen de bestaande intake. Een intakegesprek is een gesprek dat een mboleerling aan het begin van de opleiding volgt, en dat door de studieloopbaanbegeleider wordt uitgevoerd. Zo n gesprek moet ervoor zorgen dat risicoleerlingen worden herkend en dat leerlingen op een traject/opleiding terecht komen dat goed bij hen past. Dat zou uitval moeten voorkomen. De oude intake bij het betreffende ROC was erg versnipperd over de opleidingen. Zij was niet gestandaardiseerd, varieerde in duur, en ook in type bijeenkomst (soms een groepsgesprek, soms individueel). Daarnaast werd er relatief weinig achtergrondinformatie over de leerling opgevraagd om een gedegen advies te kunnen geven. Zo werd er bijvoorbeeld geen informatie ingewonnen bij de ouders. Het idee was daarom opgevat om de intake te verbeteren en te standaardiseren. 9 In het regressiemodel zou hierbij de dummy die aangeeft of een opleiding extra taallessen heeft gekregen geïnstrumenteerd worden met de oorspronkelijke loting. 10 In econometrische termen: de first stage was te zwak, dat wil zeggen dat de dummy die aangeeft of in de opleiding extra lessen zijn gegeven matig correleert met de oorspronkelijke lotingsdummy.

32 28 Veldexperimenten voor Beleid De nieuwe intake bestaat uit een individueel gesprek dat tussen de 45 en 60 minuten duurt en dat volgens een vast format verloopt. Daarbij wordt veel informatie opgevraagd over de student, en wordt ook informatie ingewonnen bij de ouders. Ook zijn de studieloopbaanbegeleiders voor de verbeterde intake geschoold in het herkennen van risicoleerlingen door middel van een driedaagse training. Het doel van de nieuwe intake is dat risicoleerlingen eerder worden herkend waardoor voortijdig schoolverlaten onder mbo-leerlingen kan worden teruggedrongen. In het veldexperiment zijn ongeveer 750 studenten geloot over de behandelgroep en de controlegroep. In elke groep zitten ongeveer 375 studenten. De leerlingen in de behandelgroep ondergaan de verbeterde intake, terwijl de leerlingen in de controlegroep nog de bestaande intake ondergaan. In 2016 zal het CPB met de uitkomsten van dit onderzoek komen. Daarbij zal ook worden ingegaan op mogelijke mechanismen die tot wel of geen effect (op voortijdig schoolverlaten) hebben geleid. Dit wordt o.a. gedaan door gebruik te maken van aanvullende informatie uit enquêtes die zijn uitgezet onder de studieloopbaanbegeleiders. 6 VSV-experiment: steviger verzuimbeleid Op een ander ROC evalueert het CPB een veldexperiment waarbij wordt gekeken naar de effecten van nieuw verzuimbeleid op voortijdig schoolverlaten en verzuim. In het experiment wordt nieuw verzuimbeleid (behandelgroep) afgezet tegen het bestaande verzuimbeleid (controlegroep). Het bestaande beleid is op dit moment zo vormgegeven dat deelnemers tussen de 18 en 23 jaar bij minstens 16 uur ongeoorloofd verzuim in 4 aaneengesloten weken worden gemeld bij een verzuimloket. Dit loket registreert de deelnemer, waardoor er contact wordt opgenomen met het Regionale Meld- en Coördinatiepunt voor voortijdig schoolverlaters (RMC). Dit RMC heeft de wettelijke verplichting om jongeren zonder startkwalificatie te volgen totdat ze 23 jaar zijn. Een maatschappelijk werker vanuit het RMC begeleidt de deelnemer vervolgens naar school, werk of hulpverlening. 11 Het nieuwe verzuimbeleid is anders vormgegeven. Het is erop gericht om eerder en steviger in te grijpen bij ongeoorloofd verzuim. Voordat de deelnemer wordt gemeld bij het verzuimloket (bij minstens 16 uur ongeoorloofd verzuim in 4 aaneengesloten weken), wordt met de deelnemer al het gesprek aangegaan over zijn/haar verzuim bij minstens 8 uur ongeoorloofd verzuim in 4 aaneengesloten weken. De deelnemer wordt opgeroepen voor een preventief spreekuur en krijgt zelfs een huisbezoek door RMC-medewerkers als hij/zij na 2 oproepen voor het spreekuur nog niet verschenen is. Daarnaast worden de ouders op de hoogte gesteld van het verzuim. 11 Daarnaast blijft de mentor vanuit het ROC in contact met de deelnemer en biedt begeleiding, zodat voortzetten van de opleiding, dan wel terugkeer naar school mogelijk is

33 Sander Gerritsen en Patricia Prüfer 29 Het verschil tussen de behandelen controlegroep is dus dat er in de behandelgroep eerder wordt ingegrepen (al bij 8 uur), dat de ouders daarvan op de hoogte worden gesteld, dat er een preventief spreekuur is, en dat een huisbezoek volgt als een deelnemer 2 keer niet op spreekuur is verschenen. Voor dit veldexperiment heeft het CPB ongeveer 6000 leerlingen geloot over twee regimes: 3000 leerlingen in een behandelen 3000 in een controleregime. Als een leerling minstens 8 uur verzuimt in het behandelregime krijgt zij te maken met het nieuwe verzuimbeleid. Doet een leerling dit in het controleregime, dan gebeurt er nog niks. Pas als de leerling 16 uur of meer verzuimt, wordt er ingegrepen en krijgt zij met het oude verzuimbeleid te maken. Het experiment is dus zo opgezet dat het totale effect van het regime bepaald kan worden door een vergelijking te maken tussen de leerlingen in de behandelen controlegroep. Dit is echter niet het enige wat we willen weten. In beide regimes zitten ook veel leerlingen die nog geen 8 uur verzuimen. We willen daarom ook weten wat de effecten zijn van het nieuwe verzuimbeleid voor degenen die ook daadwerkelijk 8 uur of meer verzuimd hebben (en dus naar spreekuur moesten). Vallen zij minder snel uit en verzuimen zij minder dan een vergelijkbare groep die nog onder het oude beleid valt? Om dit te weten te komen worden zij vergeleken met een controlegroep van leerlingen die minstens 8 uur verzuimd hebben maar met het oude verzuimbeleid te maken hebben gekregen. 12 Een vergelijking tussen deze groepen levert dan het gewenste effect op. Op die manier schatten we dus twee effecten: het totale effect van het ingeloot zijn in het nieuwe regime, en de effecten van het nieuwe verzuimbeleid voor diegenen die minstens 8 uur verzuimen (en dus naar spreekuur moesten). In 2016 zal het CPB met de uitkomsten van dit onderzoek komen. Daarbij zal ook worden ingegaan op mogelijke mechanismen die tot wel of geen effect hebben geleid. Dit wordt onder andere gedaan door gebruik te maken van aanvullende informatie uit enquêtes en gesprekken met degenen die het preventieve spreekuur hebben afgenomen in het nieuwe verzuimbeleid. De gesprekken dienen als anecdotical evidence voor mogelijke mechanismen waarlangs het nieuwe verzuimbeleid effect heeft gesorteerd. 7 Conclusies Welke lessen kunnen wij nu trekken uit deze experimenten? Volgens ons ten minste vijf. Ten eerste is het belangrijk dat bij een veldexperiment een geloofwaardige controlegroep wordt gevormd. Het ideaal is uiteraard door middel van (gestratificeer- 12 De behandelgroep zou hier kunnen verschillen van de controlegroep als de studenten, wetende dat ze in het behandelregime zitten, direct anticiperen op het nieuwe verzuimbeleid, bijvoorbeeld door minder te gaan verzuimen. In dat geval kan het percentage leerlingen dat minstens 8 uur verzuimt verschillen tussen behandelen controlegroep. Echter, dit lijkt hier niet een heel groot probleem te zijn, aangezien de leerlingen niet weten in welk regime ze zitten. Dat is niet van tevoren aangekondigd.

34 30 Veldexperimenten voor Beleid de) randomisatie, zoals het geval was bij het experiment in Rijnijssel Arnhem, maar dit hoeft niet per se. Er zijn ook andere manieren om te evalueren. Bij de invoering van nieuw beleid zijn er vaak kansen die voor evaluaties kunnen worden benut. Zo vinden er in het onderwijs bijvoorbeeld vaak proefprojecten plaats, die goede mogelijkheden bieden voor een evaluatie. Dit kan bijvoorbeeld door de regels te gebruiken voor toewijzing aan de pilot (de experimentgroep) of de controlegroep. Soms kunnen deze regels er namelijk voor zorgen dat een geloofwaardige controlegroep wordt gecreëerd, zoals in het voorbeeld van de evaluatie van de wijkscholen in Rotterdam. Een aandachtspunt daarbij is dat contaminatie of besmetting zoveel mogelijk wordt voorkomen, dat wil zeggen dat alleen de behandelgroep de interventie krijgt toebedeeld (en niet ook de controlegroep). Dit is belangrijk, omdat dat anders het effect van de interventie kan vertekenen. Bij het experiment bij Rijnijssel was de opzet zo vormgegeven dat de kans daarop erg klein was. Dit gold overigens ook voor het veldexperiment met de wijkscholen, omdat het onwaarschijnlijk was dat de deelnemers die naar de reguliere trajecten werden gestuurd de deelnemers in de Wijkschool konden beïnvloeden. Ten tweede is commitment van alle betrokken partijen bij het veldexperiment belangrijk, vooral van degenen die direct bij de uitvoering van het experiment betrokken zijn. Vaak zijn dat lagere managementlagen of werknemers op de werkvloer. Het contact en de afspraken die met hen kunnen worden gemaakt zijn misschien nog veel belangrijker dan die met een directeur. Als het hogere management goedkeuring aan een project heeft gegeven, is dat nog geen garantie dat het experiment goed zal verlopen. Een aanbeveling zou kunnen zijn om, als randvoorwaarde voor de subsidieverstrekking voor het experiment, het welslagen van de loting contractueel te laten vast leggen. Daarnaast zou het helpen om, binnen de organisatie waar het veldexperiment zich afspeelt, één persoon verantwoordelijk te maken voor het verloop van het experiment. Hij of zij moet dan wel bij machte zijn om de mensen die betrokken zijn bij het experiment aan te sturen. Dit is onder ander gedaan bij de twee genoemde veldexperimenten om voortijdig schoolverlaten tegen te gaan. Ten derde is het nuttig bij een experiment gegevens te verzamelen voor de monitoring van het experiment. Dat wil zeggen dat over het verloop en de implementatie van de interventie informatie wordt verzameld waarmee kan worden onderzocht of de interventie ook daadwerkelijk volgens plan is uitgevoerd. In het voorbeeld van het taalexperiment is deze informatie verzameld en nuttig gebleken. Hieruit bleek namelijk dat extra taallessen niet helemaal volgens plan waren doorgevoerd. Er was onder andere ontevredenheid van de taaldocenten over het ontwikkelde lesmateriaal en een gebrekkig draagvlak voor het experiment. Ten vierde, en aansluitend op het derde punt, is het nuttig informatie te verzamelen die iets zouden kunnen zeggen over onderliggende mechanismen van het effect. Een effectmeting is mooi, maar als niet duidelijk is waarom er wel of geen effect is, dan wordt wellicht weinig lering getrokken uit het experiment. Deze aanvullende informatie kan via enquêtes van betrokkenen bij het experiment worden verkregen en/of via zogeheten anecdotical evidence, waarbij middels gesprek-

35 Sander Gerritsen en Patricia Prüfer 31 ken een idee wordt gevormd over de onderliggende mechanismen. Dit wordt onder andere gedaan bij de veldexperimenten die het CPB uitvoert om voortijdig schoolverlaten tegen te gaan. Ten vijfde is het nuttig voorafgaande aan een gerandomiseerd experiment poweranalyses uit te voeren. Zij geven een indicatie van de grootte van de steekproef die nodig is om relevante effecten te vinden. Daarbij is een aandachtspunt dat men ook rekening houdt met uitval van deelnemers. Het voorbeeld van het taalexperiment liet zien dat een behoorlijk deel kan uitvallen. Deze vijf punten bieden waarschijnlijk geen uitputtende lijst waar onderzoekers rekening mee kunnen houden bij het opzetten van veldexperimenten. Elk onderzoek is immers weer anders. Maar zij kunnen de onderzoekers misschien wel op weg helpen. Auteurs Sander Gerritsen ( is wetenschappelijk medewerker bij het Centraal Planbureau en Patricia Prüfer ( is senior onderzoeker bij CentERdata, Tilburg University. Literatuur Elk, R. van, 2014, Evidence-based beleid, in: R. Klaus, L. Borghans en I. Waterreus (eds), Wat is Goed Onderwijs? Bijdragen uit de Onderwijseconomie. Elk, R. van, M. van der Steeg en D. Webbink, 2012, Zorgt intensieve coaching voor minder voortijdig schoolverlaten? Empirisch bewijs van een gerandomiseerd experiment, CPB Discussion Paper 224. Elk, R. van, M. van der Steeg en D. Webbink, 2013, The effects of a special program for multi-problem school dropouts on educational enrolment, employment and criminal behaviour, CPB Discussion Paper 241. Kooreman, P. en J. Potters, 2011, De gouden standaard: Veldexperimenten in de voorbereiding en evaluatie van beleid, TPEdigitaal, vol. 5(3):

36 Hoe stimuleer je vrijwillige bijdragen aan een publiek goed? Robert Dur en Ben Vollaard In samenwerking met lokale overheden hebben we vier veldexperimenten uitgevoerd om een klassiek free rider-probleem op te lossen: het schoonhouden van de eigen straat. De experimenten toetsen in een volledig natuurlijke omgeving verschillende manieren om te voorkomen dat huisvuilzakken en grofvuil zich opstapelen naast de gezamenlijke afvalcontainer, zogenoemde bijplaatsing. Meer aan de bewoners zelf overlaten door minder frequent schoon te maken blijkt ook op langere termijn niet te resulteren in minder maar in meer bijplaatsing. Bewoners blijken wel positief te reageren op het zichtbaarder maken van de handhavingsactiviteiten van stadstoezicht en op het in een gesprek aan de deur ontlokken van de belofte de straat schoon te houden. Informatie geven die het makkelijker moet maken het goede te doen, blijkt geen effect te hebben. 1 Inleiding Burgers hebben zelf een belangrijke rol bij het creëren van een prettige, veilige leefomgeving. Zij kunnen bijvoorbeeld zelf hun rommel opruimen in plaats van dit aan de gemeentereiniging over te laten. Zij kunnen ook anderen aanspreken die de straat vervuilen. Veel gemeenten proberen de burger hiertoe te stimuleren. Dan gaat het gemeenten niet alleen om afval, maar ook om het niet achterlaten van hondenpoep, ingrijpen bij pogingen tot diefstal, een oude buurvrouw helpen met boodschappen, enz. Dit zijn allemaal zaken waar de overheid een rol heeft, maar de burger zelf ook. De extra aandacht voor een eigen bijdrage van de burger komt voor een deel voort uit het populaire idee van de participatiesamenleving (Tonkens 2014). In de Troonrede van 2013 werd dit idee als volgt verwoord: De klassieke verzorgingsstaat verandert langzaam maar zeker in een participatiesamenleving. Van iedereen die dat kan, wordt gevraagd verantwoordelijkheid te nemen voor zijn of haar eigen leven en omgeving. Een al te actieve overheid de klassieke verzorgingsstaat kan de burger passief maken, waardoor de overheid zich genoodzaakt voelt nog meer te doen, de burger nog passiever wordt, enz. In veel gemeentehuizen is dit idee terug te horen en proberen ambtenaren het handen en voeten te geven. Daar bestaat nu extra reden voor, omdat gemeenten de laatste jaren hard zoeken naar TPEdigitaal 2015 jaargang 9(3) 32-49

37 Robert Dur en Ben Vollaard 33 manieren om te bezuinigingen. Een minder grote rol van de overheid kan ook meehelpen de begroting rond te krijgen. 1 In dit artikel bespreken wij de resultaten van vier veldexperimenten die zijn gericht op het stimuleren van burgers om de straat waarin ze wonen schoon te houden in samenwerking met de gemeente Rotterdam. Het gaat hier om het klassieke probleem uit de economische literatuur van vrijwillige bijdragen aan een publiek goed. Een dergelijke bijdrage heeft private kosten, maar publieke baten. Het eigen afval netjes opruimen en helemaal dat van anderen kost moeite, terwijl ieder ander er gratis van meeprofiteert. In veel buurten is het niet vreemd om afval achter te laten, ook niet in de eigen straat. Lang niet alle bewoners houden zich standaard aan de norm de straat schoon te houden. De straat vervuilen bijvoorbeeld een grote kartonnen doos naast de vuilcontainer zetten in plaats van zelf weg te brengen is aantrekkelijk voor wie niet heel altruïstisch is. Ook levert wat extra s doen niet snel complimenten en aandacht op die het de moeite waard kunnen maken. De overheid kan het gat vullen door een reinigingsdienst te organiseren die alles voor de burger opruimt en private bijdragen daaraan via belastingheffing te verplichten. Dit kán zoals gezegd de burger nog passiever maken dan hij of zij al was (zogenoemde crowding out) al is dit geen gegeven, zoals we hieronder bespreken. Rommel op straat is wereldwijd een groot probleem. Los van de volksgezondheidsaspecten en de negatieve gevolgen voor de natuur, ergeren veel mensen zich er aan. In Nederland is rommel op straat na hondenpoep het grootste overlastprobleem in de categorie fysieke verloedering van de buurt (Veiligheidsmonitor 2014). De maatschappelijke relevantie van het toetsen van nieuwe ideeën om dit probleem klein te krijgen, is daarom groot. De wetenschappelijke bijdrage van de experimenten ligt in het toetsen van theorieën in het veld, binnen een alledaagse context. Veel van het onderzoek op dit terrein vindt plaats in het lab (zie bijvoorbeeld Engel et al. 2014), maar de ultieme toets van validiteit en praktische bruikbaarheid van ideeën ligt in het veld. De context van een schone straat is interessant, omdat het veldonderzoek dat economische theorieën op dit terrein toetst zich vaak beperkt tot de context van liefdadigheid (zie bijvoorbeeld Shang en Croson 2009) en het betalen van belasting (zie bijvoorbeeld Fellner et al. 2013). 2 Steun voor veldexperimenten Samen met een gemeente een reeks veldexperimenten opzetten is in Nederland geen vanzelfsprekendheid. Hoe kan het dat dit in Rotterdam is gelukt? Eerste reden was dat rommel op straat en vuil naast afvalcontainers een politieke prioriteit was geworden. Leefbaarheid van de buurt was een politiek belangrijke zaak en rommel deed daar zeer zichtbaar afbreuk aan. 1 Zo stelt de Rotterdamse wethouder van financiën en organisatie dat de grote vermindering van het aantal ambtenaren in haar gemeente om een andere instelling vraagt. Waar ze vroeger vaak bepaalden hoe plannen eruit kwamen te zien, moeten ze nu juist ideeën en initiatieven voor de stad aan de inwoners overlaten. ( 2500 minder ambtenaren in Rotterdam, Nu.nl, 17 mei 2015).

38 34 Hoe stimuleer je vrijwillige bijdragen aan een publiek goed? Tegelijk was er behoefte aan hard bewijs over wat wel en wat niet werkt. Veel was de afgelopen jaren geprobeerd, waaronder hoge boetes, frequent schoonmaken en publiciteitscampagnes, maar afval op straat bleef in grote delen van Rotterdam een groot probleem. Door de afwezigheid van een vergelijkbare controlegroep waren geen van de inspanningen eenduidig te bestempelen als succes of mislukking. Hierdoor bleef de discussie gebaseerd op opinies in plaats van feiten. De opinies over de te volgen aanpak liepen wijd uiteen. Het gebrek aan consensus gold niet alleen voor volksvertegenwoordigers met de klassieke tegenstelling tussen de harde aanpak voorgestaan door rechts en de softere aanpak voorgestaan door links maar ook voor bestuurders, beleidsambtenaren en uitvoerders op straat. Nu zijn er wel meer politieke prioriteiten met weinig overeenstemming over de aanpak; er was een aantal andere factoren dat meehielp om de veldexperimenten te starten. Allereerst was dat ruggensteun van een pragmatische wethouder, Alexandra van Huffelen. Zij was dankzij haar sociaalwetenschappelijke studie bekend met het nut van experimenteel onderzoek. Belangrijk was ook dat binnen het gemeentelijke apparaat één persoon het onderzoek adopteerde, Maya von Harras. Ten slotte was het eerste experiment te zien als een toets op de gevolgen van een mogelijke bezuiniging, wat voor de gemeente Rotterdam interessant was gegeven de slechte financiële situatie. Toen het eerste veldexperiment eenmaal was uitgevoerd, bleken vervolgexperimenten relatief gemakkelijk te realiseren. De gemeentelijke diensten waren bekend geraakt met de meerwaarde van het creëren van een vergelijkbare controlegroep. De gegevens verzameld voor het eerste experiment wekten grote interesse: plotseling was helder op welke plaatsen en op welke tijdstippen het probleem zich concentreerde. Ook hadden we het vertrouwen gewonnen van de uitvoerders, omdat we alles wilden weten over hoe ze hun werk uitvoerden, bij werkoverleggen aanwezig waren en meeliepen. Dit vloeit vanzelf voort uit een veldexperiment, en verstevigt de samenwerkingsrelatie. 3 Context: ondergrondse containers voor huisvuil De experimenten richten zich op overlast van huisvuil naast containers, zogenaamde bijplaatsing. Rotterdam is grotendeels overgegaan op inzameling van huishoudelijk afval door middel van containers. Deze containers worden gedeeld door ongeveer 50 huishoudens. Het meest gebruikte type container heeft bovengronds een metalen opbouw met een trommel, afgesloten door een klep met een handvat. Het vuil komt terecht in een onzichtbare ondergrondse container. Deze wordt een of twee maal per week geledigd. Gebruik van de container is gratis en vereist geen pasje. De regels voor het aanbieden van huisvuil zijn eenvoudig. Vuilniszakken horen ín de container, niet naast de container. Als de container klem zit of vol is uit onze gegevens blijkt dat overigens weinig voor te komen dan moet een andere container worden gebruikt. Grofvuil mag niet naast de container worden gezet: bewo-

39 Robert Dur en Ben Vollaard 35 ners moeten een afspraak maken met de gemeente om dit te laten ophalen (gratis) of moeten het zelf naar het milieupark brengen (ook gratis). De gemeente heeft een forse boete gezet op bijplaatsing van huisvuil. Ten tijde van het onderzoek was de boete minimaal 115 euro. Dit staat op elke container duidelijk met een grote sticker aangegeven. Handhavers van Stadstoezicht kunnen hiervoor bekeuren. Heterdaadjes zijn zeldzaam, gebruikelijker is het dat handhavers adresgegevens uit bijgeplaatste vuilniszakken halen. Sommige handhavers zijn hier op gespitst, al is het speuren naar daders bijzonder onfris werk. Andere handhavers richten zich liever op zaken als foutparkeren. De pakkans voor bijgeplaatste huisvuilzakken ligt op basis van de door ons verzamelde gegevens niet hoger dan 5 procent. Illegaal plaatsen van grofvuil blijft nagenoeg onbestraft. Ondanks de hoge boete is het plaatsen van huisvuil naast de container in veel delen van Rotterdam een groot probleem. Het opruimen van al het vuil rond de containers is kostbaar voor de gemeente. Bijplaatsing kan verschillende redenen hebben. Allereerst kan het zijn dat bewoners niet weten hoe het hoort. Rotterdam kent veel immigranten en tijdelijke arbeidskrachten van buiten Nederland. Over het aanbieden van vuilniszakken kan ook voor deze groep weinig onduidelijkheid bestaan: de vuilcontainers staan midden op het trottoir en de informatiestickers op de containers zijn in beeldtaal. Dit kan anders liggen voor grofvuil. Nieuwkomers weten wellicht niet hoe een afspraak is te maken voor het laten ophalen van grofvuil en waar het milieupark is als ze al weten dat de container niet is bedoeld als verzamelplaats voor huisvuil. Naast niet weten zou het kunnen dat bewoners niet altijd het goede kunnen doen. De container zit soms klem of vol. Zoals eerder gezegd blijkt dit weinig voor te komen. Daarnaast moeten bewoners in dat geval gewoon een andere, iets verder weg gelegen container gebruiken. Een laatste mogelijke reden voor bijplaatsing is dat bewoners niet het goede willen doen. Het kost enige moeite de container te openen en te sluiten; het kost ook enige moeite om grofvuil op de juiste manier kwijt te raken. Gemakzucht is een motief dat veel genoemd wordt door zowel bewoners zelf als de reinigingsdiensten. Opvallend is dat bijgeplaatste vuilniszakken zo goed als altijd direct naast de container staan en niet elders in de straat. Als gemakzucht een belangrijk motief is, waarom lopen de bewoners dan naar de container? Een mogelijke verklaring voor plaatsing naast de container is dat de container klem of vol is. Maar dat is niet vaak het geval. Bewoners zouden wel kunnen denken dat de container klem of vol is als er al een zak naast staat. Dit lijkt op gemakzucht: het is een makkelijke uitvlucht. Een andere mogelijke verklaring is dat de container een plaats is die het minst stoort voor het neergooien van een zak. Een zak voor de eigen deur is weinig aantrekkelijk: dit vormt een belangrijke hint wie de dader is. Een zak voor de deur van de buurman is ook weinig aantrekkelijk: die wil er niet op uitkijken. Een zak bij de container is ook niet de bedoeling, maar dit is nu eenmaal het verzamelpunt. Door de zak naast de container te plaatsen bespaart iemand zich de moeite van het bedie-

40 36 Hoe stimuleer je vrijwillige bijdragen aan een publiek goed? nen van de container, maar is de zak ook kwijt zonder de medebewoners al te zeer voor de neus te stoten. Dit werkt natuurlijk niet wanneer een medebewoner vol zicht heeft op de container. Maar dit is lang niet altijd het geval: containers staan vaak op de hoek van de straat. 4 Opzet van de veldexperimenten De vier veldexperimenten hebben dezelfde opzet. Een experiment richt zich op een buurt met een groot bijplaatsingsprobleem. We beginnen met het registreren van huisvuil rond alle containerlocaties in de buurt. 2 Dit gebeurt door zogenoemde schouwers, vaak re-integratiekandidaten. Zij tellen iedere werkdag zowel in de ochtend als in de middag het aantal vuilniszakken dat naast de containers staat. Ook registreren zij aanwezigheid van een aantal soorten grofvuil. Hier zijn zij uren per dag mee bezig. Terwijl de voormeting loopt, wijzen we containerlocaties willekeurig toe aan een experimentele groep en een controlegroep. In de experimentele groep wordt een nieuwe aanpak uitgeprobeerd. In de controlegroep nog niet, die dient om te weten te komen wat er was gebeurd als de nieuwe aanpak in de experimentele groep niet was geïntroduceerd. Om te zorgen voor een gelijke verdeling van relatief vieze en schone locaties in beide groepen, houden we bij de toewijzing rekening met de mate van bijplaatsing gedurende de voormeting (zogenoemde blocking). Containerlocaties waar (bijna) nooit bijplaatsing plaatsvindt, worden vaak buiten de toewijzing en het experiment gelaten. Alle bij de veldexperimenten betrokken burgers zitten in hun natuurlijke omgeving. Het enige wat is gemanipuleerd zijn routines van gemeentelijke diensten. Wij hebben zelf geen afval geplaatst, weggehaald of iets van dien aard. De schouwers hadden wel eens contact met de bewoners, maar dit bleef beperkt. Daarnaast vond dit contact zowel in de controle- als experimentele groep plaats. De nieuwe aanpak geven we meerdere maanden om zich te bewijzen. Dit is niet alleen van belang om te komen tot een precieze schatting van het effect op een uitkomstvariabele die sterk fluctueert, maar ook om mogelijke dynamiek in de respons van bewoners te ontdekken. De resultaten van het experiment worden direct met de gemeente gedeeld. Bij succes rolt de gemeente de interventie verder uit, onder andere naar de controlegroep. Bij falen draait de gemeente de interventie terug, past de opzet ervan aan of probeert een alternatief uit. 2 Een locatie kan een of twee afvalcontainers tellen en soms ook een container voor glas en papier.

41 Robert Dur en Ben Vollaard 37 5 Veldexperiment I: verdringt frequent schoonmaken initiatief van de bewoners zelf? In het eerste veldexperiment brengen we de frequentie waarmee de gemeente rond de containerlocaties schoonmaakt drastisch terug (Dur en Vollaard, te verschijnen). De gedragsreactie hierop door bewoners kan ons iets leren over het veelgehoorde motto schoon houdt schoon. Is het zo dat bewoners netter worden als de gemeente veel schoonmaakt (zogenoemde crowding in) of worden bewoners juist minder net omdat de gemeente de straat toch wel schoonmaakt (zogenoemde crowding out)? Het beleid in Rotterdam, en in veel andere steden, wordt sterk gedreven door de gedachte dat crowding in domineert. In de wijk waarin dit veldexperiment plaatsvindt, wordt al jaren dagelijks en op sommige locaties zelfs meerdere malen op een dag schoongemaakt. De extra inzet van middelen wordt vaak gelegitimeerd met verwijzingen naar de sociaal-psychologische literatuur. 3 Deze experimenten hebben alle gemeen dat ze alleen de spontane respons op een schone of vieze omgeving meten. Onbekend is of mensen op een gegeven moment leren dat hun vuil toch wel wordt opgeruimd en gaan freeriden op de inspanningen van de gemeente. Dit laatste hoorden we relatief vaak van personeel dat het schoonmaakwerk op straat doet, maar deze mening werd niet door iedereen gedeeld. Om bewonersgedrag in een herhaalde setting te onderzoeken, brachten we in een deel van de Tarwewijk op Rotterdam-Zuid de frequentie van schoonmaken terug tot het basisniveau. Schoonmaken gebeurde alleen wanneer de container werd geledigd, dat was twee of drie keer per week. 4 Dit deden we van eind november 2010 tot begin maart Voor het onderzoek werd een deel van de wijk in twee soortgelijke delen geknipt; de ene helft vormde de behandelde groep (21 locaties), de andere helft de controlegroep (20 locaties). 5 Het onderzoek betrof ongeveer huishoudens. De twee delen kenden een soortgelijke mate van bijplaatsing rond het middaguur. Een enquête uitgevoerd in de wijk, de Integrale Veiligheidsmonitor 2009, laat voor beide groepen ook soortgelijke uitkomsten zien voor perceptie van verloedering, zorgen over criminaliteit, leeftijd en arbeidsmarktsituatie. Uitkomstvariabele is de bijplaatsing van afval rond containerlocaties tussen de schouw van 14 uur en de schouw van 9 uur de volgende ochtend. We meten of er extra vuil is bijgekomen. Het kan om zakken gaan, maar ook om grofvuil. Het is van belang extra bijplaatsing tussen middag- en ochtendschouw te meten in plaats van wat er simpelweg naast de container staat op een bepaald moment, omdat er door de lagere schoonmaakfrequentie sowieso meer vuil naast de behandelde containers staat. Om de bewonersreactie op de lagere schoonmaakfrequentie te weten te komen, analyseren we of de mate van bijplaatsing verandert. We laten alle dagen 3 Voor deze experimenten, zie bijvoorbeeld Cialdini et al. (1990) en Huffman et al. (1995). 4 In de analyse controleren we voor eventuele veranderingen in de mate van handhaving als gevolg van de interventie. 5 Randomisering op het niveau van containerlocaties was in dit eerste experiment vanwege logistieke redenen onmogelijk.

42 38 Hoe stimuleer je vrijwillige bijdragen aan een publiek goed? buiten beschouwing waarvoor de meting van bijplaatsing verstoord wordt door reinigingsactiviteiten. Figuur 1 laat de dagelijkse ontwikkeling in extra bijplaatsing zien in reactie op de lagere schoonmaakfrequentie in vergelijking tot de controlegroep. We controleren voor dag-vaste effecten en containerlocatie-vaste effecten. Op de horizontale as correspondeert punt 0 met de start van de interventie (29 november 2010). De figuur laat duidelijk zien dat zodra de schoonmaakfrequentie omlaag gaat, het aandeel locaties met bijplaatsing omhoog gaat. De stijging ligt rond de 15 procentpunt. Dit betekent 75 procent meer locaties met extra bijplaatsing (basisniveau is 20 procent). Opvallend is dat dit effect op peil blijft gedurende de drie maanden van het onderzoek. Bewoners lijken dus niet na verloop van tijd te leren dat ze zelf voor minder vervuiling moeten zorgen om hun wijk schoon te houden. Ook opvallend is dat bewoners niet direct hun gedrag aanpassen nadat de schoonmaakfrequentie weer terug is op het oude niveau, na afloop van het experiment. Ze blijven meer bijplaatsen in de maand na de interventie. Een toets op de verandering in bijplaatsing laat zien dat het effect van de interventie statistisch significant is op het 1 procent niveau (Dur en Vollaard, te verschijnen: tabel 3, p. 16). Hetzelfde geldt voor het na-ijleffect. Figuur 1 Verschil in extra bijplaatsing tussen behandelde locaties en de controlegroep, per dag (klein, grijze cirkels) en per maand (grote, zwarte cirkels) Bron: Dur en Vollaard (te verschijnen), p. 15. We vinden dus duidelijk dat op straat het schoon houdt schoon -effect domineert. Minder vaak schoonmaken betekent een uitnodiging om minder net te zijn. Tegelijk zien we ook een tegenbeweging, al is die minder groot. Dit blijkt uit data over telefonische afspraken met de gemeente vanuit de twee gebieden. Voor elke containerlocatie weten we hoeveel van de bewoners een afspraak hebben gemaakt

43 Robert Dur en Ben Vollaard 39 voor het ophalen van grofvuil. Wanneer de schoonmaakfrequentie omlaag gaat, zien we dat bewoners rond deze behandelde locaties vaker een dergelijke afspraak maken. Het effect is statistisch significant op het 5 procent niveau (ibid.: tabel 4, p. 20). Dit onderzoek biedt twee belangrijke inzichten. Allereerst vinden we dat ook op de langere termijn het schoon houdt schoon -effect domineert althans wanneer de schoonmaakfrequentie wordt gereduceerd. Tot nog toe was alleen de spontane respons onderzocht. Nu vinden we ook in een herhaalde setting dat bewoners meebewegen met publieke dienstverlening. Daarnaast zien we dat bewoners in een herhaalde setting wel direct reageren op een reductie in schoonmaakfrequentie, maar traag reageren op een verhoging van de schoonmaakfrequentie. Vaker schoonmaken leidt dus niet in elke setting direct tot netter gedrag. Gemeenten kunnen er dus niet vanuit gaan dat vaker schoonmaken bewoners altijd netter maakt. Vervolgonderzoek binnen een herhaalde setting moet ons leren of en zo ja hoe lang het duurt voordat bewoners wél reageren. Dit veldexperiment stelde ons in staat de gedragsrespons te toetsen in een volledig natuurlijke omgeving. Dit is een belangrijk voordeel ten opzichte van een meer kunstmatige context, bijvoorbeeld wanneer de onderzoekers zelf vuil bijplaatsen of weghalen om een reactie uit te lokken. Nadeel is minder controle over de vormgeving van het experiment, waardoor we niet kunnen toetsen welke mechanismen precies achter de waargenomen respons zit. Meer bijplaatsing in reactie op een lagere schoonmaakfrequentie kan het resultaat zijn van imitatiegedrag, afgenomen angst voor sociale sancties en boetes, zogenoemde conditionele coöperatie ( ik houd het schoon als een ander dat ook doet ), en ten slotte afnemende kosten van extra vervuiling ( als het toch al vies is, dan maakt wat extra rommel niet meer uit ). Vervolgonderzoek moet uitwijzen in welke mate elk van deze mechanismen de waargenomen respons kunnen verklaren. 6 Veldexperiment II: reageren bewoners op het opvallender maken van handhaving? In het tweede veldexperiment maken we handhavingsactiviteiten zichtbaarder. Zoals gezegd staat er een boete op bijplaatsing. Dit staat duidelijk met een sticker aangegeven op de container, maar die valt misschien niet meer op na de container honderd maal gebruikt te hebben. De handhavers zijn maar enkele minuten in de straat te zien. Wie gepakt wordt, krijgt in Rotterdam twee weken later een envelop met de boete in de bus. Niemand anders hoeft dat te weten te komen. De pakkans en boete maken door deze weinig opvallende wijze van werken mogelijk geen onderdeel uit van de actieve kennis van de meeste bewoners (zogenoemde salience, zie Bordalo et al. 2012). Gevolg is dat de pakkans en boete weinig gewicht krijgen in de beslissing om bij te plaatsen. De bewoners gaan zich dan gedragen alsof ze risicozoekend zijn.

44 40 Hoe stimuleer je vrijwillige bijdragen aan een publiek goed? Deze gedachtegang sluit aan bij de bevinding dat we regelmatig illegaal gedrag zien waarvan de kosten de baten ruim lijken te overtreffen. Dat geldt voor ernstige misdrijven als bankovervallen (Reilly, Rickman en Witt 2012) en andere vermogensdelicten (Wilson en Abraham 1992), maar zoals we zullen zien ook voor bijplaatsing rond de locaties waar ons onderzoek betrekking op heeft. 6 Ook kan salience wellicht verklaren waarom in sommige gevallen straffen wel afschrikkingseffecten hebben en in andere gevallen niet. Zo vindt Lochner (2007) dat al dan niet aangehouden worden na het plegen van het delict een duidelijke invloed heeft op de perceptie van de pakkans en ook op later crimineel gedrag. Hjalmarsson (2009) vindt geen effect op percepties of gedrag van de grote stijging in zwaarte van straffen wanneer iemand 18 jaar wordt en niet langer onder het jeugdstrafrecht valt. Het eerste, al dan niet gepakt worden, is wellicht veel meer onderdeel van actieve kennis dan het tweede, een verandering in juridische behandeling. Als het inderdaad zo werkt, dan is het goed voor te stellen dat het eerste wel gewicht heeft en het tweede niet bij het maken van inschattingen en van keuzes. Dit experiment rond handhaving hebben we net als het eerste veldexperiment in Rotterdam uitgevoerd. Omdat in de uitvoering tegelijk met de interventie andere routines werden veranderd, konden we niet volledig voor de resultaten instaan. We hebben hetzelfde experiment daarom gerepliceerd in Heerlen. Dit is een kleinere gemeente, maar het bijplaatsingsprobleem is in delen van Heerlen minstens zo groot als in Rotterdam. Hieronder beschrijven we de opzet en resultaten van het veldexperiment in Heerlen. De uitgangspunten van het experiment waren ook in Heerlen zoals besproken in paragraaf 4. Verschil is wel dat het experiment in Heerlen zowel restafvalcontainers als glasen papiercontainers betreft. In Heerlen worden deze samengenomen binnen de groep hotspot -containers waar het onderzoek zich op richt. De restafvalcontainers staan dichtbij woningen, net als in Rotterdam. Bewoners moeten in Heerlen een pasje gebruiken voor het gebruik ervan. Aan het eind van het jaar wordt het gebruik verrekend: elk gebruik kost een euro. De glasen papiercontainers staan op pleinen en langs doorgaande wegen. Het gebruik ervan is gratis. Een ander verschil met Rotterdam is dat in Heerlen de reinigingsdienst bijplaatsing bijhoudt, namelijk wanneer de container geledigd wordt. Dit maakt inzet van schouwers onnodig. Ten slotte is handhaving in Heerlen intensiever en zichtbaarder dan in Rotterdam. In Heerlen houden twee zogenoemde boa s (buitengewoon opsporingsambtenaren) zich vijf dagen per week exclusief bezig met bijplaatsing rond 56 hotspot -locaties. In Rotterdam is bijplaatsing maar een van de zaken waar handhavers op letten. Daarnaast valt er niet simpelweg een 6 Het begrip salience is breder dan present bias, wat ook wel als verklaring wordt gebruikt voor illegaal gedrag dat weinig aantrekkelijk lijkt (Wilson en Abraham 1992). Bij salience gaat het er om dat beslissingen sterk worden gedreven door wat op dat moment opvalt dat kan ook iets zijn wat ver in de toekomst ligt bij present bias gaat het er om dat zaken in het hier en nu (onredelijk veel) meer gewicht krijgen dan toekomstige zaken.

45 Robert Dur en Ben Vollaard 41 brief op de mat met een boete, maar bellen in Heerlen de handhavers bij de verdachten aan om hen een bekentenis te ontlokken. 7 Als interventie plakken de uitvoerders op alle bijgeplaatste vuilniszakken een grote gele sticker met de mededeling Deze zak is aangetroffen door handhaving. Boete: minimaal 90 euro (grofvuil valt buiten de interventie). Op deze manier worden de handhavingsactiviteiten zichtbaarder. Als de bewoners reageren door minder vuilnis bij te plaatsen, dan is dit een goedkope en eenvoudige manier om het afschrikkingseffect te vergroten. Het idee hiervoor kwam van een medewerker van Stadstoezicht Rotterdam. Hetzelfde idee bleek ook terug te vinden in de literatuur: Jolls, Sunstein en Thaler (1998) stellen voor om uitgedeelde parkeerboetes niet langer onopvallend onder de ruitenwisser te plaatsen, maar eerst in een grote oranje envelop te steken. Voor zover wij weten is de gedragsrespons op een dergelijke interventie niet eerder getoetst. Onze interventie richt zich overigens exclusief op het zichtbaar maken van handhavingsactiviteiten. Het te kijk zetten van de dader (shaming) vormt geen onderdeel van de interventie. Een vuilniszak is immers voor voorbijgangers niet te herleiden tot een persoon. Dat salience een belangrijke verklarende factor kan zijn voor bijplaatsing laat een simpele berekening van de kosten en baten ervan zien. De baten bestaan uit het voorkomen van de moeite de zak in de container te plaatsen en daarnaast een besparing van een euro voor het gebruik van de container. De baten zijn zeker en onmiddellijk. De kosten bestaan uit de morele kosten van illegaal gedrag en de te verwachten straf. De kosten zijn onzeker en liggen in de toekomst. De gemiddelde pakkans ligt in Heerlen rond de 5 procent. Gegeven een boete van 90 euro is de verwachte waarde 4,50 euro. Zelfs wanneer bewoners een toekomstige boete sterk verdisconteren, dan moet de inspanning om de zak in de container te doen wel heel hoog zijn om bijplaatsing te kunnen verklaren. Een waarschijnlijker verklaring is dat bewoners weinig gewicht toekennen aan de te verwachten straf. Tijdens de voormeting laten de handhavers alle aangetroffen vuilniszakken staan. Anders is de sticker immers niet zichtbaar voor bewoners. Als een zak wordt opengesneden om het adres van de dader te achterhalen, dan stoppen de handhavers de zak vervolgens in een wat grotere vuilniszak. Deze grote zakken bleken echter van lage kwaliteit. De handhavers wikkelden daarom kort na het begin van de actie de opengemaakte zakken in doorzichtig plastic. De reinigingsdienst ruimt de zakken op bij lediging van de container. De reinigingsdienst meet bijplaatsing in kubieke meters in plaats van aantal zakken. Dit is een gelukkige bijkomstigheid, omdat de handhavers soms meerdere gecontroleerde zakken in één doorzichtig plastic wikkel stopten. De interventie zou ongunstig kunnen uitpakken. De bewoners kunnen de stickers zien als tandeloos instrument. Veel bijplaatsing blijft ongestraft, daar verandert niets aan. Door een niet geloofwaardige dreiging met straf kan de perceptie van de pakkans ook omlaag gaan. Dit was de angst van de handhavers. 7 Inmiddels is ook Heerlen overgestapt van strafrechtelijke naar bestuurlijke boetes, waardoor een bekentenis van de bewoner niet meer nodig is.

46 42 Hoe stimuleer je vrijwillige bijdragen aan een publiek goed? Zij waren bang uitgelachen te worden vanwege het stickeren van zakken waarvoor ze geen verdachte vinden. 8 Tijdens de actie is dit volgens de handhavers ook gebeurd. Daarnaast is de vraag wat gebeurt als de interventie stopt. Als bewoners rond behandelde locaties afwezigheid van stickers interpreteren als afwezigheid van handhaving, dan kan bijplaatsing op een hoger niveau komen te liggen in vergelijking met de periode vóór de interventie. Randomisering gebeurde op het niveau van containerlocaties. Het onderzoek betrof 56 locaties verspreid over Heerlen die bij de gemeente als vies bekend stonden. Ook binnen deze groep was de spreiding groot: sommige locaties bleken tijdens de voormeting zo goed als schoon, andere locaties waren bijna altijd vies. Op basis van de mate van bijplaatsing tijdens de voormeting wezen we steeds een van twee locaties met een soortgelijke mate van vervuiling toe aan de behandelde groep (matched pair randomization). Op deze manier dwingen we balans af tussen de behandelde groep en de controlegroep in de mate van bijplaatsing. De kans dat bewoners in de controlegroep de stickers zien, is niet groot, omdat de 56 containerlocaties binnen het experiment over de hele stad verspreid zijn en maar een klein deel van de totale groep van containers uitmaken. Voor de restafvalcontainers en de glasen papiercontainers gezamenlijk vinden we geen duidelijk effect van de interventie. Als we toelaten dat het effect verschilt tussen beide typen containers, dan zien we een groot en statistisch significant effect voor de restafvalcontainers op bijplaatsing van zakken 9 wat we hieronder grafisch illustreren en géén effect voor de glasen papiercontainers. Dit is achteraf gezien goed te verklaren. Allereerst is het type overtreder anders bij een glasen papiercontainer. Wie daarnaar toekomt met een zak is hoe dan ook in overtreding. Een zak kan men daar immers niet kwijt. Bovendien zou een bewoner die bij een glasen papiercontainer een sticker ziet de zak weer mee terug moeten nemen, een weinig aantrekkelijke optie. Bij een restafvalcontainer kan een bewoner zichzelf eenvoudig corrigeren door de zak niet naast de container te zetten maar in de container te doen. Tenslotte is de kans een sticker te zien op een zak bij een restafvalcontainer relatief groot, omdat deze containers in de straat zelf staan. Figuur 2 laat de effecten zien van de interventie voor restafvalcontainers. Op de horizontale as staat de tijd. Week 1 is de eerste week van de interventie; week 5 de laatste. Omdat de restafvalcontainers een selectie vormen van de oorspronkelijke groep containers zit er in niveau van bijplaatsing wat verschil tussen de behandelde groep en de controlegroep. 8 In het jaar na het veldexperiment is het stickeren onderdeel geworden van de vaste routine, maar worden alleen stickers geplaatst op zakken waarvoor een dader is gevonden. 9 De procentuele reductie in de totale hoeveelheid bijgeplaatst afval is soortgelijk.

47 Robert Dur en Ben Vollaard 43 Figuur 2 Verschil in volume bijgeplaatste huisvuilzakken tussen restafvalcontainers in behandelde en in controlegroep (m3), per week We zien een duidelijke afname in bijplaatsing zodra het stickeren begint (week 1). Ruim 0.15m3 minder betekent een halvering. Een statistische toets laat zien dat het om een statistisch significant effect gaat. Twee zaken springen in het oog. Allereerst is het waargenomen effect relatief groot in oneven weken. Dit zijn weken waarin de handhavers hun ronde s ochtends doen. Dit wisselen ze om met weken waarin zij hun ronde s middags doen. Geen enkele andere routine kent een dergelijk patroon. In de ochtend staan er relatief veel zakken naast de containers dit heeft te maken met reinigingsroutines. Klaarblijkelijk blijven de zakken voldoende lang staan om het grotere aantal stickers te doen opvallen. De interventie is dus sterker in de oneven weken dan in de even weken en dat is terug te zien in het gedragseffect. Daarnaast zien we dat hetzelfde patroon van even en oneven weken zich doorzet tijdens de nameting. Dit is op het eerste gezicht raadselachtig, omdat het stickeren is gestopt. De handhavers kwamen met een verklaring hiervoor. Zowel tijdens het stickeren als tijdens de nameting laten zij de onderzochte zakken in doorzichtig plastic achter naast de container. Dit doen zij zowel in de behandelde groep als in de controlegroep, maar bewoners rond de behandelde locaties hebben net vier weken stickers gezien op deze in plastic gewikkelde opengesneden zakken. Het is goed voor te stellen dat zij deze doorzochte zakken blijven associëren met handhavingsinspanningen als het stickeren is gestopt en terecht. In de controlegroep kan het onduidelijk zijn wat een zak gewikkeld in plastic naast de container betekent; in de behandelde groep is door weken stickeren de verklaring geleverd. Dit betekent dat we geen echte nameting hebben. In feite gaat de interventie gewoon door, al is het in verzwakte vorm. Het experiment maakt duidelijk dat de mate waarin handhavingsinspanningen opvallen een belangrijke determinant is voor de afschrikwekkende werking ervan. Ondanks een lage pakkans wat typisch is voor de meeste vormen van illegaal ge-

48 44 Hoe stimuleer je vrijwillige bijdragen aan een publiek goed? drag kan het manipuleren van de salience van handhaving forse effecten hebben tegen minimale kosten. De vraag hoe het gedrag verandert als de interventie gericht op salience weer ophoudt, kunnen we aan de hand van dit experiment niet beantwoorden. 7 Veldexperiment III: bewoners de belofte ontlokken de eigen straat schoon te houden In het derde veldexperiment laten we bewoners beloven zich in te spannen de straat schoon te houden. Het idee is dat als mensen beloven iets te doen, dat ze zich daar ook aan houden. Daar zijn vanuit de psychologische literatuur redenen voor te noemen. Mensen hebben de neiging consistent te zijn, omdat het anderen een positieve indruk geeft (Cialdini 1984) en omdat het een positief zelfbeeld bevestigt (Akerlof en Dickens 1982). Dit blijkt ook uit experimenten (Falk en Zimmerman 2013; Baca-Motes et al. 2013). Maar Cialdini et al. (1995) laten wel zien dat de voorkeur voor consistent willen zijn niet bij iedereen even sterk is ontwikkeld. Hierdoor kunnen de resultaten van interventies gericht op het gebruikmaken hiervan tegenvallen. Gemeentelijke communicatiemedewerkers aangevuld met beleidsmedewerkers en stadswachten benaderden bewoners thuis rond etenstijd. Wie opendeed werd gevraagd: wilt u meewerken aan een schone straat? Wie de vraag bevestigend beantwoordde, en dat gold zo goed als iedereen, werd vervolgens gevraagd of zijn of haar naam op een lijst mocht worden gezet en als teken van medewerking een klein stickertje naast de deurbel mocht worden geplakt. De bewoners kregen tegelijk een brief met wat informatie over het aanbieden van huisvuil, waaronder hoe een afspraak te maken voor het ophalen van grofvuil en het adres van het dichtstbijzijnde milieupark. De brief was ambtelijk van stijl en alleen in het Nederlands opgesteld. Ten slotte is anderhalve maand na het aanbellen bij een deel van de behandelde locaties een bord geplaatst met dezelfde mededeling als op de deursticker: voor een schone straat. Het experiment werd uitgevoerd rond 62 containerlocaties in de Rotterdamse wijk Middelland. De zes schoonste locaties daarvan hebben we buiten het experiment gehouden. Daarnaast was er onduidelijkheid over één locatie, wat betekende dat we een groep van 55 locaties overhielden. Net als in het vorige experiment hebben we steeds twee locaties met een soortgelijke mate van bijplaatsing gedurende de voormeting willekeurig aan de behandelde groep (27 locaties) dan wel de controlegroep toegewezen (28 locaties). In totaal is eind 2011 bij 1100 huishoudens aangebeld. We hadden de medewerkers bij de instructie de volgorde van de te behandelen locaties meegegeven, maar niet de precieze adressen rond elke locatie. Hierdoor is de match met de adressen van te behandelen locaties en adressen waar is aangebeld niet een-op-

49 Robert Dur en Ben Vollaard 45 een. 10 Allereerst is maar bij driekwart van de te benaderen adressen aangebeld (zogenaamde treatment dilution). Daarnaast is ook bij adressen aangebeld die bij een controlelocatie hoorden (zogenaamde treatment migration). Dit geldt voor 10 van de 28 controlelocaties, bij vijf hiervan gaat het om een zeer klein aantal adressen. Deze afwijkingen leveren alleen een vertekening op in de resultaten als het percentage huishoudens waar is aangebeld rond een locatie samenhangt met de trend in bijplaatsing gedurende de voormeting. Dat blijkt niet het geval. Om vertekening te voorkomen passen we voor de schatting van het effect de instrumentele variabele methode toe. We gebruiken twee instrumenten voor het percentage huishoudens rond een containerlocatie waar is aangebeld. Dat is allereerst het aantal medewerkers dat rond een bepaalde locatie aanbelde. Dit varieerde tussen de drie en zeven: niet elke avond waren evenveel medewerkers beschikbaar. Hoe meer medewerkers actief waren rond een locatie, hoe lager de mate van treatment dilution. Het tweede instrument is een dummy voor behandelde containerlocaties met alle adressen in één straat. De mate van treatment migration is voor deze locaties duidelijk lager. Van beide instrumenten is het aannemelijk dat ze ongerelateerd zijn aan (de trend in) bijplaatsing. Een andere uitdaging bij dit experiment was dat gemiddeld genomen niet meer dan 36 procent van de huishoudens de deur opendeed. Dit leidt tot verdere treatment dilution. Omdat ook niet overal is aangebeld, betekent dit dat uiteindelijk een gesprek is gevoerd met 29 procent van de huishoudens rond een te behandelen locatie. Dit kan allereerst resulteren in een onderschatting van het effect van de interventie. Daarnaast kunnen de resultaten vertekend zijn als de mate waarin huishoudens de deur opendoen samenhangt met de trend in bijplaatsing (waarbij de richting van de vertekening niet meteen helder is). Deze twee problemen lossen we op met dezelfde twee instrumenten. We vinden een gunstig effect van de interventie op bijplaatsing. Die neemt gemiddeld genomen met 20 procent af. Het effect is statistisch significant op het 1- procentniveau. Het instrumenteren van de interventie blijkt geen invloed te hebben op de grootte van het geschatte effect. Dit bevestigt het idee dat de afwijkingen van de oorspronkelijke randomisering willekeurig zijn. Het effect blijkt bijzonder persistent. De gedragsrespons in de vierde maand na de interventie ziet er net zo uit als in de eerste maand. Klaarblijkelijk heeft - in ieder geval over deze periode - een deel van de bewoners zijn norm aangepast. Het bord blijkt geen afzonderlijk aanvullend effect te hebben op de mate van bijplaatsing. Een verklaring voor het waargenomen effect is een voorkeur voor consistentie van in ieder geval een deel van de bewoners. Het beroep hierop wordt versterkt door de namenlijst en de sticker op de voordeur. Maar de informatie in de brief kan ook een verschil hebben gemaakt. Dat is niet waarschijnlijk, gegeven de ambtelijke stijl ervan, maar niet uit te sluiten. Om die reden hebben we een volgend experiment uitgevoerd, gericht op het verstrekken van informatie. 10 Het is ook voor ons een inschatting van welke container bewoners gebruik maken, maar op basis van de veronderstelling dat mensen de loopafstand minimaliseren is een aannemelijke voorspelling te maken.

50 46 Hoe stimuleer je vrijwillige bijdragen aan een publiek goed? 8 Veldexperiment IV: makkelijker maken het juiste te doen De laatste twee veldexperimenten grijpen aan op gemakzucht als reden voor bijplaatsing. Dit blijkt te corrigeren door de dreiging van straffen opvallender te maken en door bewoners de belofte te ontlokken de straat schoon te houden. Een andere mogelijke manier om overlastgevend gedrag uit gemakzucht te corrigeren is het nog makkelijker te maken het juiste te doen. Dit doen we door een koelkastmagneet te verspreiden met daarop de tekst: Grofvuil? Breng het naar het milieupark Keilezijweg of maak een afspraak via rotterdam.nl/roteb of bel De magneet gaat vergezeld van een begeleidend schrijven, waarin ook nog eens kort wordt uitgelegd wat de regels zijn voor het aanbieden van huisvuil. Dat een kleine wenk een groot effect kan hebben blijkt uit experimenten met een oproep voor een griepprik. Het toevoegen van informatie van de precieze locatie van het ziekenhuis en de openingstijden blijkt de respons significant te verhogen (McCaul et al. 2002). Het experiment is medio 2012 uitgevoerd rond 70 containerlocaties in de Rotterdamse wijk Spangen. Opnieuw deelden we steeds twee locaties met een soortgelijke mate van bijplaatsing willekeurig toe aan de behandelde groep (35 locaties) dan wel de controlegroep (35 locaties). We hebben een vrij goed idee welke huishoudens een container gebruiken, maar dit blijft een inschatting (zie voetnoot 10). Dit geldt vooral huishoudens die tussen twee locaties in zitten. Hierdoor bestaat de mogelijkheid dat we de mailing hebben verzonden aan huishoudens in de controlegroep in plaats van aan huishoudens in de interventiegroep (treatment migration gaat in dit geval een op een samen met treatment dilution). Dit kan leiden tot onderschatting van het effect. Over de effecten van dit experiment kunnen we kort zijn: er is geen enkele gedragsverandering waarneembaar. Dit geldt zowel voor de periode direct na verspreiding van de brief en magneet als daarna. Dit bevestigt het idee dat het probleem niet zozeer zit bij informatie, maar meer bij de gevoelde noodzaak het juiste te doen. Dit suggereert dat het effect van de hierboven uitgewerkte aanbelactie is te herleiden tot de voorkeur tot consistentie en niet zozeer tot de brief die bewoners ook kregen uitgereikt. 9 Conclusie Met behulp van vier veldexperimenten in samenwerking met twee gemeenten hebben we kunnen onderzoeken hoe mensen zijn te stimuleren hun eigen straat schoon te houden, een klassiek freerider-probleem. Verschillende ideeën uit de gedragseconomische en psychologische literatuur hebben we in een volledig natuurlijke setting kunnen toetsen. De experimenten vinden plaats in een herhaalde setting waarin overlastgevend gedrag (dumpen van huisvuil op straat) relatief anoniem is. Een dergelijke setting bestaat ook op veel andere terreinen waarin freerider-gedrag kan optreden, waaronder de werksituatie (Ramos en Torgler 2012; Dubner en Le-

51 Robert Dur en Ben Vollaard 47 vitt 2004) en de thuissituatie. 11 Er is een boete gezet op de zogenoemde bijplaatsing van huisvuil, maar in de wijken waarin de experimenten zijn uitgevoerd is de straat schoonhouden duidelijk niet voor iedereen de norm. Ons onderzoek laat zien dat bewoners niet zomaar een stapje extra doen als de overheid minder doet, ook niet als zij maanden de tijd krijgen om hun gedrag bij te stellen. Bewoners doen wel iets meer, maar zogenoemde crowding in domineert. Dit bevestigt het motto schoon houdt schoon. Tegelijk zien we dat bewoners niet direct meebewegen als de schoonmaakfrequentie na enkele maanden weer wordt verhoogd. Deze bevinding in een herhaalde setting gaat in tegen eerder onderzoek naar de spontane gedragsrespons. Kortom, het is tijd voor een onderzoek naar de gedragsrespons op meer schoonmaken in een herhaalde setting. We hopen dit in de nabije toekomst in samenwerking met een gemeente uit te voeren. Bewoners blijken zowel te reageren op een harde aanpak (dreigen met boete) als een zachte aanpak (gesprek aangaan). Het zichtbaarder maken van handhavingsinspanningen door het aanbrengen van stickers op bijgeplaatste vuilniszakken blijkt wekenlang een groot en gunstig effect te hebben tegen minieme kosten. Dit suggereert dat de pakkans en boete een veel groter afschrikwekkend effect hebben als ze tot de actieve kennis behoren. Dit is natuurlijk ook buiten de context van ons experiment een belangrijke bevinding (McAdams 2011). Hoe blijvend dit effect is na het stoppen van de interventie, hebben we niet kunnen onderzoeken. Het ontlokken van een belofte de straat schoon te houden levert ook een groot effect op. De kosten van deze interventie zijn aanzienlijk hoger, omdat medewerkers hiervoor gesprekken moeten aangaan met bewoners. Daar staat tegenover dat het effect duurzaam is: maanden na het aanbellen bij bewoners is de gemeten gedragsrespons nog even hoog. Dit experiment bevestigt het idee dat een beroep doen op de voorkeur voor consistentie een effectief instrument kan zijn voor gedragsverandering. Ten slotte vinden we dat bewoners niet reageren op het geven van informatie, ook als die zo verpakt is dat het eenvoudiger is het goede te doen. Dit is een nuttige correctie op de standaard beleidsreactie op veel problemen: bewoners informeren over wat de bedoeling is. Dit blijkt in ieder geval in deze context niet genoeg. Het gedragsprobleem zit niet vast op kennis, maar op de gevoelde noodzaak de straat schoon te houden. De resultaten van de experimenten zijn onderdeel geworden van overzichten van wat werkt en niet werkt op het gebied van bijplaatsing van huisvuil. 12 Daarnaast hebben zowel Rotterdam als Heerlen lessen getrokken uit de experimenten. Rotterdam heeft de aanbelactie veelvuldig ingezet; Heerlen heeft de stickeractie (in licht gewijzigde vorm) onderdeel gemaakt van de vaste routine van de handhaving. Naast de wetenschappelijke bijdrage hebben de veldexperimenten dus ook 11 Denk in relatie tot het laatste bijvoorbeeld aan het verdelen van schoonmaakactiviteiten tussen twee of meer volwassenen of het stimuleren tot opruimen van speelgoed door kinderen. 12 Zie bijvoorbeeld bewezen-maatregelen/

52 48 Hoe stimuleer je vrijwillige bijdragen aan een publiek goed? een direct praktisch nut, wat perspectief biedt op nieuwe experimenten in deze en andere gemeenten. Auteurs Robert Dur ( is hoogleraar economie aan Erasmus Universiteit Rotterdam. Ben Vollaard ( is universitair hoofddocent economie aan Tilburg University. Referenties Akerlof, G.A. en W.T. Dickens, 1982, The economic consequences of cognitive dissonance, American Economic Review, vol. 72: Baca-Motes, Katie, Amber Brown, Ayelet Gneezy, Elizabeth A. Keenan en Leif D. Nelson, 2013, Commitment and behavior change: evidence from the field, Journal of Consumer Research, vol. 39: Bordalo, Pedro, Nicola Gennaioli, en Andrei Shleifer, 2012, Salience theory of choice under risk, Quarterly Journal of Economics, vol. 127(3): Cialdini, Robert B., 1984, Influence: the psychology of persuasion, Quill, New York. Cialdini, Robert B., Raymond R. Reno, en Carl A. Kallgren, 1990, A Focus Theory of Normative Conduct: Recycling the Concept of Norms to Reduce Littering in Public Places, Journal of Personality and Social Psychology, vol. 58(6): Cialdini, Robert B., Melanie R. Trost, Jason T. Newsom, 1995, Preference for consistency: the development of a valid measure and the discovery of surprising behavioral implications, Journal of Personality and Social Psychology, vol. 69 (2): Dubner, Stephen en Steven Levitt, 2004, What the bagel man saw, New York Times, 6 juni Dur, Robert en Ben Vollaard, te verschijnen, The power of a bad example: a field experiment in household garbage disposal, Environment and Behavior. Dur, Robert en Ben Vollaard, 2015, Between saying and doing. Testing the value of a commitment in the field, niet gepubliceerd manuscript, Erasmus Universiteit Rotterdam/Tilburg Universiteit. Dur, Robert en Ben Vollaard, 2015, Illegal behavior and salience of law enforcement: a field experiment, niet gepubliceerd manuscript, Erasmus Universiteit Rotterdam/Tilburg Universiteit. Engel, Christoph, Martin Beckenkamp, Andreas Glöckner, Bernd Irlenbusch, Heike HennigSchmidt, Sebastian Kube, Michael Kurschilgen, Alexander Morell, Andreas Nicklisch, Hans-Theo Normann en Emanuel Towfigh, 2014, First impressions are more important than early intervention: Qualifying broken windows theory in the lab, International Review of Law and Economics, vol. 37(1): Falk, Armin en Florian Zimmerman, 2013, A taste for consistency and survey response behavior, CESifo Economic Studies, vol. 59 (1): Fellner, Gerlinde, Rupert Sausgruber en Christian Traxler, 2013, Testing enforcement strategies in the field: Threat, moral appeal, and social information, Journal of the European Economic Association, vol. 11(3):

53 Robert Dur en Ben Vollaard 49 Hjalmarsson, R., 2009, Crime and expected punishment: changes in perceptions at the age of criminal majority, American Law and Economics Review, vol. 11 (1): Huffman, Kim T., William F. Grossnickle, John G. Cope, en Kenneth P. Huffman, 1995, Litter reduction: a review and integration of the literature, Environment and Behavior, vol. 27(2): IVM (Integrale Veiligheidsmonitor), 2009, Buurtproblemen in Rotterdam-Rijnmond. Jolls, Christine, Cass R. Sunstein en Richard Thaler, 1998, A behavioral approach to law and economics, Stanford Law Review, vol. 50: Lochner, Lance, 2007, Individual Perceptions of the Criminal Justice System, American Economic Review, vol. 97 (1): McAdams, Richard H., 2011, Present bias and criminal law, University of Illinois Law Review, no. 5, McCaul, Kevin D., Rebecca J. Johnson en Alexander J. Rothman, 2002, The effects of framing and action instructions on whether older adults obtain flu shots, Health Psychology, vol. 21(6): Ramos, Joao en Benno Torgler, 2012, Are academics messy? Testing the Broken Windows Theory with a field experiment in the work environment, Review of Law and Economics, vol. 8 (3): Reilly, B., N. Rickman en R. Witt, 2012, Robbing banks: Crime does pay but not very much, Significance, vol. 9 (3): Shang, Jen en Rachel Croson, 2009, A field experiment in charitable contribution: The impact of social information on the voluntary provision of public goods, Economic Journal, vol. 119: Tonkens, Evelien, 2014, Vijf misvattingen over de participatiesamenleving, afscheidsrede, Universiteit van Amsterdam. Veiligheidsmonitor, 2014, dataset, Centraal Bureau voor de Statistiek, Den Haag. Wilson, J. en A. Abraham, 1992, Does crime pay?, Justice Quarterly, vol. 9 (3):

54 Helpt competitief beoordelen mannelijke studenten weer op de rails? Een overzicht van experimenteel bewijs Sander Onderstal In de laatste decennia presteren mannen gemiddeld slechter dan vrouwen in alle lagen van het onderwijs. In dit artikel onderzoek ik of een verhoogde competitieve druk op tentamens mannelijke studenten in het hoger onderwijs weer op de rails kan helpen. De literatuur geeft geen eenduidig antwoord op deze vraag. Verschillende empirische onderzoeken laten zien dat mannen relatief goed presteren op competitieve tentamens. In een veldexperiment op de Universiteit van Amsterdam wordt echter alleen binnen een kleine subgroep een geslachtseffect gevonden. 1 Inleiding De afgelopen decennia lijkt er een onoverbrugbare kloof te zijn ontstaan tussen de prestaties van mannen en vrouwen in het onderwijs. De gemiddelde man presenteert systematisch slechter dan de gemiddelde vrouw in alle lagen van het onderwijs (zie bijvoorbeeld Salvi del Pero en Bytchkova 2013; Guiso et al. 2008). Populair-wetenschappelijke boeken over dit fenomeen gaan als warme broodjes over de toonbank, gepusht door deprimerende titels als Boys Adrift (Sax 2007), The War Against Boys (Hoff Sommers 2000) en The End of Men (Rosin 2012). De literatuur biedt een waaier aan verklaringen voor de geslachtskloof, variërend van biologisch bepaalde verschillen in leerstijlen tussen de geslachten tot onderwijssystemen die beter geënt zijn op vrouwen dan op mannen. In dit artikel zoom ik in op een andere mogelijke verklaring: Een gebrek aan prikkels voor mannen om hun best te doen op tentamens. Meer specifiek geeft dit artikel een overzicht van de literatuur over hoe de seksen verschillend reageren op concurrentie tijdens toetsmomenten in het hoger onderwijs. Experimenten in andere contexten laten zien dat mannen beter gaan presenteren naarmate de omgeving competitiever wordt, terwijl de prestaties van vrouwen niet afhangen van de mate van concurrentie. 1 Zo maten Gneezy en Rustichini (2004) hoe hard 9- en 10-jaar oude jongens en meisjes renden over een parcours van 40 meter. Alle kinderen legden eerst het parcours alleen af. In een twee- 1 Zie Gneezy et al. (2003) voor een vroege bijdrage en Niederle and Vesterlund (2011) en Croson en Gneezy (2009) voor overzichten van de literatuur TPEdigitaal 2015 jaargang 9(3) 50-58

55 Sander Onderstal 51 de ronde liepen sommige kinderen in paren en anderen nog een keer alleen. Gneezy en Rustichini observeerden dat jongens in de tweede ronde snellere tijden neerzetten als ze met iemand anders renden, terwijl het voor de meisjes niet uitmaakte of ze alleen liepen of tegen een ander. Als de resultaten van dit experiment kunnen worden geëxtrapoleerd naar het hoger onderwijs dan zouden mannen hun achterstand op vrouwen in het onderwijs kunnen inlopen als toetsmomenten competitiever worden omdat jongens dan harder hun best gaan doen terwijl vrouwen even hard blijven werken. In de komende paragrafen passeren geslachtseffecten van competitiviteit op drie verschillende toetsmomenten de revue. Ik vat daarin inzichten uit de empirische literatuur samen, waarbij ik zoveel mogelijk gebruik maak van gerandomiseerde veldexperimenten. In paragraaf 2 concentreer ik me op selectie aan de poort door universiteiten. Voor zover ik weet, zijn er geen veldexperimenten gedraaid op dit gebied zodat ik me baseer op resultaten van niet-experimentele veldstudies. Paragraaf 3 bevat een samenvatting van studies waarbij onderzoekers concurrentie op kleine tussentoetsen varieerden. In paragraaf 4 beschouw ik een veldexperiment waarin mijn collega s en ik een competitieve en niet-competitieve beoordeling van een tentamen met elkaar vergeleken. Paragraaf 5 geeft een korte conclusie. 2 Selectie aan de poort Wereldwijd selecteren veel universiteiten studenten op basis van toelatingsexamens. Onderzoekers kunnen gebruik maken van variatie tussen verschillende universiteiten, tussen verschillende tentamens of over de tijd om te meten in hoeverre genderverschillen in tentamenresultaten afhangen van de competitiviteit van het toelatingsexamen. In deze paragraaf bespreek ik achtereenvolgens een studie van Jurajda en Munich (2011) naar toelatingsexamens op Tsjechische faculteiten en het werk van Ors et al. (2013) die toelating tot een populaire Parijse businessschool bestuderen. Morin (2015) analyseert het effect van strengere selectie aan de poort op studieprestaties aan de universiteit van Toronto. Jurajda en Munich (2011) onderzoeken geslachtsverschillen in toelatingsexamens op universiteiten in Tsjechië. Ze maken daarbij gebruik van resultaten van een landelijke toets die middelbare-schoolstudenten in 1999 hebben afgelegd. Volgens de auteurs speelden de scores op de landelijke toets geen enkele rol in de selectie van studenten door de universiteiten. Van alle studenten die deelnamen aan de toets observeren de auteurs bij welke universiteiten de studenten zich aanmeldden alsmede of ze er al dan niet werden toegelaten. De auteurs identificeren genderverschillen op de volgende wijze. Voor elke faculteit nemen ze als maat voor competitiviteit de fractie van aangemelde studenten die werden toegelaten. De competitiviteit varieerde aanzienlijk tussen de 116 faculteiten, met een gemiddelde van 0,31 en een standaardafwijking van 0,21. Vervolgens vergelijken de auteurs toelatingskansen voor mannen en vrouwen met verge-

56 52 Helpt competitief beoordelen mannelijke studenten weer op de rails? Een overzicht van experimenteel bewijs lijkbare resultaten op de landelijke toets en checken ze in hoeverre de verschillen verklaard kunnen worden door de competitiviteit van de faculteit. De auteurs observeren dat vrouwen slechter presteren dan mannen in de 25% meest competitieve faculteiten en vinden geen duidelijke geslachtsverschillen voor minder competitieve faculteiten. Dit resultaat blijkt robuust als de analyse wordt beperkt tot faculteiten die het meest gebalanceerd zijn in termen van geslacht (de faculteiten met de 25% hoogste fracties mannen of vrouwen worden niet meegenomen). Dezelfde conclusie geldt voor analyses met alleen de studenten die als beste of als slechtste uit de bus kwamen in de landelijke toets. Omdat scholieren zich typisch aanmeldden voor verschillende faculteiten konden de auteurs ook binnen individuen reacties op competitiviteit identificeren. Ook dan blijken vrouwen onder hoge competitieve druk relatief slechter te presteren dan mannen. Ors et al. (2013) doen een vergelijkbare veldstudie naar het effect van competitiviteit op tentamens op geslachtsverschillen. Ze bestuderen examens voor toelating tot een Masterprogramma in Management aan de Ecole des Hautes Etudes Commerciales (HEC) in Parijs, de meest prestigieuze businessschool van Frankrijk. HEC selecteert bijzonder streng: Slechts 10-15% van de kandidaten wordt toegelaten tot het programma. De auteurs vergelijken de prestaties van studenten op het toelatingsexamen met hun resultaten voor een landelijk examen voor middelbare scholieren en de eerstejaarsvakken van de opleiding. De auteurs beargumenteren dat zowel het middelbare-schoolexamen als de eerstejaarstentamens veel minder competitief zijn dat het toelatingsexamen: De slagingspercentages op de middelbare school zijn 89% en slechts 1% van de eerstejaarsstudenten haalt het eerste jaar niet. Volgens de onderzoekers is het daarom mogelijk te analyseren hoe geslachtsverschillen afhangen van de mate van concurrentie op de tentamens. Net als Jurajda en Munich (2011) vinden Ors et al. een aanzienlijke effect van competitiviteit op de prestatieverschillen tussen mannen en vrouwen. Waar binnen de cohorten van HEC-kandidaten vrouwen significant beter presteren dan mannen op het eindexamen doen ze het significant slechter dan mannen op het toelatingsexamen. Bovendien observeren de auteurs dat in de groep van de studenten die wordt toegelaten, vrouwen significant beter presteren dan mannen in het Masterprogramma op de niet-kwantitatieve vakken. Er wordt geen statistisch significant genderverschil waargenomen in prestaties op de kwantitatieve vakken. Al met al laten de resultaten zien dat mannen relatief goed presteren in een omgeving met een hoge competitieve druk waar relatieve prestaties ten opzichte van andere participanten essentieel zijn. Morin (2015) maakt gebruik van een dubbel cohort middelbare scholieren in de Canadese provincie Ontario om de effecten van een toename van concurrentie tussen studenten aan de universiteit van Toronto te meten. Een nieuwe opzet van het middelbareschoolsysteem in Ontario rond de millenniumwisseling verkortte de middelbareschoolduur van vijf naar vier jaar. Als gevolg hiervan studeerden in juni 2003 twee cohorten middelbare scholieren af. Omdat de capaciteit van de universiteiten lang niet navenant toenam, groeide de concurrentie om plaatsing op de uni-

57 Sander Onderstal 53 versiteiten aanzienlijk. Daardoor nam volgens de auteur de gemiddelde kwaliteit van de toegelaten studenten toe ten opzichte van andere jaren. Het onderwijsreglement van de universiteit van Toronto schrijft bovendien voor dat docenten alle tentamens relatief beoordelen volgens een vaste, belvormige, verdeling. Vanwege de toegenomen kwaliteit van het cohort zouden studenten dus beter moeten presteren dan andere cohorten om dezelfde cijfers te behalen. Deze toename in concurrentie op de tentamens maakt het mogelijk om geslachtsverschillen te identificeren wat betreft de gevoeligheid voor competitiviteit. Morin s resultaten resoneren met die van de eerder besproken onderzoeken van Jurajda en Munich (2011) en Ors et al. (2013). Hij observeert dat de prestaties van mannen in een competitieve omgeving ongeveer één procentpunt meer verbeteren dan die van vrouwen. Dit effect, hoewel klein, blijkt consistent over de gehele studieduur van vier jaar. Hij vindt vergelijkbare effecten op het aantal behaalde studiepunten, met name voor relatief zwakke studenten, en op de fractie studenten die geen studievertraging oplopen. Hoewel alle drie de studies vinden dat competitiviteit op tentamens correleert met relatief betere prestaties van mannen ten opzichte van vrouwen, mag niet automatisch geconcludeerd worden dat mannen baat hebben bij toenemende competitiviteit op een tentamen. Het geobserveerde effect kan namelijk voortkomen uit twee andere kanalen. Ten eerste is de keuze van een student om al dan niet deel te nemen aan een competitief examen mogelijk endogeen. Zelfselectie zou zo de correlatie tussen competitiviteit en de genderverschillen verklaren, bijvoorbeeld als relatief veel getalenteerde vrouwen afhaken bij het vooruitzicht op competitieve examens. Het is niet helder of de auteurs voldoende kunnen corrigeren voor studentkarakteristieken om zelfselectie uit te sluiten. Een tweede mogelijk kanaal is dat de beoordelaars van de tentamens discrimineren bij het corrigeren van de tentamens zodat de onderzoekers niet kunnen uitsluiten dat de beoordeling van de tentamens plaatsvindt op andere karakteristieken dan de kwaliteit van studenten. Een gerandomiseerd experiment kan een zelfselectieverklaring uitsluiten omdat de toewijzing van studenten aan een al dan niet competitief examen exogeen is. Beoordelen op zuiver objectieve maatstaven kan het kanaal van discriminatie bij de beoordeling dichtgooien. De onderzoeken die ik in de volgende paragrafen bespreek, voldoen geheel of gedeeltelijk aan beide voorwaarden. 3 Deeltoetsen In deze paragraaf bespreek ik twee onderzoeken naar hoe de mate van competitiviteit uitwerkt op de prestaties van mannelijke en vrouwelijke studenten op kleine deeltoetsen die werden afgenomen op Italiaanse universiteiten. Bigoni et al. (2011) bestuderen de prestaties van studenten in een econometriecursus in een bachelor-programma in Management aan de Universiteit van Bologna. Studenten moesten voor de cursus vijf tussentoetsen maken waarmee ze een gelimiteerd aantal bonuspunten konden verdienen voor het eindtentamen. Elke

58 54 Helpt competitief beoordelen mannelijke studenten weer op de rails? Een overzicht van experimenteel bewijs tussentoets bestond uit vijf meerkeuzevragen zodat de beoordeling ervan niet kon worden vervuild door geslachtsdiscriminatie. De onderzoekers verdeelden de 131 deelnemers aan het experiment willekeurig over drie groepen: een controlegroep en twee treatmentgroepen. In de controlegroep werden alle vijf de tussentoetsen absoluut becijferd, in de zin dat het cijfer van een student onafhankelijk was van de resultaten van andere studenten. In de twee treatments werden de eerste en de laatste tussentoets ook absoluut becijferd. De drie tussenliggende toetsen werden anders beoordeeld. Elke student in deze treatments werd gekoppeld aan een willekeurige andere student in hetzelfde treatment. In het competitieve treatment kreeg een student twee extra punten voor haar tussentoets als zij het strikt beter deed dan haar partner. In het tweede, coöperatieve, treatment ontving een student één extra punt als haar partner minstens een bepaalde score behaalde op de tussentoets. In de controlegroep kregen alle studenten één punt extra voor de tussentoetsen in de tussenliggende weken om ze niet te benadelen ten opzichte van de studenten in de treatments. De onderzoekers voorspellen op basis van een speltheoretisch model dat de studenten zich (zwak) meer zullen inspannen in het competitieve treatment dan in de controlegroep die op haar beurt weer (zwak) beter zal presteren dan de coöperatieve treatmentgroep. De data zijn consistent met het voorspelde patroon. Belangrijker: in de competitieve treatmentgroep presteren mannelijke studenten statistisch significant beter dan de mannen in de controlegroep en het coöperatieve treatment. De effecten zijn ook economisch significant: de geschatte gemiddelde toename in inspanning voor mannen is in de orde van 40%. Voor vrouwen worden geen significante effecten waargenomen. De resultaten suggereren dat competitiviteit op toetsen mannen kan aanzetten beter te presteren om zo de achterstand met hun vrouwelijke medestudenten goed te maken. De Paola et al. (2015) passen een soortgelijke competitieve beoordeling toe als Bigoni et al. (2011) op een tussentoets van een economietentamen waaraan 720 bachelorstudenten deelnamen. De onderzoekers deelden de studenten in in paren van gelijke ingeschatte bekwaamheid. Een student kreeg 5 bonuspunten als zij beter presteerde dan haar partner en slechts 2 als ze het slechter deed op de tussentoets. In tegenstelling tot Bigoni et al. laten De Paola et al. studenten zelf kiezen of ze meedoen aan de competitieve toets. Op deze wijze konden de auteurs onderzoeken of er sprake is van zelfselectie en in hoeverre die geslachtsafhankelijk is, een zorg in de veldstudies die ik in paragraaf 2 besprak. Overigens was het kostbaar niet deel te nemen aan de tussentoets: Studenten die niet meededen kregen geen bonuspunt en waren dus slechter af dan de verliezers op de tussentoets. De auteurs vinden dat vrouwen en mannen gelijkwaardig presteerden op zowel de tussentoets als het (niet-competitieve) eindtentamen. Ze observeren evenmin geslachtsverschillen in de keuze om deel te nemen aan de competitieve deeltoets. De resultaten lijken er dus op te wijzen dat meer concurrentie op het tentamen niet altijd in het voordeel uitpakt voor mannen.

59 Sander Onderstal 55 4 Tentamens Samen met Eszter Czibor, Randolph Sloof en Mirjam van Praag heb ik in de herfst van 2013 een veldexperiment gedraaid waarin we twee manieren om tentamens te becijferen met elkaar vergeleken (Czibor et al. 2014). Het experiment was onderdeel van het vak Economie van Markten en Organisaties dat verplicht is voor verschillende tracks in het BSc-programma Economie en Bedrijfskunde van de Universiteit van Amsterdam. We verdeelden ruim 500 studenten op basis van gestratificeerde randomisatie willekeurig over twee groepen. Alle studenten moesten dezelfde tussentoets maken die bestond uit 30 louter meerkeuzevragen. De wijze van beoordelen verschilde echter tussen de twee groepen. Eén groep werd beoordeeld op een absolute schaal (absolute grading) en de andere op een relatieve schaal (relative grading; grading on a curve). 2 Onderstaande tabel geeft aan hoe we scores op het tentamen vertaalden in het tentamencijfer. Absolute schaal (score) Cijfer Relatieve schaal (beste) % 1% % 5% % 15% % 36% % 64% % 85% % 95% % 99% % 100% In het Nederlandse hoger onderwijs is het gebruikelijk een absolute schaal te gebruiken. De empirische literatuur die ik tot nu toe besproken heb, lijkt de hypothese te rechtvaardigen dat mannen de huidige achterstand ten opzichte van vrouwen kunnen verkleinen als studenten worden beoordeeld op een relatieve schaal in plaats van op een absolute schaal: In tegenstelling tot een absolute schaal is een relatieve schaal competitief in de zin dat een student beter moet presteren dan een gegeven fractie van de studenten om een bepaald cijfer te halen. Ons experiment verschilt op ten minste vier manieren van bovenstaande empirische studies. Ten eerste maken wij, net als Bigoni et al. (2011), gebruik van een gerandomiseerd veldexperiment. Hiermee kunnen we zelfselectie in de al dan niet competitieve omgeving uitsluiten. In de tweede plaats volgen we Bigoni et al. (2011) door louter meerkeuzevragen te gebruiken. Hiermee sluiten we uit dat geslachtsdiscriminatie de beoordeling van de tentamens kan beïnvloeden. Ten derde is het belang van het tentamen relatief groot: 50% van het eindcijfer werd bepaald door het resultaat op de tussentoets. Hiermee staat er voor studenten meer op het 2 Voor het eindtentamen draaiden we de beoordelingswijze van de groepen om.

60 56 Helpt competitief beoordelen mannelijke studenten weer op de rails? Een overzicht van experimenteel bewijs spel dan in de tussentoetsen bij Bigoni et al. (2011) en De Paola et al. (2015). Ook gebruiken we een andere manier van competitief becijferen dan Bigoni et al. (2011) en De Paola et al. (2015) die de beste student in elk willekeurig samengesteld koppel bonuspunten geven. We hebben daar goede redenen voor. Voor zover we weten, is het in de onderwijspraktijk niet gebruikelijk om bonuspunten te geven binnen willekeurig samengestelde koppels. Bovendien hangt het cijfer van een student veel af van de medestudent waaraan zij gekoppeld wordt. Onze beoordeling op relatieve schaal is minder gevoelig voor het toeval omdat een student met al haar medestudenten wordt vergeleken. Bovendien wordt zij veel toegepast in de praktijk, bijvoorbeeld op universiteiten in Angelsaksische landen. Op geaggregeerd niveau laten onze resultaten noch voor mannen noch voor vrouwen duidelijke verschillen zien in termen van tentamenvoorbereiding of - resultaten onder de twee manieren van beoordelen. Deze bevindingen zijn in strijd met de meeste resultaten uit de boven besproken literatuur waar mannen relatief beter presteren naarmate tentamens competitiever zijn. Een mogelijke verklaring is de zesjescultuur die op Nederlandse universiteiten lijkt te heersen: Studenten willen hun diploma met minimale inspanning halen en voelen zich niet geprikkeld hoge cijfers te scoren. 3 Studenten zijn dus weinig geïnteresseerd in hun cijfers zolang ze hun vakken maar halen. Onze data ondersteunen deze verklaring: als we de analyse beperken tot een subgroep van studenten op het randje van zakken of slagen dan nemen we wel geslachtsverschillen waar. Mannelijke studenten presteren significant beter onder relatieve dan onder absolute becijfering, terwijl we voor vrouwen geen significant effect waarnemen. 5 Samenvatting en conclusie In dit artikel heb ik de vraag gesteld of mannen en vrouwen anders reageren op toenemende concurrentie op tentamens. De literatuur geeft geen eenduidig antwoord. Verschillende niet-experimentele empirische onderzoeken laten zien dat mannen relatief goed presteren ten opzichte van vrouwen op competitieve toelatingstentamens op Tsjechische faculteiten (Jurajda en Munich, 2011), een prestigieuze Parijse businessschool (Ors et al., 2013) en de universiteit van Toronto (Morin, 2015). In experimenten met tussentoetsen op Italiaanse universiteiten vinden Bigoni et al. (2011) dat mannen relatief goed presteren op competitieve tussentoetsen terwijl De Paola et al. (2015) geen geslachtseffecten waarnemen. Mijn coauteurs en ik vinden alleen voor een subgroep een duidelijk geslachtseffect op een tentamen op een Nederlandse universiteit. Deze resultaten hebben consequenties voor de vraag hoe mannelijke studenten geholpen kunnen worden hun achterstand op vrouwen in het hoger onderwijs in te ha- 3 Zie bijvoorbeeld Leuven et al. (2010) en Inspectie van het Onderwijs (2014).

61 Sander Onderstal 57 len. 4 Overstappen van een absolute schaal op een relatieve schaal lijkt niet de heilige graal om mannelijk studenten weer op de rails te krijgen, althans niet in de zesjescultuur zoals die lijkt te heersen in het Nederlandse hoger onderwijs. 5 Vervolgonderzoek moet uitwijzen in hoeverre onze bevindingen inderdaad specifiek zijn voor Nederland. Ons experiment zou bijvoorbeeld kunnen worden herhaald in een omgeving waar studenten aantoonbaar meer gemotiveerd zijn dan in Nederland. Auteur Sander Onderstal ( Onderstal@uva.nl) is universitair hoofddocent aan de Universiteit van Amsterdam. Literatuur Bigoni, M., M. Fort, M. Nardotto en T. Reggiani, 2011, Teams or tournaments? A field experiment on cooperation and competition among university students, IZA Discussion Paper Croson, R. en U.Gneezy, 2009, Gender Differences in Preferences, Journal of Economic Literature, vol. 47(2): Czibor, E., Onderstal, S., Sloof, R., en Van Praag, M., 2014, Does relative grading help male students? Evidence from a field experiment in the classroom. IZA Discussion Papers De Paola, M., F. Gioia en V. Scoppa, 2015, Are Females Scared of Competing with Males? Results from a Field Experiment, Economics of Education Review, te verschijnen. Gneezy, U. en A. Rustichini, 2004, Gender and Competition at a Young Age, American Economic Review, vol. 94 (2): Gneezy, U., M. Niederle en A. Rustichini, 2003, Performance In Competitive Environments: Gender Differences, The Quarterly Journal of Economics, vol. 118(3): Guiso, L., F. Monte, P. Sapienza en L. Zingales, 2008, Culture, Gender, and Math, Science, vol. 320(5880): Hoff Sommers, C., 2000, The War against Boys, Simon & Schuster. Inspectie van het Onderwijs, 2014, De staat van het onderwijs. Onderwijsverslag 2012/2013. Inspectie van het Onderwijs, April. 4 Ik ga hier niet in op de vraag of het wenselijk is dat de geslachtskloof in het onderwijs wordt gedicht. In de arbeidsmarkt lijken mannen nog steeds een grote voorsprong te hebben op vrouwen zowel wat salaris als wat carrièrekansen betreft. 5 Daarnaast kleven er nadelen aan het gebruik van een relatieve schaal. Zo zal in een klas waarin alle studenten de stof beheersen een deel zakken. Ook geeft een relatieve schaal studenten een prikkel om samen te spannen tegen de docent en weinig tijd in het vak te steken. Tot slot hebben studenten een prikkel om hun medestudenten niet met de stof te helpen of hen zelfs te saboteren om zo hun eigen concurrentiepositie te verstevigen. Deze bezwaren zijn overigens stuk voor stuk relevanter in kleine groepen dan in grote.

62 58 Helpt competitief beoordelen mannelijke studenten weer op de rails? Een overzicht van experimenteel bewijs Jurajda, S. en D. Munich, 2011, Gender Gap in Performance under Competitive Pressure: Admissions to Czech Universities, American Economic Review, vol. 101(3): Leuven, E., H. Oosterbeek en B. van der Klaauw, 2010 The Effect of Financial Rewards on Students Achievement: Evidence from a Randomized Experiment, Journal of the European Economic Association, vol. 8(6): Morin, L.P., 2015, Do men and women respond differently to competition? Evidence from a major education reform. Journal of Labor Economics, vol. 33(2): Niederle, M. en L. Vesterlund, 2011, Gender and competition, Annual Review of Economics, vol. 3: Ors, E., F. Palomino en E. Peyrache, 2013, Performance Gender Gap: Does Competition Matter?, Journal of Labor Economics, vol. 31(3): Rosin, H., 2012, The End of Men: And the Rise of Women, Riverhead Books, Penguin Group. Salvi del Pero, A. en A. Bytchkova, 2013, A Bird s Eye View of Gender Differences in Education in OECD Countries, OECD Social, Employment and Migration Working Papers. Sax, L., 2007, Boys Adrift: The Five Factors Driving the Growing Epidemic of Unmotivated Boys and Underachieving Young Men, Basic Books.

63 Kwaliteitsmeting middelbare scholen beloont selectie Erik Schut en Margreet den Haan De huidige kwaliteitsbeoordeling van middelbare scholen houdt onvoldoende rekening met kwaliteitsverschillen tussen leerlingen. Hierdoor wordt selectie beloond en worden onderwijsprestaties vertekend. Vanaf 2016 wordt een nieuwe methode om leerresultaten te meten geïntroduceerd. Deze nieuwe beoordelingsmethode zal de genoemde problemen echter niet verkleinen en zal bovendien leiden tot een ongelijk speelveld tussen gemengde en categorale middelbare scholen. Ook het afschaffen van de Cito-toets als selectieinstrument in 2015 kan deze problemen niet oplossen en spant het paard achter de wagen. Effectiever is om de Cito-toets te hanteren om de kwaliteitsmeting van middelbare scholen te corrigeren voor selectie-effecten. Uit een analyse op basis van cijfers van het centraal eindexamen van vwo-leerlingen blijkt namelijk dat deze positief samenhangen met hun Cito-score van de basisschool. 1 Inleiding Het kabinet wil selectie van leerlingen door middelbare scholen op basis van hun score op de Cito-eindtoets van de basisschool onmogelijk maken. Vanaf 2015 mogen middelbare scholen de Cito-score niet langer hanteren als toelatingscriterium. Voortaan mogen zij de toelating van nieuwe leerlingen uitsluitend baseren op het advies van de basisschool. Een middelbare school moet een leerling die bijvoorbeeld een havo-advies krijgt minimaal op havo-niveau plaatsen en mag de leerling niet weigeren als zij de Cito-score of andere scores te laag vindt. De Cito-eindtoets blijft wel bestaan 1, maar dient uitsluitend nog als second opinion om een mogelijk te laag basisschooladvies te ontdekken. Als een leerling de eindtoets namelijk beter maakt dan verwacht op grond van het advies, moet de basisschool het schooladvies heroverwegen. Wanneer het resultaat van de eindtoets minder goed is dan verwacht, mag de basisschool het schooladvies echter niet aanpassen. 1 Vanaf het schooljaar is het voor alle leerlingen van groep 8 in het reguliere basisonderwijs zelfs verplicht om een Centrale eindtoets Primair Onderwijs te maken. De overheid stelt hiervoor aan scholen de Centrale Eindtoets beter bekend als de Cito-eindtoets beschikbaar. Scholen kunnen ook kiezen voor twee andere, door de minister van Onderwijs toegelaten eindtoetsen. De ervaring uit eerdere jaren wijst uit dat veruit de meeste scholen kiezen voor de Citoeindtoets (College voor Toetsen en Examens 2014). TPEdigitaal 2015 jaargang 9(3) 59-72

64 60 Kwaliteitsmeting middelbare scholen beloont selectie Hoewel het voor middelbare scholen hierdoor lastiger wordt om de beste leerlingen te selecteren, blijft selectie wel onverminderd lonend. Bij de kwaliteitsmeting van middelbare scholen wordt namelijk nauwelijks gecorrigeerd voor selectieeffecten. Scholen die betere leerlingen aantrekken hetzij actief, hetzij passief (via zelfselectie) of minder goede leerlingen ontmoedigen om een zo hoog mogelijke opleiding te volgen, kunnen beter scoren op de prestatie-indicatoren die door de Inspectie van het Onderwijs worden gehanteerd. Aangezien deze prestatieindicatoren ook leidend zijn voor de openbare keuze-informatie over middelbare scholen, kunnen scholen die succesvol selecteren meer leerlingen werven. Met het wegnemen van de Cito-toets als selectie-instrument wordt feitelijk het paard achter de wagen gespannen. Immers, zolang selectie lonend blijft, blijft het voor middelbare scholen aantrekkelijk om betere leerlingen te selecteren. Begin 2015 bleek dan ook dat tal van middelbare scholen naar wegen zoeken om goede leerlingen te selecteren en werd staatssecretaris Dekker hierover door de Tweede Kamer ter verantwoording geroepen (Van Beeten 2015, Kuiper 2015, Tweede Kamer 2015, Vasterman 2015a). Maar wellicht belangrijker is dat scholen worden ontmoedigd om de minder goede leerlingen te stimuleren tot het volgen van een zo hoog mogelijke opleiding door het maximale uit zichzelf te halen. Uit het recente jaarlijkse Onderwijsverslag van de Onderwijsinspectie blijkt dat de striktere selectie van middelbare scholen ertoe leidt dat leerlingen steeds minder opstromen naar het vwo en dat bredere brugklassen met meerdere niveaus geleidelijk verdwijnen (Inspectie van het Onderwijs 2015, Vasterman 2015b). De kansen op een betere opleiding voor laatbloeiers en kinderen die van huis uit minder gestimuleerd worden, lijken af te nemen. In dit artikel zetten wij allereerst uiteen hoe de onderwijsinspectie de kwaliteit van middelbare scholen beoordeelt. Hierna analyseren wij waarom deze kwaliteitsmeting wordt vertekend door selectie-effecten door te onderzoeken in hoeverre de prestaties worden beïnvloed door meetbare kwaliteitsverschillen tussen leerlingen. Vervolgens bespreken wij de gevolgen hiervan voor de schoolkeuze en de concurrentieverhoudingen tussen gemengde en categorale scholen. Ten slotte geven wij aan hoe de kwaliteitsmeting kan worden verbeterd door de resultaten van de eindtoets van de basisschool te gebruiken voor correctie van de prestatieindicatoren. 2 Kwaliteitsindicatoren onderwijsinspectie In Nederland is de Inspectie van het Onderwijs verantwoordelijk voor het toezicht op de kwaliteit van het onderwijs. Voor een effectief toezicht is het van belang om goed inzicht te hebben in de onderwijskwaliteit die scholen leveren. Wereldwijd is er toenemende aandacht voor het meten van schoolprestaties (Loeb en Figlio 2011, Timmermans et al. 2015). De drijfveer hiervoor is dat belanghebbenden bij goed onderwijs leerlingen, ouders, bedrijven en beleidsmakers vaak onvoldoende zicht hebben op de kwaliteit van de schoolprestaties (het bekende principaalagentprobleem). Het meten, vergelijken en beoordelen van de kwaliteit van scholen

65 Erik Schut en Margreet den Haan 61 is echter lastig vanwege het multidimensionale karakter van kwaliteit en de veelheid aan factoren die de kwaliteit beïnvloeden (Loeb en Figlio 2011). Idealiter wordt de kwaliteit van het onderwijs op een school gemeten aan de hand van de bijdrage die deze school levert aan de leerwinst op alle relevante dimensies die leerlingen boeken gedurende hun schoolopleiding. In de praktijk blijkt de toegevoegde waarde van scholen aan de leerwinst moeilijk goed te bepalen. Ten eerste omdat niet alle relevante dimensies (met name de non-cognitieve vaardigheden) goed meetbaar zijn. Maar ook omdat een groot aantal buitenschoolse factoren de leerwinst bepalen, waarvan niet alle gegevens op individueel niveau beschikbaar zijn of het aantal waarnemingen uit oogpunt van statistische betrouwbaarheid (te) beperkt is. Wanneer scholen worden vergeleken op basis van meetbare toegevoegde waarde, bestaat het risico dat scholen zich vooral gaan richten op de meetbare kwaliteitsdimensies ( teaching to the test ) of dat scholen gaan selecteren op buitenschoolse factoren die effect hebben op de leerwinst waarvoor niet wordt gecorrigeerd, bijvoorbeeld de sociaal-economische achtergrond van de leerlingen (Loeb en Figlio 2011). In hoeverre gegevens over leerwinst en toegevoegde waarde bruikbaar zijn voor het beoordelen van de kwaliteit van scholen is dan ook omstreden. Het toenemend gebruik van Value-Added Models (VAM) bij de beoordeling van leraren en scholen in de Verenigde Staten vormde voor de American Statistical Association (2014) de aanleiding om een Statement te publiceren over de mogelijkheden en beperkingen van deze modellen. In Nederland is door Timmermans et al. (2011) onderzocht in hoeverre verschillende VAM-modellen de verschillen in eindexamenresultaten tussen vmbo(tl)-scholen en tussen havoscholen kunnen verklaren. De onderzoekers vinden dat de resultaten van de verschillende modellen aanzienlijk uiteenlopen en afhankelijk zijn van de keuze van de verklarende variabelen. Dit maakt het in hun ogen riskant om dergelijke modellen te gebruiken om de prestaties van scholen te vergelijken. Op basis van hun bevindingen adviseren zij om in elk geval te corrigeren voor het aanvangsniveau van de scholieren (de belangrijkste verklarende variabele), indicatoren van hun sociaal-economische status en kenmerken van de samenstelling van de schoolpopulatie. Recent concludeerde de Onderwijsraad (2014) dat leerwinst en toegevoegde waarde weliswaar goede instrumenten zijn om scholen te helpen hun onderwijs te verbeteren, maar dat zij níet bruikbaar zijn voor een oordeel over de kwaliteit van de school als geheel. Op grond van een pilot onder 25 scholen concludeerde ook de Inspectie van het Onderwijs (2014a) dat leerwinst goed te onderzoeken is, maar dat de invloed van de school daarop (de toegevoegde waarde) lastiger is te bepalen. In weerwil van deze discussie over de mogelijkheid om de toegevoegde waarde van scholen adequaat te kunnen meten, worden in Nederland de opbrengsten of onderwijsprestaties van een school door de Inspectie van het Onderwijs gemeten, waarbij een viertal opbrengstindicatoren worden gehanteerd (zie kader). Kwaliteitscriteria onderwijsinspectie De Inspectie van het Onderwijs (2011, 2013) hanteert de volgende vier opbrengstindicatoren voor de beoordeling van scholen in het voortgezet onderwijs (VO):

66 62 Kwaliteitsmeting middelbare scholen beloont selectie 1. Rendement onderbouw: gebaseerd op (i) de positieve of negatieve afwijking van de positie leerling in derde leerjaar ten opzichte van het basisschooladvies, en (ii) het aandeel leerlingen dat in leerjaar 1 en 2 is gedoubleerd. 2. Rendement bovenbouw: gebaseerd op de kans op een onvertraagde doorstroom van leerjaar 3 tot diploma, ofwel de kans dat leerlingen zonder zittenblijven hun diploma halen. 3. Gemiddeld cijfer Centraal Examen (CE); 4. Verschil tussen het gemiddelde cijfer van het schoolexamen (SE) en dat van het Centraal Examen (CE); De indicatoren worden berekend als gewogen driejaargemiddelde. Per opleiding per school wordt bij de eerste drie indicatoren door middel van een relatieve score (5-puntsschaal) aangegeven hoe deze scoren ten opzichte van dezelfde opleidingen op vergelijkbare scholen. Er worden 7 vergelijkingsgroepen onderscheiden, waarbij havo/vwo-vestigingen en categorale vwo-vestigingen elk een aparte groep vormen. Bij de eerste drie indicatoren beschouwt de Inspectie een score van 2,0 of minder (laagste kwartiel) als onvoldoende, terwijl een score op de laatste indicator onvoldoende is als het verschil meer dan 0,5 punt bedraagt. Wanneer een opleiding op meer dan één indicator onvoldoende scoort, is het totaaloordeel onvoldoende en krijgt de betreffende opleiding van de Inspectie het predicaat zwak of zeer zwak (indien ook het onderwijsproces als onvoldoende of de school langer dan twee jaar als zwak wordt beoordeeld). Het oordeel van Inspectie over de opleidingen per school is openbaar toegankelijk via de website van de Inspectie Sinds 2011 publiceert de Inspectie ook het absolute gemiddeld CE-cijfer (driejaargemiddelde) als nieuwe indicator. Hoewel deze indicator nog geen rol speelt bij het bepalen van het opbrengstenoordeel wordt wel aangegeven of een opleiding boven of onder de norm scoort (voor vwo vastgesteld op 6,0). In tegenstelling tot bij de relatieve score wordt hierbij geen onderscheid gemaakt tussen verschillende type vestigingen (zoals havo/vwo en categoraal vwo). Vanaf 2016 wordt een nieuw onderwijsresultatenmodel ingevoerd waarbij de huidige relatieve scores worden vervangen door absolute scores (Ministerie van OCW Vanaf dat moment worden opleidingen beoordeeld op basis van hun gemiddelde CE-cijfer, waarbij niet alleen wordt gekeken naar het al dan niet voldoen aan de norm, maar ook of een school ruim boven de norm presteert. Vwoopleidingen scoren onder de norm bij een gemiddeld CE-cijfer lager dan 6,30 en ruim boven de norm bij een gemiddelde CE-cijfer hoger dan 6,61 (Inspectie van het Onderwijs 2014b). Het opbrengstenoordeel van de Inspectie over een school is openbaar en wordt jaarlijks gepubliceerd in de vorm van opbrengstenoverzichten (over meerdere jaren) en opbrengstenkaarten (over één jaar) op de website De gedachte achter de vier gehanteerde indicatoren is dat zij gezamenlijk een evenwichtig beeld geven van de onderwijsprestaties van een school ( balanced score model ). Zo geven de eerste drie indicatoren scholen tegengestelde prikkels waardoor strategisch gedrag wordt tegengegaan. Een school kan bijvoorbeeld goede resultaten halen in de onderbouw door veel leerlingen te laten doorstromen naar de bovenbouw, maar als dit te gemakkelijk gebeurt, zal dit leiden tot tegenvallende resultaten in de bovenbouw of slechte examencijfers. Omgekeerd zal een strenge selectie in de onder- en bovenbouw leiden tot betere eindexamenresultaten, maar lagere doorstroomrendementen. De vierde indicator

67 Erik Schut en Margreet den Haan 63 staat meer op zichzelf en dient om te voorkomen dat scholen via te eenvoudige schoolexamens de eindexamenresultaten opkrikken. De indicatoren nemen echter lang niet alle prikkels voor strategisch gedrag weg. Zowel het doorstroomrendement als de eindexamencijfers kunnen namelijk door scholen positief worden beïnvloed door selectie van goede leerlingen. De prikkel voor selectie wordt door de Onderwijsinspectie wel enigszins gemitigeerd door het bovenbouwrendement en het gemiddelde CE-cijfer te corrigeren voor het aandeel leerlingen uit achterstandswijken zogeheten armoede-probleemcumulatiegebieden (apcg) en het aandeel zij-instromers (leerlingen die bij een andere school zijn weggegaan of weggestuurd). De ervaring wijst namelijk uit dat deze risicoleerlingen gemiddeld meer moeite hebben om zonder vertraging en met mooie cijfers het eindexamen te halen. Zo wordt voor vwo-scholen met minimaal 30 procent leerlingen uit achterstandswijken het normatieve gemiddelde CE-cijfer verlaagd met 0,34 punt vermenigvuldigd met het aandeel van deze leerlingen in het totaal aantal eindexamenleerlingen. De correcties voor risicoleerlingen houden echter maar zeer ten dele rekening met de capaciteitsverschillen tussen leerlingen bij instroom in het voortgezet onderwijs. Wanneer met deze capaciteitsverschillen onvoldoende rekening wordt gehouden, kunnen de kwaliteitsscores van de inspectie worden vertekend door selectieeffecten, hetzij zelfselectie door ouders en leerlingen hetzij selectie door scholen. De indicatoren meten dan geen goede scholen, maar goede leerlingen. Bij gelijke onderwijskwaliteit zullen scholen met goede leerlingen dan beter scoren dan scholen met minder goede leerlingen. 3 Cito-score als indicator Een belangrijke algemene indicator van capaciteitsverschillen tussen leerlingen is hun score op de Cito-toets aan het eind van de basisschool (Kuyper en Van der Werf 2012). Samen met het advies van de basisschool over de leerprestaties van de leerling vormde de Cito-toets tot 2014 een belangrijk toelatingscriterium voor scholen in het voortgezet onderwijs. Zo werd een Cito-score van doorgaans gehanteerd voor toelating tot een gemengde havo/vwo brugklas, terwijl een score van werd gehanteerd voor toelating tot ongedeeld vwo (atheneum, gymnasium). Scholen konden zelf hun toelatingseisen bepalen. Zo waren er categorale gymnasia die een minimumscore van 548 vereisten, terwijl op sommige scholen met een gemengde brugklas van vmbo tot vwo in het extreme geval zelfs een leerling met een score van 528 nog in het vwo terecht kon komen (Elzinga 2011). Wanneer een hogere Cito-score samenhangt met een hoger doorstroomrendement en hogere eindexamencijfers zullen opleidingen met leerlingen met een hogere Cito-score op de kwaliteitsindicatoren van de inspectie hoger scoren dan vergelijkbare opleidingen met leerlingen met een lagere Citoscore, zonder dat hun onderwijsprestaties beter hoeven te zijn. Hoewel deelname aan de Cito-toets vrijwillig was, nam in procent van de basisscholen

68 64 Kwaliteitsmeting middelbare scholen beloont selectie hieraan deel, terwijl 10 procent koos voor een andere eindtoets en 5 procent aan geen enkele eindtoets deelnam (College voor Toetsen en Examens 2014). Gelet op de hoge deelname aan de Cito-toets is het opmerkelijk dat met de verschillen in Cito-score van de leerlingen bij het bepalen van de kwaliteit van de onderwijsprestaties geen rekening wordt gehouden. Nog opmerkelijker is dat er over het verband tussen Cito-score, doorstroomrendement en eindexamencijfers maar weinig bekend lijkt te zijn. 4 Cito-score en doorstroomrendement Het enige onderzoek naar het verband tussen Cito-score en doorstroomrendement is uitgevoerd door het Gronings Instituut voor Onderzoek van Onderwijs (Kuyper en Van der Werf 2012). Uit dit onderzoek op basis van gegevens van circa 1400 leerlingen die in 1999 aan het voortgezet onderwijs begonnen (het zogeheten VOCL 99-cohort), blijkt dat er tussen Cito-score en rendement een sterke samenhang bestaat. Uit Tabel 1, waarin de bevindingen van het GION zijn samengevat, blijkt dat de kans dat een leerling zonder vertraging het vwo-diploma haalt sterk toeneemt met de Cito-score: voor elke extra punt boven de 545 neemt de onvertraagde slaagkans 7 tot 10 procentpunt toe. Opvallend is voorts dat vooral het onderbouwrendement sterk toeneemt met een stijgende Cito-score. Het effect van de Cito-score op het doorstroomrendement wordt kleiner naarmate leerlingen in een hoger leerjaar terechtkomen. Bij de leerlingen die zonder vertraging het eindexamenjaar halen lijkt de Cito-score nog maar van beperkte invloed op hun uiteindelijke slaagkans. Tabel 1 Percentages leerlingen op koers voor vwo-diploma, uitgesplitst naar Cito-score Op koers in leerjaar (%) Citoscore Vwodiploma ,3 79,7 63,8 52,8 44,5 39,5 36, ,6 78,7 65,5 57,3 49,4 45,5 43, ,5 84,9 74,6 66,9 55,8 54,0 50, ,6 89,1 80,2 72,3 68,1 63,3 60, ,1 96,2 91,4 85,4 79,7 73,9 71, ,6 97,2 94,4 91,1 87,7 82,3 80,9 Bron: Kuyper en Van der Werf (2012), p.36 (Tabel 3.16). Duidelijk is dus dat scholen hun doorstroomrendement en dus hun kwaliteitsscore kunnen verhogen door nieuwe leerlingen te selecteren op een hoge Cito-score, of door leerlingen met een relatief lage Cito-score te ontmoedigen vanuit de havo of gemengde brugklas naar het vwo op te stromen. Tot op zekere hoogte is dit wenselijk, omdat dit een te ruimhartig acceptatiebeleid ontmoedigt. Een te soepel acceptatie- en opstroombeleid kan leiden tot onnodige uitval en vertraging en is

69 Erik Schut en Margreet den Haan 65 niet alleen kostbaar (Van Vuuren et al. 2015) maar leidt ook tot frustratie bij zowel leerlingen als docenten. Een nadeel van een strenge selectie is echter dat leerlingen die ondanks een lagere Cito-score wel de potentie hebben om het vwo succesvol af te ronden (zoals de laatbloeiers en vechters ) hiertoe de kans wordt ontnomen. Onderzoek wijst uit dat vroege selectie een negatief effect heeft op de deelname aan en het afronden van het hoger onderwijs (Van Elk et al. 2011). Ongeveer een kwart van de leerlingen blijkt in de eerste drie jaren van het VO te veranderen van onderwijsniveau en dit geldt in grotere mate voor leerlingen die in het eerste jaar uitsluitend zijn geplaatst op grond van hun Cito-score (Feron et al. 2015; Ter Weel 2015). Veranderen van onderwijsniveau is vooral mogelijk op scholen met een gemengde brugklas. 5 Cito-score en eindexamencijfers Ook onderzoek naar het verband tussen Cito-score en CE-cijfers is uiterst schaars. Timmermans et al. (2011) onderzochten op basis van leerlingen die in 1999 aan de vmbo(tl) en havo begonnen (het VOCL 99-cohort) de relatie tussen hun eindexamencijfer en hun score op de entree Cito-toets in groep 7 van de basisschool ( prior achievement ) en andere leerlingkenmerken, zoals intelligentie, leeftijd, geslacht, SES, ethniciteit en tweede taal. Bij vmbo-scholen blijkt dat slechts 12% van de variatie in de eindexamenresultaten tussen deze scholen kan worden toegeschreven aan de scholen zelf, terwijl een veel groter deel van de variatie (42%) kan worden verklaard door verschillen tussen scholieren, waarbij het leeuwendeel (35%) voor rekening komt van de verschillen in hun Cito-score op de entreetoets. Ook op het niveau van de individuele vmbo-scholieren blijkt veruit het grootste deel van de verklaarde variatie toe te schrijven aan verschillen in Cito-score (17% van de in totaal 27%). Naast Cito-score (aanvangsniveau) hadden ook intelligentie, SES en leeftijd een significant effect op de eindexamenresultaten. Voor havo-scholen blijkt hetzelfde te gelden maar ligt de verklaarde variantie lager. Ook uit studies in een aantal andere landen bleken aanvangsniveau ( prior achievement ) en sociaaleconomische status (SES) de belangrijkste contextuele variabelen voor het verklaren van verschillen in studieprestaties (Timmermans et al. 2015). De vraag is of ook binnen het vwo de Cito-score van leerlingen die het zesde leerjaar hebben bereikt voorspellende waarde heeft voor hun CE-cijfer. Om deze vraag te beantwoorden hebben wij op basis van gegevens over Cito-scores en eindexamenresultaten van een school met een gemengde havo/vwo-brugklas over de periode onderzocht of er een verband bestaat tussen het gemiddeld CE1-cijfer (CE zonder herexamen) per leerling en hun Cito-score van de basisschool. In vergelijking met de studie van Timmermans et al. (2011) heeft dit onderzoek betrekking op een ander schooltype en een andere (maar vergelijkbare) Cito-toets, op slechts één school (waardoor verschillen tussen scholen geen rol kunnen spelen bij de variatie in eindexamencijfers) en op vijf opeenvolgende jaren (in plaats van slechts één jaar).

70 66 Kwaliteitsmeting middelbare scholen beloont selectie In de periode deden 230 leerlingen op deze school het vwoeindexamen (gemiddeld 46 per jaar), waarbij van 200 leerlingen hun Cito-score in groep acht van de basisschool bekend was (87 procent, vergelijkbaar met het landelijk gemiddelde). Het verband tussen CE-cijfers en Cito-score is geschat door middel van lineaire regressie, zowel voor elk jaar afzonderlijk als voor de vijf jaren tezamen. De resultaten zijn weergegeven in Tabel 2. Tabel 2 Verband tussen Cito-score en gemiddeld cijfer centraal examen vóór herexamen (CE1) Effect Cito-score op CE1-cijfer a 0,076** (0,032) 0,096* (0,022) 0,076* (0,022) 0,068* (0,024) 0,063** (0,024) 0,076* (0,012) 2010 (=1) b -0,528** (0,178) 2011 (=1) b -0,560** (0,178) 2012 (=1) b -0,325 (0,176) 2013 (=1) b 0,136 (0,175) N R 2 0,12 0,34 0,23 0,16 0,17 0,26 Gemiddeld CE1-cijfer 5,66 5,60 5,75 6,27 6,09 5,87 Gemiddelde Cito-score 542,6 542,2 541,1 542,0 541,4 541,8 eindexamen-kandidaten * Significant op 1-procentniveau; **significant op 5-procentniveau. a Standaardfout tussen haakjes. b De jaardummies geven de verschillen in gemiddeld CE1-cijfer in de verschillende jaren aan ten opzichte van 2014 bij een gepoolde regressie over de gehele periode (laatste kolom). Zo lag het gemiddelde CE1-cijfer in 2010 en 2011 circa een halve punt lager dan in Vanaf 2012 moeten leerlingen voor hun CE (na herexamen) gemiddeld minimaal 5,5 halen om te kunnen slagen. Uit Tabel 2 blijkt een significant positief verband tussen de Cito-score van de eindexamenleerling op de basisschool en zijn of haar gemiddelde CE1-cijfer. Over de vijfjaarperiode gaat een toename van de Cito-score met één punt gepaard met een 0,076 punt hoger CE1-cijfer. Gemiddeld wordt ongeveer een kwart van de variantie in CE1-cijfers verklaard door de verschillen in Cito-score, waarmee verklaarde variantie vergelijkbaar is met die van de eerdere studie van Timmermans et al. (2011) onder vmbo(tl)- en havo-scholieren. Het verband tussen CE1-cijfer en Cito-score blijkt bovendien tamelijk robuust over de vijf eindexamenjaren. De mate waarin het CE1-cijfer toeneemt per extra Cito-punt varieert in de onderzoeksperiode van 0,063 tot 0,096 punt. Zoals ook blijkt uit de tabel ligt de gemiddelde Cito-score van de eindexamenkandidaten op deze school met ongeveer 542 ruim beneden de ondergrens van 545 die door veel ongedeelde vwo-scholen tot

71 Erik Schut en Margreet den Haan 67 nu toe wordt gehanteerd. Bij een gemiddelde van 545 zou op basis van de schattingsresultaten het gemiddelde CE1-cijfer naar verwachting 0,23 punt (3 * 0,076) hoger liggen. Wanneer, zoals tot voor kort bij sommige categorale gymnasia, alleen leerlingen met een Cito-score van 548 en hoger zouden zijn toegelaten, zou het gemiddelde CE1-cijfer op deze school naar verwachting ongeveer een halve punt hoger zijn uitgekomen. 6 Onderwijsprestaties vertekend door selectie Hoewel het onderzoek betrekking heeft op de gegevens vwo-scholieren van één school, komen de resultaten overeen met de bevindingen van Timmermans et al. (2011) onder een omvangrijk cohort leerlingen van verschillende vmbo(tl)- en havo-scholen. Hoewel nader onderzoek zal moeten uitwijzen of de resultaten ook gelden voor vwo-leerlingen op andere scholen, is er op voorhand geen reden waarom het verband tussen Cito-score en eindexamencijfers op die scholen sterk zou verschillen. Wanneer hetzelfde verband ook voor andere scholen geldt, is duidelijk dat scholen die in het verleden streng hebben geselecteerd een hoger gemiddeld CE-cijfer kunnen halen dan scholen waarbij ook leerlingen met een lagere Citoscore een kans krijgen. Ook wanneer scholen bij instroom vanaf heden niet meer effectief kunnen selecteren, zullen zij minimaal nog zes jaar profiteren van deze strenge selectie omdat pas dan de meeste leerlingen van het in 2014 ingestroomde cohort eindexamen zal hebben gedaan. Wanneer de resultaten ook gelden voor andere scholen geldt bovendien dat scholen die leerlingen met een relatief lage Citoscore aanmoedigen om op te stromen naar het vwo zichzelf in de vingers snijden omdat dit naar verwachting leidt tot lagere eindexamencijfers. De kans dat scholen die tot op heden een streng acceptatiebeleid hebben gevoerd door de Inspectie als zwak worden beoordeeld is gering. Ook zal het voor deze scholen relatief eenvoudig zijn om in het met ingang van 2016 nieuw in te voeren beoordelingsmodel van de Inspectie (zie kader) de komende jaren ruim boven de norm te scoren. Bovendien worden de kwaliteitsindicatoren van de Inspectie ook gehanteerd voor de samenstelling van de verschillende ranglijsten van scholen die beogen om ouders en leerlingen in staat te stellen in hun omgeving de beste school te kiezen. Tot 2014 konden ouders en leerlingen hiervoor terecht bij de jaarlijkse ranglijsten. De Volkskrant (en daarvoor Trouw) en het weekblad Elsevier. Vanaf 2014 is het stokje van De Volkskrant overgenomen door het Centrum voor Hoger Onderwijs Informatie (CHOI). Met een Keuzegids Middelbare Scholen ( en de gerelateerde website beoogt het CHOI-ouders en -leerlingen te informeren over de kwaliteit van scholen en een overzicht te bieden van de beste scholen per provincie. Beide ranglijsten zijn gebaseerd op de kwaliteitsindicatoren van de Inspectie (inclusief het absolute gemiddelde CE-cijfer) en geven dus een door selectieeffecten vertekend beeld van de onderwijsprestaties van de betreffende scholen. Door de uiteenlopende wijze waarop de verschillende indicatoren worden gewo-

72 68 Kwaliteitsmeting middelbare scholen beloont selectie gen, geselecteerd en geïnterpreteerd leveren de verschillende ranglijsten overigens geen eenduidig beeld op (Abels, 2014). In elk geval geven de ranglijsten een vertekend beeld van de feitelijke onderwijsprestaties van scholen, waardoor ouders en leerlingen een verkeerde schoolkeuze kunnen maken. 7 Ongelijk speelveld tussen gemengde en categorale scholen Met ingang van 2015 mogen middelbare scholen de toelating niet meer laten afhangen van het resultaat van de eindtoets maar uitsluitend van het advies van de basisschool. Dit advies moeten basisscholen uiterlijk 1 maart afgeven, terwijl de eindtoets voortaan pas tussen 15 april en 15 mei wordt afgenomen. De eindtoets is bovendien niet langer vrijwillig maar verplicht voor alle basisschoolleerlingen, waarbij basisscholen kunnen kiezen tussen een Cito-eindtoets en een tweetal andere, door de overheid toegelaten, eindtoetsen. Middelbare scholen mogen leerlingen geen extra toetsen laten afleggen om het niveau te bepalen en evenmin de toelating baseren op andere toetsen die leerlingen op de basisschool maken (bijvoorbeeld de entreetoets in groep 7). De basisschool mag deze gegevens overigens wel betrekken bij het schooladvies. Ook bij overaanmelding mogen toetsscores niet als toelatingscriterium worden gebruikt, maar moet er bijvoorbeeld worden geloot. De nieuwe regels maken selectie lastiger, maar niet onmogelijk. Zo hoeven categorale vwo-scholen alleen leerlingen toe te laten met een enkelvoudig vwoadvies en mogen zij leerlingen met een gemengd havo/vwo-advies weigeren (Tweede Kamer 2015). Daarentegen moeten scholen met een gemengde havo/vwobrugklas in principe ook leerlingen met een enkelvoudig havo-advies toelaten. Bovendien kunnen middelbare en basisscholen over de onderbouwing van de basisschooladviezen allerlei afspraken maken waarbij toetsresultaten een rol kunnen spelen. Voor een enkelvoudig vwo-advies hebben bijvoorbeeld alle Rotterdamse basisscholen afgesproken om bepaalde minimumscores op de Cito-toetsen uit het leerlingvolgsysteem van groep 6, 7 en 8 te hanteren ( waardoor het eerste selectiemoment feitelijk wordt vervroegd. In antwoord op Kamervragen hierover antwoordde staatssecretaris Dekker (OC&W) er geen probleem mee te hebben wanneer basisscholen met het voortgezet onderwijs afspreken hoe en met welke gegevens zij het schooladvies onderbouwen, en bijvoorbeeld afspraken maken over hoe de basisschool toetsgegevens gebruikt bij de totstandkoming van het advies (Tweede Kamer 2015). Alleen mag een middelbare school geen leerlingen weigeren als een basisschool niet met de lokale afspraken meedoet. Categorale vwo-scholen kunnen dus nog steeds sterker selecteren dan gemengde havo/vwo-scholen. Bij de huidige kwaliteitsmeting zijn categorale en gemengde scholen ingedeeld in aparte vergelijkingsgroepen, waarbinnen de relatieve scores (op rendement en gemiddeld CE-cijfer) worden bepaald. Hierdoor wordt voorkomen dat categorale scholen dankzij een selectie van betere leerlingen op de relatie-

73 Erik Schut en Margreet den Haan 69 ve prestatie-indicatoren beter scoren dan de gemengde havo/vwo-scholen en er dus een ongelijk speelveld ontstaat. Sinds 2011 publiceert de Inspectie echter per opleiding ook absolute gemiddelde CE-cijfers en hanteert daarbij een uniforme norm, waarbij er geen onderscheid wordt gemaakt tussen vwo-opleidingen van gemengde en categorale scholen. Gelet op de gunstige leerlingenselectie bij categorale opleidingen is de kans groot dat zij op deze absolute indicator beter scoren dan gemengde scholen. Hoewel de Inspectie deze absolute score nog niet betrekt in haar oordeel over scholen, wordt deze wel gepubliceerd en gebruikt in de diverse rankings van middelbare scholen. Deze rankings vertekenen derhalve de feitelijke onderwijsprestaties ten nadele van gemengde scholen. Problematischer is echter dat vanaf 2016 de Inspectie een nieuw kwaliteitsbeoordelingssysteem introduceert waarbij de relatieve scores per vergelijkingsgroep worden vervangen door absolute scores per opleiding (Ministerie van OCW 2015). 2 Bovendien gaat de Inspectie ook een bovennorm introduceren, waarbij scholen de kwalificatie ruim boven de norm ontvangen als hun gemiddelde CEcijfer deze norm overschrijdt. Het nieuwe model betekent dat het risico op een ongelijk speelveld tussen gemengde havo/vwo-scholen en categorale scholen sterk wordt vergroot. Gemengde havo/vwo-scholen worden hierdoor bovendien min of meer gedwongen om de opstroom van minder goede leerlingen naar het vwo te ontmoedigen door daar strenge eisen aan te verbinden. Aldus worden deze leerlingen kansen op een betere opleiding ontnomen. Doordat in het nieuwe model veel meer nadruk komt te liggen op goede eindexamenresultaten en dus ook op het belang van een terughoudend opstroombeleid is van een evenwichtig balanced score model geen sprake meer. 8 Conclusie en aanbeveling Uit recent onderzoek blijkt dat concurrentie tussen scholen met gecombineerde opleidingen (havo/vwo of vmbo/havo) ertoe leidt dat deze scholen meer relatief zwakke leerlingen toelaten en beter presteren (Cabus en Cornelisz 2014). Voor categorale vwo- en havoscholen blijkt dit effect niet aanwezig. De onderzoekers trekken hieruit de conclusie dat concurrentie tussen scholen meer op basis van kwalitatief hoogwaardig onderwijs gevoerd zou moeten worden en minder gericht zou moeten zijn op het aantrekken van de relatief beste leerlingen. De beoordeling van scholen op basis van de kwaliteitsindicatoren van de Inspectie bevordert echter het omgekeerde. Om goed te scoren in de ranglijsten en voor het verkrijgen van een gunstig oordeel van de Inspectie (of voor het vermijden van een ongunstig oordeel) is het aantrekken van de beste leerlingen en het ontmoedigen van de minder goede leerlingen om een zo hoog mogelijke opleiding te volgen een effectieve strategie. Dit leidt tot een ongelijk speelveld tussen categorale scholen en scholen met een 2 Zie kader. Voor meer details: /hoofdlijnen/een-nieuw-model/veranderingen

74 70 Kwaliteitsmeting middelbare scholen beloont selectie gemengde brugklas, vermindert de prikkels tot het verbeteren van onderwijsprestaties en verlaagt de kansen van leerlingen die op de basisschool minder goed scoren, maar wel potentie hebben. Het in 2016 in te voeren nieuwe model voor de beoordeling van leerresultaten lost deze problemen niet op, maar zal het ongelijke speelveld tussen gemengde havo/vwo en categorale vwo-scholen juist vergroten en het opstromen van leerlingen verder ontmoedigen. Het wegnemen van de Cito-toets als toelatingscriterium vermindert de mogelijkheden tot selectie. Hiermee wordt echter niet zozeer de kwaal bestreden maar een symptoom. Aanpak van de kwaal vereist het reduceren van de prikkel tot selectie, bijvoorbeeld door de prestatie-indicatoren beter te corrigeren voor de kwaliteit van de leerlingen. Wanneer effectief kan worden gecorrigeerd voor kwaliteitsverschillen tussen leerlingen, hoeft selectie zelfs helemaal geen probleem te zijn. De Cito-toets lijkt voor dit doel bij uitstek geschikt. Nederland beschikt met de Citoscore immers over een unieke, uniforme en gevalideerde kwaliteitsmaat over het grootste deel van en vanaf 2015 zelfs van alle nieuwe middelbare scholieren. Tot op heden is van deze informatie geen gebruik gemaakt. Door de scholen te verplichten de Cito-score en CE-cijfers op leerlingniveau aan te leveren, kunnen de gemiddelde CE-cijfers worden gecorrigeerd voor de Cito-score van de leerlingen. Op die manier krijgen ouders en leerlingen beter inzicht in welke scholen daadwerkelijk beter presteren in plaats van sterker selecteren. Uit onderzoek van Timmermans et al. (2011) blijkt bovendien dat de Cito-score weliswaar niet de enige, maar wel veruit de belangrijkste verklarende variabele vormt voor de verschillen in eindexamenresultaten, zowel tussen scholen als tussen leerlingen. De voorgestelde correctie lijkt eenvoudig uitvoerbaar, zal scholen sterker aansporen tot betere onderwijsprestaties, zal hen aanmoedigen om leerlingen waar mogelijk te laten opstromen naar een zo goed mogelijke opleiding en zal leiden tot eerlijker concurrentie tussen gemengde en categorale scholen. Aangezien de in 2016 nieuw in te voeren methode om de leerprestaties te meten selectie nog meer lonend maakt, is het van extra belang om voor selectie zo goed mogelijk te corrigeren. Auteurs Erik Schut ( is als hoogleraar verbonden aan de Erasmus Universiteit Rotterdam; Margreet den Haan is werkzaam als natuurkundedocent op een middelbare school (havo/vwo). Literatuur Abels, R., 2014, Goede resultaten maken nog geen goede school, Trouw, 11 januari.

75 Erik Schut en Margreet den Haan 71 American Statistical Association, 2014, ASA Statement on Value-Added Models for Educational Assessment, April 8, Beeten, M. van, 2015, Gymnasia sturen 'zwakke' leerling nog altijd weg, Algemeen Dagblad, 5 februari. Cabus, S. en I. Cornelisz, 2014, Rendement van concurrentie tussen scholen, ESB, vol. 99(4682): College voor Toetsen en Examens, 2014, De centrale eindtoets PO in Informatie voor scholen, CvTE, Utrecht. Elzinga, A., 2011, Eisen Cito-score verschillen per school, J/M Ouders, Elk, R. van, M. van der Steeg en D. Webbink, 2011, Does the timing of tracking affect higher education completion? Economics of Education Review, vol. 30(5): Feron, E., T. Schils en B. ter Weel, 2015, Does the teacher beat the test? The additional value of teacher assessment in predicting student ability, CPB Discussion Paper 300, CPB, Den Haag. Inspectie van het Onderwijs, 2011, De beoordeling van opbrengsten in het voortgezet onderwijs. Hoe werkt het?, Publicatienummer: 22DW2011G018, Utrecht. Inspectie van het Onderwijs, 2013, Meerjaren opbrengsten VO Toelichting, Utrecht, mei. Inspectie van het Onderwijs, 2014a, Verslag eindbijeenkomst pilot leerwinst en toegevoegde waarde, 26 november, ndbijeenkomst-leerwinst.pdf Inspectie van het Onderwijs, 2014b, Onderwijsresultaten Voortgezet Onderwijs 2014 (Nieuw model schaduwversie), Technische toelichting. Utrecht, oktober. Inspectie van het Onderwijs, 2015, De staat van het onderwijs. Onderwijsverslag 2013/2014, Utrecht, 15 april. Kuiper, R., 2015, Er is veel onenigheid tussen ouders, basis- en middelbare scholen over schooladvies, De Volkskrant, 24 februari. Kuyper, H. en G. van der Werf, 2012, Excellente leerlingen in het voortgezet onderwijs. Schoolloopbanen, risicofactoren en keuzen, GION, Groningen. Loeb, S. en D. Figlio, 2011, School accountability. In E. A. Hanushek, S. Machin en L. Woessmann (eds), Handbook of the Economics of Education, vol. 3: , San Diego, CA: North Holland. Ministerie van OCW, 2015, Nieuw model leerresultaten voortgezet onderwijs, Brief aan de voorzitter van de Tweede Kamer der Staten-Generaal, Referentie , 25 juni. Onderwijsraad, 2014, Toegevoegde waarde: een instrument voor onderwijsverbetering - niet voor beoordeling, Den Haag, 7 april. Timmermans, A.C., S. Doolaard en I. de Wolf, 2011, Conceptual and empirical differences among various value-added models for accountability, School Effectiveness and School Improvement, vol. 22(4): Timmermans, A.C. en S.M. Thomas, 2015, The impact of student composition on schools value-added performance: a comparison of seven empirical studies, School Effectiveness and School Improvement, vol. 26(3): Tweede Kamer, 2015, Omzeilen van het schooladvies, Stenogram van Plenair debat, 25 februari. Vasterman, J., 2015a, Vroeg schooladvies? Dat houden we zo, NRC Handelsblad, 26 februari.

76 72 Kwaliteitsmeting middelbare scholen beloont selectie Vasterman, J., 2015b, Leerlingen komen niet meer zo snel op een hoger niveau, NRC Handelsblad, 15 april. Vuuren, D. van en K. van der Wiel, 2015, Zittenblijven in het primair en voortgezet onderwijs. Een inventarisatie van voor- en nadelen, CPB Policy Brief 2015/01, CPB, Den Haag. Weel, B. ter, 2015, Wat weten we van cruciale onderwijskeuzes?

77 Hoe progressief is de verdeling van de belastingdruk op het bruto-inkomen van huishoudens? Geert Reuten De verdeling van de belastingdruk op het bruto-inkomen van huishoudens is nauwelijks progressief. De tariefstructuur en de aftrekposten bij de inkomstenbelastingen, en de omvang van andere vormen van belastingheffing, zoals de btw, brengen per saldo slechts een geringe progressie met zich mee. Gemeten naar kwartielen van het bruto-inkomen van huishoudens, is de huidige belastingdrukverdeling vrijwel vlak. Het gemiddelde belastingdrukverschil tussen het laagste en hoogste inkomenskwartiel beloopt rond drie procentpunt. Het kabinet Rutte-II concludeert niettemin dat de lasten momenteel voldoende progressief zijn verdeeld indien we ook de pensioenpremies bij die lasten meenemen. Maar die stelling impliceert dat degenen die geen of onvoldoende pensioen (kunnen) opbouwen, daardoor een hogere draagkracht zouden hebben. Het kabinet gaat voorbij aan het bijzondere transitorisch karakter van pensioenpremies. 1 Inleiding De door de overheid wettelijk verplichte netto belastingen en premies die huishoudens moeten opbrengen, zijn een complex samenstel van heffingen op het inkomen van personen, heffingen op de uitgaven en op bezittingen, en van toe- of bijslagen die toegerekend worden aan het huishouden. In hoeverre resulteert dit complex in progressieve belastingen? 1 Dit artikel neemt de mate van progressie van de integrale belastingheffing bij huishoudens onder de loep. Het gaat daarbij om de netto inkomensheffingen (belasting en premies volksverzekering na aftrekposten enz.); de inkomensafhankelijke bijdrage zorgverzekeringswet; de indirecte belastingen (voornamelijk btw en accijnzen) en de lokale heffingen. 2 De focus ligt op de verdeling van de belastingdruk op het bruto-inkomen van huishoudens gemeten naar kwartielgroepen van laag naar hoog inkomen. Ik beperk mij tot de jaren 2010 en Dit artikel is afgesloten voordat de definitieve voorstellen van het kabinet Rutte-II in het Belastingplan voor komend jaar bekend waren. Belangrijke onderdelen van dit artikel berusten op schriftelijke informatie-uitwisselingen met het ministerie van Financiën en het ministerie SZW uit de tijd dat ik Eerste Kamerlid voor de SP was. Naar de betreffende Kamerstukken wordt in de loop van dit artikel verwezen. 2 Inkomensheffingen hebben in beginsel betrekking op het inkomen van personen. Zodra het daarbij om belastingkortingen en toe- en bijslagen gaat, en wanneer we de belastingen breder trekken dan deze heffingen, dan zijn we onontkoombaar aangewezen op het huishouden als eenheid. TPEdigitaal 2015 jaargang 9(3) 73-96

78 74 Hoe progressief is de belastingdrukverdeling op het bruto-inkomen van huishoudens? Voor deze integrale belastingen zijn er thans gedegen CBS-data voor de jaren beschikbaar (kwartielen en decielen). Voor de jaren zijn er, voor uitsluitend de inkomensheffingen, ramingen van het kabinet (kwartielen). Ik beperk mij in dit artikel tot kwartielen van het bruto-inkomen, enerzijds omdat het mij om de hoofdlijn gaat, en anderzijds omdat de genoemde ramingen slechts voor kwartielen beschikbaar zijn. 3 Ik ga in dit artikel niet in op de kwestie van een normatief gewenste belastingdrukverdeling. Ik zie naar de huidige feiten en ik constateer daarbij dat het kabinet Rutte-II, voor een kwartielverdeling naar het bruto-inkomen, een lastendrukverdeling in een verhouding van ongeveer 1 : 1,1 : 1,2 : 1,4 als voldoende progressief en als een verdeling naar draagkracht acht (zie paragraaf 5). Paragraaf 3 bevat de kern van het artikel en laat zien dat de gemiddelde inkomensheffingen progressief verdeeld zijn (maar verre van de marginale toptarieven). Betrekken we daarbij de overige belastingheffingen dan blijkt de progressie echter vrijwel verdwenen. Het kabinet Rutte-II verdedigt op twee wijzen dat de lasten wèl naar draagkracht verdeeld zouden zijn. In paragraaf 4 bespreek ik de opvatting van het kabinet dat de druk van indirecte belastingen beter niet gemeten zouden kunnen worden over het bruto-inkomen maar over de bestedingen (de belastingdruk oogt dan minder vlak). In paragraaf 5 bespreek ik een geheel andere verdedigingslinie van het kabinet. Het drukt nu de indirecte belastingen wèl uit als percentage van het bruto-inkomen, maar beschouwt, naast o.a. premies werknemersverzekeringen, ook de pensioenpremies als draagkrachtbepalende lasten. De lastendruk (niet de belastingdruk) is dan aanzienlijk minder vlak. Ik laat in deze paragraaf onder andere zien dat het kabinet hier geheel voorbij gaat aan het bijzondere transitorisch karakter van pensioenpremies. De pensioenopbouw bestendigt de bestaande scheve inkomensverdeling en daarmee ook de draagkracht. De merkwaardige implicatie van de kabinetsopvatting is dat degenen die geen of onvoldoende pensioen (kunnen) opbouwen, daardoor een hogere draagkracht zouden hebben. Maar alvorens de diepte in te gaan, geeft paragraaf 2 een aantal belangrijke begripsbepalingen en een kort overzicht van de data die ik gebruik en toepas. 2 Begripsbepaling en statistieken voor de berekening van de belastingdrukverdeling Inkomensstatistiek huishoudens: de CBS-systematiek. De belangrijkste databron voor dit artikel is de statistiek Samenstelling inkomen huishoudens zoals het 3 Op basis van toen nog beperkte empirische data gaven de volgende auteurs eerder een aanzet voor de opstelling van een integrale belastingdrukverdeling (over decielgroepen): De Kam (1994 p. 918 en 2007 p ) over de jaren ; Caminada en De Kam (2007: ) voor het jaar 1999.

79 Tabel 1. Inkomen en belastingen huishoudens: samenvatting systematiek CBS 4 Inkomen: % bruto-inkomen 2010 Afdrachten: % bruto-inkomen 2010 Geert Reuten 75 1 Inkomen uit arbeid (incl. werkgeverspremies: 13%) 73% 2 Inkomen uit eigen onderneming 6% 3 Inkomen uit vermogen (uit bezittingen minus schulden) -2% 4 PRIMAIR INKOMEN [=1+2+3] 77% 5 Uitkering inkomensverzekeringen (vnl. AOW, pensioen, WW, arbeidsongesch.) 6 Uitkering sociale voorzieningen (vnl. bijstand en kinderbijslag) 7 Ontvangen gebonden overdrachten (huursubsidie) 8 Ontvangen inkomensoverdrachten (alimentatie: afronding op 0) 20% 11 Premie inkomensverzekeringen (vnl. AOW 5%, pensioen 8%, WW 2%, arbeidsongesch. 3%) 3% 1% 12 Premie ziektekostenverzekering (vnl. Wlz 4%, IAB Zvw 4%, premie Zvw huishouden 3%) 0% 10 Betaalde inkomensoverdrachten (alimentatie: afronding op 0) 19% 11% 0% 13 Belasting op inkomen (excl.premies vv) 11% 9 BRUTO-INKOMEN [= ] 100% 9a 9b 9c 9d 9e 9f Som [= ] anders gespecificeerd bestaande uit: Inkomensheffing * Heffing IAB Zvw Premie zorgverz. huishouden Premie werknemersverzekeringen Premie pensioenverz. (2 e &3 e pijler) paragraaf Overig en afronding 14 BESTEEDBAAR INKOMEN [=9 minus 10 t/m 13] [=9 minus 9a t/m 9f] 15a 15b Indirecte belastingen Lokale heffingen Totaal belastingen huishoudens [=9a+9b+15a+15b] De nummering bij de posten in de onderstaande noten verwijst naar het CBS-stelsel (voetnoot 5). * Post 13 plus de premie volksverzekeringen (vv), de posten (AOW & Anw) en 12.3 (AWBZ). IAB Zvw (inkomensafhankelijke bijdrage Zorgverzekeringswet), de posten (de termen heffing en IAB komen uit de Zorgverzekeringswet 2005, Paragraaf 5.2 en 5.3, in het bijzonder art. 41, 42 en 48). Premie basisverzekering: netto-premie (nominaal minus zorgtoeslag; later plus eigen risico), post Posten (WW) en (arbeidsongeschiktheid). Posten (tweede pijler: werknemers) en (derde pijler: overig en aanvullend). 41% 20% 4% 3% 5% 8% 1% 59% 8% 1% 33% 4 De posten 1 t/m 14 zijn samengevat op basis van CBS Statline, link1 (6okt jun2015); de posten 15a en 15b op basis van link2 (13feb jun2015) (indirecte belastingen) en link3 (10jun jun2015) (lokale heffingen). Hier en in het vervolg is de eerst gegeven datum die van de CBS-publicatie op Statline, en de tweede de consultatiedatum.

80 76 Hoe progressief is de belastingdrukverdeling op het bruto-inkomen van huishoudens? CBS deze opstelt. De posten 1 t/m 14 uit Tabel 1 geven een samenvatting van de systematiek ervan. 5 Daarnaast gebruik ik de statistiek Belastingen (Indirecte belastingen en Lokale heffingen) zie post 15 uit de tabel. Bruto-inkomen versus fiscaal inkomen. Merk op dat in het inkomen uit arbeid (post 1) en vervolgens het bruto-inkomen (post 9) de werkgeverspremies voor werknemersverzekeringen vervat zijn. Deze worden afgetrokken onder de posten 11 en 12. Dit is belangrijk voor de interpretatie van het vervolg van dit artikel omdat de belastingdruk steeds afgemeten wordt aan dit bruto-inkomen. Enerzijds is de aanpak van het CBS consistent omdat de hoogte van het brutoinkomen zo onafhankelijk is van cao s of politieke beslissingen waarin de afdracht-verplichting van de premies bij de ene of de andere partij gelegd wordt. Zo is het bruto-inkomen dus door de jaren heen een consistente grootheid. Maar, en dit is het meer principiële punt, de door werkgevers afgedragen premies zijn een looncomponent. Dit is ook het uitgangspunt van het System of National Accounts (SNA 2008). 6 Die looncomponent dekt voor de individuele werknemer een inkomensrisico af dat deze doorgaans niet kan of wil dragen (zoals de WW-premie waardoor de werknemer in geval van werkloosheid kan rekenen op een werkloosheidsuitkering). Dit staat allemaal los van de kwestie hoe de ene of de andere politieke meerderheid het fiscale inkomen definieert (dus of bijvoorbeeld de genoemde looncomponent daar al dan niet onder valt) en hoe deze het belastbare inkomen definieert (o.a. via aftrekposten). En ook dit is belangrijk voor de interpretatie van het vervolg van dit artikel. Met het CBS vat ik belastingdruk op als de netto belastingen gedeeld door het bruto-inkomen, waarbij de netto belasting neutraal is ten opzichte van het politiek bepaalde fiscale inkomen en de diverse aftrekposten. Ook hier geldt dat daardoor een consistente vergelijking in de tijd bevorderd wordt. 7 Een overeenkomstige opmerking geldt voor de posten 5 t/m 8 uit Tabel 1. Het gaat hier om bruto-inkomen en dit staat los van de kwestie of een post, bijvoorbeeld kinderbijslag, al dan niet tot het fiscale inkomen gerekend wordt. In afwijking van het CBS en internationale maatstaven (SNA), hanteert het CPB, net zoals de regering, een andere definitie van het bruto-inkomen. Het CPB definieert het bruto-inkomen exclusief de looncomponent werkgeverspremies. Ook rekent het kinderbijslag en diverse toelagen en toeslagen (huur- en kindregelingen) niet tot het bruto-inkomen. 8 Het maakt vergelijkingen tussen CPB-ramingen en 5 Zie CBS (2015), i.h.b. Schema 5 (blz.20-21, alsmede Schema 3 (blz.14). 6 System of National Accounts, SNA 2008 (UN 2009), hoofdstuk 7B, Compensation of employees, i.h.b. Tabel 7.4 en de tekst op blz Zie ook OECD (2013). 7 Dit geldt bijvoorbeeld ook voor het onderdeel van post 3, aangaande inkomsten uit eigen woning [post ]. Het CBS rekent hier met de economische huurwaarde : een raming van het bedrag dat de woning bij verhuur zou hebben opgeleverd. Die economische huurwaarde staat los van het fiscale huurwaardeforfait dat hoger of lager dan deze economische huurwaarde kan zijn. 8 Zie bijvoorbeeld CPB (2008), Figuur 1.1 op blz. 16.

81 Geert Reuten 77 CBS-realisaties minder eenvoudig (hoewel niet onmogelijk). Om de aangegeven redenen sluit dit artikel aan bij de CBS-definitie. Indirecte belastingen en lokale heffingen. Posten 15a en 15b uit Tabel 1 geven de indirecte belastingen (voornamelijk btw en accijns) en de lokale heffingen als percentage van het bruto-inkomen zoals CBS Statline deze publiceert, onder meer als percentage van kwartielgroepen van het bruto-inkomen van huishoudens zie voetnoot 5. Zo neem ik deze ook op bij het meten van de belastingdrukverdeling in paragraaf 3. Het kabinet Rutte-Asscher drukt deze belastingen echter bij voorkeur uit als percentage van de bestedingen van huishoudens. Deze kwestie bespreek ik in paragraaf 4. 3 Verdeling van de belastingdruk Deze paragraaf geeft eerst de verdeling van de integrale belastingdruk naar kwartielgroepen van het bruto-inkomen van huishoudens in Dit is het referentiejaar omdat dit het laatste jaar is waarvoor het CBS cijfers geeft van de indirecte belastingen verdeeld over kwartielgroepen. Vervolgens bezie ik de waarschijnlijke belastingdrukverdeling voor 2015, mede aan de hand van ramingen door het kabinet. Ook bespreek ik twee aanvullende kwesties: de samenstelling van kwartielgroepen naar inkomensbron; en de keuze voor de verdeling over kwartielen (25%-groepen) in plaats van decielen (10%-groepen). Verdeling van de belastingdruk in Belastingheffing naar draagkracht is een belangrijk uitgangspunt van de Wet Inkomstenbelasting De effectuering daarvan wordt bepaald door enerzijds de mate van progressie van de tarieven en anderzijds de heffingsgrondslag (de onder de heffing vallende inkomsten en de aftrekposten en vrijstellingen) alsmede de heffingskortingen. Samen bepalen die de directe netto-heffing op het inkomen. De gemiddelde druk daarvan loopt op met het inkomen. Echter, naarmate een groter deel van de belastingheffing bij huishoudens uit indirecte belastingen bestaat (voornamelijk btw en accijnzen), neemt de totale progressie af. Figuur 1 laat zien dat dit eveneens voor de lokale belastingheffing geldt. De aan die figuur onderliggende data zijn afkomstig van het CBS (in de Appendix, Tabel 4, staan ook de cijfers achter de komma). Voorts zijn 9 Zie de Memorie van Toelichting bij de wet (Kamerstuk nr. 3), in het bijzonder paragraaf 1.3: de doelstelling om de inkomstenbelasting als draagkrachtheffing zodanig te moderniseren dat van elke belastingplichtige rekening houdend met de aard en de omvang van zijn inkomen en zijn persoonlijke omstandigheden en praktische overwegingen een bijdrage kan worden gevraagd aan de algemene middelen die, meer nog dan onder de werking van de Wet op de inkomstenbelasting 1964, is afgestemd op zijn feitelijke draagkracht.

82 78 Hoe progressief is de belastingdrukverdeling op het bruto-inkomen van huishoudens? de data als het ware voorzien van een stempel door de regering, meer specifiek de minister van SZW. 10 Figuur 1. Belastingdrukverdeling 2010: gemiddelde belastingdruk op het bruto-inkomen van huishoudens per inkomenskwartiel. 11 Uit Figuur 1 blijkt dat de verdeling van de gemiddelde belastingdruk over kwartielgroepen huishoudens in 2010 vrijwel vlak is (onafgerond 31,5% voor het 1e kwartiel en 34,2% voor het 4e). In 2010 is de gemiddelde belastingdruk voor het 10e deciel 35,0%, en die van de inkomensheffing afzonderlijk 27,0%. Toelichting Figuur 1. De druk van de inkomensheffing (van 8% tot 24%) betreft de gemiddelde netto-heffing, dat wil zeggen de bruto-heffing na aftrekposten en heffingskorting. De druk van de indirecte belastingen (van 16% tot 6%) is door het CBS berekend als de som van deze belastingen als aandeel van het bruto-inkomen; 10 Kamerstuk N, Tabel 2, blz.3. Dit betreft antwoorden op vragen die ik begin 2015 stelde als Eerste Kamerlid. 11 De CBS-codes voor de heffing inkomensafhankelijke bijdrage Zvw (Zorgverzekeringswet) zijn [12.1.1]+[12.1.2]+[12.1.3]. Zie voor de drukverdeling van de inkomensheffing: code1 (6okt jun2015). Zie voor de drukverdeling van de indirecte belastingen: code2 (3feb jun2015). Zie voor de drukverdeling van de lokale heffingen: code3 (10 jun jun2015). Bruto-inkomen en kwartielgrenzen: code4 (8dec jun2015).

83 Geert Reuten 79 hetzelfde geldt voor de overige componenten. De heffing inkomensafhankelijke bijdrage Zorgverzekeringswet (IAB Zvw; 6%-3%) wordt geheven door de rijksbelastingdienst (Zvw art. 48) en in beginsel is iedereen met inkomen een IAB verschuldigd (Zvw art. 41). 12 De aangegeven belastingcomponenten hebben in beginsel betrekking op 100% van de huishoudens uit iedere groep (voor ongeveer 5% van de huishoudens geldt in 2010 dat zij beneden de heffingsnorm van de directe belastingen vallen, voornamelijk omdat de belasting beneden de heffingskortingen valt). 13 Raming en schatting van de belastingdrukdrukverdeling voor De rechtergrafiek uit Figuur 2 geeft een raming en schatting van de belastingdrukverdeling voor De ministeries van Financiën en SZW gevraagd naar ramingen van de belastingen voor onder andere 2015 konden helaas slechts ramingen geven voor de belastingen exclusief indirecte belastingen en lokale heffingen. Bij gebrek aan beter gebruik ik daarom voor de lokale heffingen het laatste bekende CBS-cijfer van 2012, en voor de indirecte belastingen het laatst bekende cijfer van 2010, dat via een eenvoudige schatting is gecorrigeerd voor de btw-verhoging vanaf 1 oktober Zie de Appendix, Tabel 5 voor de veronderstellingen. Daar staan ook de overige onderliggende cijfers en bronnen van deze grafiek. 12 Zie verder Paragraaf 5.2 van de Zvw (art ). 13 Voor de inkomstenbelasting in strikte zin 4%, voor de premie Wlz (voorheen AWBZ) 5% en voor de premie AOW/Anw 6%. Gewetensbezwaarden kunnen vrijgesteld worden van verzekeringspremies maar moeten dan vervangende belasting betalen.

84 80 Hoe progressief is de belastingdrukverdeling op het bruto-inkomen van huishoudens? Figuur 2. Belastingdrukverdeling over kwartielgroepen bruto-inkomen huishoudens: 2010 en raming en schatting voor 2015 Data: 2010, zie Figuur 1; 2015, zie Appendix, Tabel 5 De kabinetsramingen berusten vanaf 2014 op het CPB-model MIMOSI. 14 Het MIMOSI-model lijkt een redelijk betrouwbare raming te geven van de belastingdrukverdeling exclusief indirecte belastingen en lokale heffingen. Voor de vier kwartielen was de gemiddelde afwijking ten opzichte van de CBS-cijfers over 2010 t/m 2013 achtereenvolgens +0,2; +0,9; 0,4 en 0,3 procentpunt. De raming van het gemiddelde bruto-inkomen geeft een grotere (en vrij consistente) afwijking Zie CPB (2008). 15 Gemiddelde afwijking raming MIMOSI t.o.v. realisatie CBS: e 25% 2e 25% 3e 25% 4e 25% Druk inkomstenbelastingen + IAB (afwijking in procentpunt) 0,2pp 0,9pp -0,4pp -0,3pp Druk inkomstenbelastingen + IAB (procent-afwijking) 1,3% 4,7% -1,8% -1,2% Bruto-inkomen (procent-afwijking) -8,0% 5,4% 6,0% 3,1% Data-bronnen: MIMOSI-ramingen Kamerstuk N, Tabellen 3-6 [rijen 2+4+5]; CBS-realisaties (2013 voorlopig): Inkomstenbelastingen en IAB, ; bruto-inkomen ; CBS-cijfers over 2014 verschijnen waarschijnlijk in oktober 2015.

85 Geert Reuten 81 Op grond van deze (voor 2015 met voorzichtigheid te betrachten) cijfers is de drukverdeling, gemeten naar de verhouding tussen het 1 e en 4 e kwartiel, in 2015 nauwelijks anders dan in Overigens neemt de scheefheid van de inkomens na alle belastingen toe. In vergelijking met 2010 gaat in 2015 na belastingen het 3 e kwartiel er waarschijnlijk nominaal het meest op vooruit (+9%), en vervolgens het 4 e kwartiel (+5%) en het 2 e kwartiel (+5%), terwijl het 1 e kwartiel waarschijnlijk fors inboet ( 8%). 17 Belastingdrukverdeling in eerdere jaren, en kwartiel- versus decielgroepen. Volledige data over de belastingrukverdeling gaan op CBS Statline terug tot 2006 en het kabinet gaf ook ramingen voor Bespreking hiervan valt buiten het bestek van dit artikel zie daarvoor Reuten (2015). Uit dat artikel blijkt onder andere dat in 2006 het belastingdrukverschil tussen het 1 e en 4 e kwartiel vijf procentpunt besloeg (verminderd tot de huidige van waarschijnlijk drie procentpunt). Vanwege de onevenredige ontwikkeling van de bruto-inkomens van de kwartielen, zijn de inkomens na belastingen aanzienlijk méér uiteen gaan lopen. In dat artikel vergelijk ik ook kwartiel- met decielverdelingen. Hoewel de laatste meer details geven, is de hoofdlijn gelijk (voor het 10 e deciel, bijvoorbeeld, is de belastingdruk in ,0%, terwijl die van het 4 e kwartiel 34,2% is; het beeld van het 1 e deciel ten opzichte van het 1 e kwartiel is om diverse redenen meer divers dat is ook één van de redenen waarom bij vergelijking van decielverdelingen de 80/20 -ratio gangbaar is). 16 Indexcijfers belastingdrukverdeling 2010 en e 25% 2e 25% 3e 25% 4e 25% Index belastingdrukverdeling 2010 (1e 25% = 1) 1 0,98 1,03 1,09 Index belastingdrukverdeling 2015 (1e 25% = 1) 1 0,97 1,01 1,10 17 Dit, en de onderstaande tabel, vergt kwalificatie in het licht van de voorlaatste voetnoot (mogelijk is er grotere inkomensachteruitgang voor het 1 e kwartiel, en een grotere inkomensvooruitgang voor de overige kwartielen). Gemiddelden per kwartiel huishoudens 1e 25% 2e 25% 3e 25% 4e 25% (mutaties nominaal) 1. Bruto-inkomen 2010 (CBS) Belastingdruk totaal 31,5% 30,8% 32,5% 34,2% 3. Inkomen na belastingen Bruto-inkomen 2015 (MIMOSI) Belastingdruk totaal 32,3% 31,4% 32,7% 35,6% 6. Inkomen na belastingen Mutatie bruto-inkomen ,3% 5,5% 9,1% 7,3% 8. Mutatie ink. na belastingen ,4% 4,6% 8,7% 5,0% Bron rij 1 en 4: Kamerstuk N, Tabel 2 en 8.

86 82 Hoe progressief is de belastingdrukverdeling op het bruto-inkomen van huishoudens? Samenstelling van de kwartielgroepen naar inkomensbron. Figuur 3 geeft enig inzicht in de samenstelling van de kwartielgroepen (2010). Bij de hoogste inkomens (4 e kwartiel) overweegt het aantal huishoudens met arbeidsinkomen (95% van de groep) en in het laagste kwartiel het aantal huishoudens met een AOW-uitkering (39% van de groep). Nog afgezien van de in de grafiek niet opgenomen inkomenscategorieën, tellen de categorieën niet op tot 100% omdat meerdere leden van het huishouden inkomen kunnen hebben, of ook omdat één lid meerdere inkomensbronnen kan hebben. Figuur 3. Selectie inkomensbestanddelen van kwartielgroepen huishoudens 2010 (1,8 mln. huishoudens per kwartiel): percentage huishoudens met het inkomensbestanddeel. Databron: CBS Statline 18 (daar staan ook de volledige inkomensbestanddelen opgesomd). Figuur 3 laat bijvoorbeeld zien dat werkloosheiduitkeringen in de drie hoogste kwartielen gelijkelijk voorkomen. Indien zo n huishouden uit één kostwinner bestaat, dan zakken na de WW-periode ook de huishoudens met een voormalig hoog inkomen uiteindelijk als bijstandstrekker naar het 1 e kwartiel. Dit vormt één van de verklaringen waarom er ook in de hogere kwartielen bijstandsinkomen voor komt. 19 Over de AOW ers uit Figuur 3 is op te merken dat veel AOW ers tevens een (tweede en/of derde pijler) pensioen hebben, maar dat de hoogte hiervan zodanig is 18 Samenstelling inkomen; particuliere huishoudens naar diverse kenmerken (6okt sept2015). 19 Iemand heeft bijvoorbeeld 9 maanden van het jaar nog een hoog WW-inkomen en valt dan met 3 maanden bijstand toch nog in een hoog kwartiel. Een andere verklaring is wijziging van huishoudenssamenstelling gedurende het jaar (bijv. huwelijk tussen iemand met arbeidsinkomen en iemand met bijstandsinkomen).

87 Geert Reuten 83 dat, bijvoorbeeld voor het 1 e kwartiel, het totale bruto-inkomen van huishoudens onder de kwartielgrens van blijft. Zo bevond zich in 2010 dus 75% van de huishoudens met een AOW-inkomen in de onderste helft van de inkomensverdeling gemeten naar het bruto-inkomen. Samenvattend. Gemeten naar het bruto-inkomen zoals het CBS dit overeenkomstig internationale maatstaven vaststelt, belopen de belastingdruk-verschillen tussen het 1 e en 4 e kwartiel slechts 2,7 en 3,3 procentpunt in respectievelijk 2010 en De belastingdrukverdeling is dus nauwelijks progressief. Deze belastingdrukverdeling is nogal netelig. Ook voor het kabinet Rutte-Asscher dat, zoals het stelt, een evenwichtige lastenverdeling beoogt waarbij op adequate wijze rekening wordt gehouden met de draagkracht van mensen. 20 Daarbij doelt het kabinet op een progressie die, bij een kwartielverdeling, in de orde van grootte van 1 : 1,1 : 1,3 : 1,4 ligt (zie paragraaf 5). Het kabinet werpt twee verdedigingslinies op, die ieder afzonderlijk zouden moeten tonen dat de lasten thans wèl evenwichtig zijn verdeeld. De eerste betreft de status van de indirecte belastingen, die ik in paragraaf 4 bespreek. De tweede verdedigingslinie betreft de overige lasten die relevant zouden zijn voor dat evenwicht. Deze bespreek ik in paragraaf 5. 4 De indirecte belastingen als deel van de integrale belastingdruk Figuur 1 geeft niet meer of minder dan de druk van de integrale belastingen op het bruto-inkomen. In reactie daarop (een eerdere versie van die figuur) stelt het kabinet Rutte-Asscher dat de druk van de indirecte belastingen beter niet gemeten kan worden over het bruto-inkomen maar over de bestedingen van huishoudens (waardoor de belastingdrukverdeling minder vlak oogt). Het stelt: Hoge inkomens sparen meer, waardoor een groter deel van de bestedingen uit de extra inkomsten in een latere periode in het leven plaatsvindt. Naar de inschatting van het kabinet is een toedeling van indirecte belastingdruk op basis van bestedingen daarom een betere maatstaf om de indirecte belastingdruk te meten, omdat daarbij beter rekening wordt gehouden met inkomensschommelingen gedurende het leven. 21 Het kabinet zou mogelijk een punt hebben als het om longitudinaal onderzoek zou gaan, maar dit is bij de onderhavige metingen uiteraard niet het geval. Het gaat steeds om jaar-op-jaar metingen van de populatie in een bruto-inkomenskwartiel Kamerstuk D (2014), blz Kamerstuk N (2015), blz. 3; zie ook Kamerstuk D (2013), blz De opvatting van het kabinet heeft enige affiniteit met die van Bettendorf, Cnossen en Van Ewijk (2012), die zich eveneens beperken tot de btw, waarvoor dezelfde kritiek geldt als de bovenstaande. Deze auteurs zijn bij hun longitudinale insteek overigens nog stelliger dan het kabinet over bespaard

88 84 Hoe progressief is de belastingdrukverdeling op het bruto-inkomen van huishoudens? Een OECD-studie uit 2014 (die zich beperkt tot de btw VAT) stelt: If the analyst is interested in the lifetime distributional effect of a VAT, then current expenditure is likely to be a better base than income. En: If the analyst is interested in the immediate distributional effect of a VAT, then measuring VAT burdens as a proportion of current income across income deciles may be preferable. Furthermore, calculating the VAT burden as a percentage of income also enables the calculation of the total tax burden faced by households as a result of the entire (income plus consumption) tax system (OECD/KIPF, 2014, p ) Deze OECD-studie, die een enorme hoeveelheid literatuur in beschouwing neemt, stelt dus enerzijds dat als het om de vigerende belastingdruk van de btw (indirecte belastingen) gaat, de meting daarvan over bruto-inkomensdecielen (kwartielen) adequaat is. Anderzijds stelt deze studie dat waar het om de totale (integrale) belastingdruk voor huishoudens gaat (zie paragraaf 3) de meting over het bruto-inkomen adequaat is. Deze redenering volgend, blijft staande dat de lagere inkomensgroepen in Nederland procentueel nabij evenveel belasting betalen als de hogere inkomensgroepen. 5 De belastingdruk versus de totale lastendruk : overige lasten Het kabinet Rutte-Asscher heeft een tweede verdedigingslinie tegen de vlakke belastingdrukverdeling uit paragraaf 3. De staatssecretaris van Financiën introduceerde deze verdediging in december 2014 in reactie op een eerdere versie van de belastingdrukopstelling uit paragraaf Ook deze zou moeten tonen dat de lasten thans wèl evenwichtig verdeeld zijn naar draagkracht. Hier gaat het niet om de belastingen zelf (zoals bij de indirecte belastingen uit paragraaf 4) maar om overige lasten die relevant zouden zijn voor dat evenwicht. Het gaat daarbij hoofdzakelijk om de volgende overige lasten: de basispremie voor de zorgverzekering huishoudens; de premie voor de werknemersverzekeringen; de pensioenpremies. Voor de eerste twee componenten sluit Financiën (de staatssecretaris onder Rutte II) aan bij de collectieve lastendruk die Trimp en De Kam in 2011 inkomen: De hogere inkomens zullen hun besparingen echter vroeg of laat ook consumeren en daar dan BTW over betalen. Indien dit juist zou zijn, dan zouden we op lange termijn geen toename van het vermogen van huishoudens meten. Weinigen zullen betwisten dat de indirecte belastingdruk (of de btw-druk) op de bestedingen vrij gelijkmatig verdeeld is. Maar daarmee is dit nog geen betere maatstaf voor dit onderdeel van de belastingdrukverdeling. 23 Kamerstuk , nr. G (december 2014), blz (zie ook blz. 1-4). De eerdere versie staat in Kamerstuk nr. F (december 2014), blz. 6-7 (de component heffing inkomensafhankelijke bijdrage Zvw werd in april 2015 door het ministerie SZW in Kamerstuk nr. N toegevoegd).

89 Geert Reuten 85 introduceerden. Qua evenwichtige lastenverdeling leggen die kwantitatief echter gering gewicht in de schaal (zoals ik later toon). De pensioenpremies doen dat wèl. De premies werknemersverzekering en de pensioenpremies hebben slechts betrekking op een deel van de populatie huishoudens. Dat levert slechts een interpretatieprobleem. Bij pensioenpremies speelt er echter een fundamenteel probleem vanwege hun transitorisch karakter. Financiën (onder Rutte II) meent dat draagkracht mede bepaald wordt door pensioenpremies en dus door pensioenopbouw. De merkwaardige implicatie is: des te meer pensioenopbouw des te minder draagkracht (en omgekeerd!). De totale lastendruk volgens de staatssecretaris van Financiën (2014). De lastendrukopstelling uit de genoemde reactie van het ministerie van Financiën (onder Rutte-II) staat weergegeven in Tabel 2. Tabel 2. De totale lastendruk volgens het ministerie van Financiën (2014 onder Rutte-II) 1e 25% 2e 25% 3e 25% 4e 25% Besteedbaar inkomen (als % bruto-inkomen) 79% 69% 59% 53% Indirecte en lokale belastingen (als % brutoinkomen) Besteedbaar inkomen na indirecte en lokale belastingen (als % bruto-inkomen) 18% 12% 10% 7% 62%* 57% 50% 47% Totale lastendruk 38%* 43% 50% 53% Bron: Kamerstuk , nr. G, Tabel 2 blz Vergelijk Tabel 1, post 14. Vergelijk Tabel 1, post 15a en 15b. * De onderliggende CBS Statline data geven hier 61,0% en voor de volgende rij 39,0%. De Appendix, Tabel 6, geeft de kwantitatieve stappen van het bruto-inkomen naar dit besteedbaar inkomen. Merk op dat deze tweede verdedigingslinie los staat van de eerste (zie paragraaf 4) omdat nu de indirecte en lokale belastingen wèl uitgedrukt zijn als percentage van het bruto-inkomen (en niet van de bestedingen). De staatssecretaris van Financiën concludeert uit deze tabel (met een drukverdeling van 1 : 1,1 : 1,3 : 1,4) dat de lasten naar draagkracht zijn verdeeld. Toevoegende: Naar het oordeel van het kabinet is dit evenwichtig. 25 Draagkracht wordt zo niet afgemeten aan het bruto-inkomen of het brutoinkomen na belastingen, maar aan het besteedbaar inkomen. Dus aan het inkomen na belastingen èn na (hoofdzakelijk) premies zorgverzekering huishouden, werknemersverzekeringen en pensioenpremies. Relevanter voor aan draagkracht gerelateerde belastingheffing zou het mijns inzien zijn om het gestandaardiseerd aantal personen dat het met een bepaald bruto-inkomen moet doen in de beschouwing te betrekken. Helaas ontbreekt daarvoor, althans op CBS-Statline, de koppeling van kwartielgroepen bruto-inkomen en de samenstelling van 24 Kamerstuk , nr. G, Tabel 2 blz Kamerstuk , nr. G, blz.10. Kamerstuk D stelt: Het kabinet verstaat onder een evenwichtige inkomensverdeling dat op adequate wijze rekening wordt gehouden met de draagkracht van mensen. (blz. 32)

90 paragraaf 3 Algemene wettelijke lasten (AWL) Trimp & De Kam (2011) Financiën (2014) drukomvang 2010: totaal huishoudens (% brutoinkomen) % van totaal aantal huishoudens op wier inkomen de last drukt (2010) 86 Hoe progressief is de belastingdrukverdeling op het bruto-inkomen van huishoudens? huishoudens. Later bespreek ik de bezwaren die verbonden zijn aan het besteedbaar inkomen als ijkpunt voor een draagkrachtmaatstaf, en daarmee ook aan die van het gestandaardiseerd besteedbaar inkomen. Lastencategorieën in diverse lastendrukmetingen. Zoals aangegeven, sluit de staatssecretaris van Financiën (in 2014) voor de basispremie zorgverzekering huishoudens en de premie werknemersverzekeringen aan bij Trimp en De Kam (2011). Tabel 3 geeft de verschillen tussen diverse lastendrukmetingen. In Kolom (2) geeft ik de Algemene wettelijke lasten (AWL) afzonderlijk, omdat daarvoor geldt anders dan in de kolommen (3) en (4) dat deze op alle huishoudens betrekking hebben. 26 Tabel 3. Categorieën van de totale lastendruk, staatssecretaris van Financiën (2014), in vergelijking met andere lastendrukmetingen (1) (2) (3) (4) (5) (6) Integrale belastingdruk x x x x 33,1% 100%* + Basispremie Zvw (netto) x x x 3,0% 100% Druk alg. wettelijke lasten x x x 36,1% 100% + Premie werknemersverzekeringen 27 x x 4,9% 69% Collectieve lastendruk x x 41,0% 69%-100% + Pensioenpremies werkgever/-nemer x 7,9% 54% + Premie particuliere verz. pensioen x 0,4% 9% + Overige posten x 0,6% 1%-53% Totale lastendruk x 49,9% 1%-100% Data: kolom 4, CBS Statline (zie Tabel 1); kolom 5, CBS Statline. 28 * Bij de inkomensheffing valt in beginsel 100% onder de categorie;van ongeveer 5% wordt deze belastingcategorie echter niet geheven, voornamelijk omdat de belasting beneden de heffingskortingen valt. Kolom 5 geeft voor het totaal van de huishoudens, cijfers uit Tabel 1 maar dan iets nader gespecificeerd (kolom 6 bespreek ik in de volgende subparagraaf). 26 De basispremie voor de zorgverzekering ( basispremie Zvw huishoudens ) is, net zoals de belasting, wettelijk verplicht voor alle huishoudens (Zorgverzekeringswet, art. 2). Deze wordt geïnd door de ziektekostenverzekeraars en is dus geen belasting. Naast de belastingen is deze zorgverzekeringspremie thans de enige andere algemene wettelijke last. 27 Premie werkloosheid (WW) en premie arbeidsongeschiktheid (WIA Wet werk en inkomen naar arbeidsvermogen, 2005; opvolger van de WAO). 28 Statline (zie Tabel 1); kolom 5.

91 Geert Reuten 87 Kwantitatieve verschillen tussen de lastendrukmetingen. Kwantitatief resulteren de vier opstellingen uit Tabel 3 (kolom 1-4) in lastendrukverdelingen zoals weergegeven in Figuur 4. De Appendix, Tabel 6, geeft voor iedere verdeling de achterliggende CBS-data. Trimp en De Kam (2011) gaven voor het jaar 2009 een drukverdeling over decielen. Hier geef ik de kwartielverdeling (in Reuten, 2015, Appendix, vergelijk ik die verdelingen). Figuur 4 Drukverdelingen van belastingen, algemene wettelijke lasten, collectieve lasten en totale lasten, over kwartielen bruto-inkomen huishoudens De verhoudingen liggen als volgt. 2010: index drukverdeling (1e 25% = 1) 1e 25% 2e 25% 3e 25% 4e 25% Belastingen 1 0,98 1,03 1,09 Algemene wettelijke lasten 1 0,97 1,01 1,02 Collectieve lasten (T&dK) 1 1,02 1,11 1,10 Totale lasten (Financiën) 1 1,10 1,29 1,36

92 88 Hoe progressief is de belastingdrukverdeling op het bruto-inkomen van huishoudens? Ieder van de vier opstellingen uit Figuur 4 en Tabel 3 meet wat de auteurs kennelijk willen meten. Kolom (5) van die tabel laat zien dat bij Trimp en De Kam en bij Financiën de additionele categorieën betrekking hebben op slechts een deel van de totale populatie huishoudens. Voor het meten van de verdeling van de een of andere lastendruk over inkomensgroepen (i.c. kwartielen bruto-inkomen) levert dat interpretatieproblemen. Die zouden wellicht minder lastig zijn indien de betreffende deelpopulaties ongeveer gelijk in ieder kwartiel zouden voorkomen. Maar dit is, zoals Figuur 5 toont, niet het geval. 30 Figuur 5 Gemiddeld aantal huishoudens (%) in ieder bruto-inkomenskwartiel met de componenten belastingen en premie werknemersverzekering of pensioenpremie in In vergelijking met Figuur 3 (uit paragraaf 3) is op te merken dat in de eerste twee kwartielen arbeidsinkomen (37% en 60%) minder samengaat met opbouw van pensioen (10% en 47%) dan in de hoogste twee kwartielen. Uit Figuur 5 is ook op te maken dat het werknemerschap (gemeten naar premie werknemersverzekering) nog niet opbouw van pensioen impliceert. Ook hier zien we een onevenredigheid tussen de laagste twee en de hoogste twee kwartielen. Terwijl in totaal (alle huishoudens) 69% van de huishoudens onder de werknemersverzekeringen valt, bouwt 54% een tweedepijlerpensioen op (ruim 20% van de huishoudens met werknemersverzekering valt dus buiten deze pensioenopbouw). Vanwege deze verdeling is niet zonder meer de eerder genoemde conclusie van het kabinet te trekken dat de lasten naar draagkracht zijn verdeeld. Maar naast dit 30 De totale populatie huishoudens heeft bruto-inkomen (uiteraard uit diverse bronnen zie linkerzijde Tabel 1). Op dit bruto-inkomen van de totale populatie is belastingheffing van toepassing, maar slechts op deelpopulaties zijn afdrachten van premies werknemersverzekering en premies pensioenverzekering van toepassing. 31 Data: CBS Statline (6okt jun2015)

93 Geert Reuten 89 populatieprobleem, is een meer fundamenteel punt dat voor deze conclusie de pensioenpremies, gezien hun transitorische aard, een te zeer van het geheel afwijkende categorie vormen. De transitorische pensioenpremies, en het besteedbaar inkomen in het SNA en in de CBS-opstelling. Ik ga kort in op de transitorische aard van pensioenpremies (tweede en derde pijler). Het ministerie van Financiën (onder Rutte-II) baseert zich de facto op het voor indirecte belastingen en lokale heffingen aangepaste besteedbaar inkomen zoals het CBS dit opstelt in lijn met het System of National Accounts 2008 (SNA, zie UN et al. 2009, i.h.b. hoofdstuk 8). Zoals de auteurs van het SNA opmerken, zouden pensioenpremies kunnen worden opgevat als een vorm van besparingen (paragraaf 8.37, blz. 160) of als capital transfers (paragraaf paragraaf 8.40, blz. 162, vergelijk paragraaf 8.36), maar zij hebben ervoor gekozen om dit niet te doen, en pensioenpremies op te vatten als current transfers! Het gaat, zoals de SNA-auteurs erkennen, om beargumenteerde keuzes (een regelmatig terugkerende zinsnede is: It is for this reason that the SNA holds. ). 32 Hoe dan ook zijn pensioenpremies (tweede en derde pijler) vanwege hun transitorisch karakter anders van aard dan de meeste andere premies in het CBSstelsel, die, althans in beginsel, gebaseerd zijn op omslag en in die zin zuivere current transfers zijn. 33 Ik merk hier slechts op dat de genoemde keuze van het SNA mogelijke vraagtekens stelt bij het thans gangbare begrip besteedbaar inkomen en dat deze keuze uiteraard niet dwingend is voor degenen die met de onderliggende data werken. Zou het SNA een andere keuze hebben gemaakt (bijv. pensioenpremies als capital transfers ), dan zou het besteedbaar inkomen aangepast voor indirecte en lokale heffingen dicht in de buurt liggen van de opstelling waar Trimp en De Kam op koersten. Lasten verdeeld naar draagkracht door pensioenpremies? Geheel los van de specifieke definitie van het besteedbaar inkomen, blijft uiteraard staan dat pensioenpremies (tweede en derde pijler) de belastingdrukverdeling niet meer of minder progressief maken (dat wil zeggen, gegeven de aanzienlijke belastingsubsidies via de pensioenpremie-belastingaftrek). 34 Een essentieel verschil tussen belastingen en pensioenpremies is dat bij de laatste de inkomensafhankelijke absolute omvang van de premie navenante 32 Het is overigens interessant dat als het om de vermogensverdeling gaat, hetzelfde kabinet Rutte-II (in casu de minister SZW en de staatssecretaris Financiën) suggereert dat pensioenpremies uit het vaatje besparingen worden getapt, waardoor de vermogens van pensioenfondsen zouden moeten worden meegenomen in de vermogens van huishoudens (zie Kamerstuk R [2014], blz. 7-9). De vermogensverdeling zou daardoor gelijkmatiger ogen. 33 Dit geldt voor de premies volksverzekering (hoewel er soms wordt geschoven met de overige belastingen die in beginsel eveneens een omslagkarakter hebben), de ziektekostenpremies en de werknemerspremies (voor beide inclusief reserveringen). De belangrijkste andere uitzondering is de kwantitatief geringe post [11.3.2] Premie particuliere verzekering arbeidsongeschiktheid (in 2010 minder dan 0,05% van het totale bruto-inkomen van huishoudens). 34 De gehele vormgeving van het pensioenopbouw-subsidiestelsel werkt overigens in het nadeel van de lagere inkomens (Reuten, 2014).

94 90 Hoe progressief is de belastingdrukverdeling op het bruto-inkomen van huishoudens? individuele uitkeringsrechten geeft voor de duur van de pensionering. 35, 36 Belastingen daarentegen leveren geen individuele rechten (die vloeien hoogstens voort uit andere wetten dan belastingwetten). De mate van draagkracht bepaalt onder andere de mate waarin mensen in staat zijn om allerlei voorzieningen te treffen, zoals die voor pensioen. Pensioen wordt door de meeste huishoudens opgebouwd naar gelang het inkomen, Hogere inkomens zouden volgens het kabinet daarom ook een hogere last hebben. Maar het is een last waarmee ze hun hogere draagkracht bestendigen na hun pensionering. In het algemeen is dit dus een last waarmee de inkomensverdeling bestendigd wordt. 37 Voorts zijn er, naast de huishoudens met werknemersinkomen die geen pensioen opbouwen (zie de tekst bij Figuur 5), de zzp ers waarvan de helft geen of onvoldoende pensioen opbouwt. 38 De niet- of onvoldoende pensioen opbouwende huishoudens zijn oververtegenwoordigd in het 2 e en vooral het 1 e kwartiel. 39 Eerder citeerde ik de stelling van de staatssecretaris van Financiën onder Rutte- II dat gezien de drukverdeling van de totale lasten, inclusief pensioenpremies, de lasten naar draagkracht zijn verdeeld. Draagkracht wordt zo gemeten ná pensioenopbouw. De implicatie van die stelling is enerzijds dat de bestendiging van een relatief hoge draagkracht een last is (en ook die van een relatief lage draagkracht), en anderzijds dat het niet opbouwen, of het beneden-gemiddeld opbouwen, van pensioen de draagkracht van deze huishoudens ten goede komt omdat ze geen of lagere pensioenopbouwlasten hebben. Dat is een merkwaardige opvatting van draagkracht. 6 Samenvatting en conclusies Uitgaande van het bruto-inkomen volgens internationale maatstaven (paragraaf 2) en het totaal van de belastingen voor huishoudens netto inkomensheffingen, indirecte- en lokale heffingen was de belastingdrukverdeling over kwartielgroepen van het bruto-inkomen in 2010 amper progressief (met 2,7 procentpunt 35 In beginsel althans. Eventuele intergenerationele onevenredigheden zijn het voorwerp van (beoogde) reparatie. 36 Hetzelfde geldt voor werknemersverzekeringen: daar voor de (gelimiteerde) duur van de werkloosheid of arbeidsongeschiktheid. 37 In de literatuur worden allerlei argumenten aangevoerd die een ongelijke inkomensverdeling zouden moeten rechtvaardigen, zoals schaarste of hard werken (d.w.z. aan de bovenkant van het spectrum). Daar ga ik nu niet op in (maar ik laat niet na te verwijzen naar het prachtige Waarom vuilnismannen meer verdienen dan bankiers, van Bregman en Frederik, 2015). Geheel onduidelijk is waarom die rechtvaardiging (voor zover die al hout snijdt) van toepassing zou zijn na de pensionering. 38 Zie Mateboer e.a, (2014), p Een rapport van het ministerie SZW (2013) stelt dat de situatie voor de overige zelfstandigen navenant die van werknemers is (paragraaf 2.4). 39 In de laagste kwartielen wordt er gemiddeld minder pensioen opgebouwd enerzijds omdat AOWers daar oververtegenwoordigd zijn, maar anderzijds omdat onder de niet-aow-huishoudens de huishoudens die geen of een beneden-gemiddeld pensioen opbouwen daar oververtegenwoordigd zijn.

95 Geert Reuten 91 verschil tussen het 1 e en 4 e kwartiel). In 2015 ligt dit waarschijnlijk niet veel anders (met, bij een gestegen belastingdruk voor alle kwartielen, 3,3 procentpunt verschil tussen het 1 e en 4 e kwartiel). De belastingdruk is dus van laag naar hoog kwartielinkomen vrijwel vlak. 40 (paragraaf 3.) De staatssecretaris van Financiën onder Rutte-II meent niettemin dat de lasten thans evenwichtig naar draagkracht zijn verdeeld. Die mening denkt deze op twee manieren te kunnen staven. De eerste (paragraaf 4) is door de druk van de indirecte belastingen niet te meten over het bruto-inkomen maar over de bestedingen. De belastingdrukverdeling oogt dan inderdaad minder vlak. Maar onder andere een OECD-rapport uit 2014 stelt dat voor het meten van de totale belastingdrukverdeling, de indirecte belastingen zoals de btw adequaat gemeten worden over het bruto-inkomen (zoals in paragraaf 3). Bij de tweede manier (paragraaf 5) worden de indirecte belastingen toch weer over het bruto-inkomen berekend (dat is juist) maar wordt onder andere de last van pensioenpremies aangevoerd om te betogen dat de lasten naar draagkracht zijn verdeeld. Maar pensioenpremies gaan niet ten koste van de draagkracht, ze bestendigen de vigerende draagkracht (het kabinet lijkt draagkracht te verwarren met de koopkracht om na voorzieningen zoals die voor pensioen goederen en diensten te kunnen kopen). De implicatie van de kabinetsvisie is dat dat degenen die geen of onvoldoende pensioen (kunnen) opbouwen, daardoor een hogere draagkracht zouden hebben. Dat lijkt mij niet houdbaar. Kortom, het kabinet gaat voorbij aan het bijzondere transitorisch karakter van pensioenpremies. Ik concludeer dat het kabinet niet heeft kunnen weerleggen dat de integrale belastingdrukverdeling vrijwel vlak is. Het kabinet heeft ook niet kunnen aantonen dat andere lasten (de pensioenpremies) in een evenwichtige draagkrachtverdeling van lasten resulteren. Om een progressieve belastingdrukverdeling te realiseren zal dit of een volgend kabinet het belastingstelsel anders moeten inrichten en wel met een btw-verlaging, een snelle afbouw van belastingsubsidies en een consequente vermogens- (aanwas)belasting (zie ook Jacobs, 2015, en Lejour en Van t Riet, 2015). 40 Op het eerste gezicht lijkt het Belastingplan 2016 het belastingdrukverschil tussen het 1 e en 4 e kwartiel nog vlakker te maken (opmerking toegevoegd bij de opmaak van dit artikel in september 2015).

96 92 Hoe progressief is de belastingdrukverdeling op het bruto-inkomen van huishoudens? Appendix. Data bij paragraaf 3 en 5 Deze appendix geeft de onderliggende data van de grafieken uit paragrafen 3 en 5. Data bij paragraaf 3: verdeling van de belastingdruk. Tabel 6 en 7 geven de aan Figuur 1 en 2 onderliggende data met hun bronnen. Tabel 4 Belastingdrukverdeling over het bruto-inkomen van huishoudens per inkomenskwartiel in e 25% 2e 25% 3e 25% 4e 25% 1. bruto-inkomen 100% 100% 100% 100% 2. inkomensheffing (incl. premie volksverz.): netto-heffing 7,5% 13,3% 41 18,0% 24,3% 3. indirecte belastingen 15,6% 10,2% 8,3% 5,7% 4. lokale heffingen 2,8% 1,9% 1,4% 0,9% 5. heffing IAB Zvw 42 5,6% 5,4% 4,8% 3,3% 6. totale belastingdruk (som rij 2-5) 31,5% 30,8% 32,5% 34,2% 7. index belastingdrukverdeling (rij 6; 1e 25% = 1) 1 0,98 1,03 1,09 8. gemiddeld bruto-inkomen bovengrens kwartiel Bronnen, rij 2-5 en 8-9: CBS via ministerie SZW (Kamerstuk N). Zie ook CBS Statline Het ministerie SZW geeft hier abusievelijk 13,4% i.p.v. 13,3% (CBS Statline). 42 Heffing Inkomensafhankelijke bijdrage Zorgverzekeringswet. 43 CBS-data: voor rijen 2 en 5 (IAB = [12.1.1]+[12.1.2]+[12.1.3]) (6okt jun2015) voor rijen 3 en 4 (13feb jun2015) en (10 jun jun2015) voor rijen 8 en 9 (8dec jun2015).

97 Geert Reuten 93 Tabel 5 Belastingdrukverdeling over het bruto-inkomen van huishoudens per inkomenskwartiel in 2015: raming en schatting 1e 25% 2e 25% 3e 25% 4e 25% 1. bruto-inkomen 100% 100% 100% 100% 2. inkomensheffing (incl. premie volksverz.): netto-heffing [raming mimosi] 8,8% 13,9% 17,9% 25,0% 3. indirecte belastingen 16,5% 10,7% 8,7% 6,0% [schatting GR op basis CBS 2010] lokale heffingen [CBS 2012] 45 2,8% 2,0% 1,4% 0,9% 5. heffing IAB Zvw [raming mimosi] 4,2% 4,8% 4,7% 3,7% 6. totale belastingdruk (som rij 2-5) 32,3% 31,4% 32,7% 35,6% 7. index belastingdrukverdeling (rij 6; 1e 25% = 1) 1 0,97 1,01 1,10 8. gemiddeld bruto-inkomen bovengrens kwartiel Bron mimosi-ramingen: Kamerstuk N, Tabel 8. Data bij paragraaf 5: de belastingdruk versus de totale lastendruk. Tabel 6 geeft de aan Figuur 4 onderliggende data. Deze completeert vrijwel de gehele CBS-route van het Bruto-inkomen naar het Besteedbaar inkomen uit Tabel 1. Hiermee zien we ook het verband met de opstelling van het ministerie van Financiën uit Tabel Schatting op basis van CBS-data indirecte belastingen 2010; voor het deel waarop het hoge btwtarief van toepassing is, is de wijziging van dat tarief uit 2012 toegepast (verhoging met factor 21/19 = 1,105); onder de veronderstelling van ongewijzigde aanschaf van de betreffende producten en diensten.(13feb jun2015) 45 Lokale heffingen (CBS 2012) (10 jun jun2015)

98 94 Hoe progressief is de belastingdrukverdeling op het bruto-inkomen van huishoudens? Tabel 6 Van belastingdruk via collectieve-lastendruk (Trimp & De Kam) naar totale druk (ministerie van Financiën): kwartielverdeling huishoudens e 25% 2e 25% 3e 25% 4e 25% percentages bruto-inkomen 1. Bruto-inkomen 100% 100% 100% 100% 2. Belastingdruk (zie Tabel 4) 31,5% 30,8% 32,5% 34,2% 3. + Basispremie Zvw huishouden* 4,3% 3,8% 3,5% 2,3% 4. Druk Algemene Wettelijke Lasten 35,8% 34,6% 36,0% 36,5% 5. + Premies werknemersverzekering 2,1% 4,1% 6,0% 5,1% 6. Collectieve lastendruk [Trimp en De Kam] 37,9% 38,7% 42,0% 41,6% 7. + Pensioenpremies (transitorisch) 0,7% 4,0% 7,9% 10,7% 8. + Overige posten 46 0,4% 0,3% 0,6% 0,7% 9. Totale druk [volgens Financiën] 39,0% 43,0% 50,5% 53,0% 10. Besteedbaar inkomen minus indirecte en lokale belastingen (rij 1 minus rij 9) ** Specificatie rij 5 [CBS-codes]: 61,0% 57,0% 49,5% 47,0% [11.1.1] Premie soc. verz. WW/nWW 0,5% 1,4% 2,2% 2,0% [11.3.1] Premie soc. verz. WAO,WIA 1,6% 2,7% 3,8% 3,1% Specificatie rij 7 [CBS-codes]: [ ] Premie pensioen: werknemer 0,2% 1,1% 2,1% 2,7% [ ] Premie pensioen: werkgever 0,4% 2,9% 5,6% 7,5% [11.4.2] Premie partic. verz. pensioen 0,1% 0,1% 0,2% 0,5% Som: Pensioenpremies (2e en 3e pijler) 0,7% 4,0% 7,9% 10,7% Data rij 3, 5, 7 en 8: CBS Statline. 47 * Dit betreft geen waarneming maar een berekening door het CBS: de standaardpremie voor het basispakket van de Zvw gecorrigeerd voor de premiereductie eigen risico (in later jaren eigen bijdrage). ** Vergelijk Tabel 2 (ministerie van Financiën). CBS-som. 46 Deze zijn als volgt gespecificeerd. Huishoudens e 25% 2e 25% 3e 25% 4e 25% [10] Betaalde inkomensoverdrachten (alimentatie ex-partner) 0,1% 0,1% 0,2% 0,2% [11.2.2] Premie particuliere verzekering ziekte 0,3% 0,2% 0,3% 0,4% [11.3.2] Premie particuliere verzekering arbeidsongeschiktheid 0,0% 0,0% 0,1% 0,1% [11.4.4] Premie levensloopregeling 0,0% 0,0% 0,1% 0,3% Totaal overige posten 0,4% 0,3% 0,7% 1,0% 47 Data rij 3, 5, 7 en 8: CBS Statline (6okt2014 8jul2015). De CBS-code voor de Basispremie Zvw huishouden is [12.1.4].

99 Geert Reuten 95 Auteur Geert Reuten doceerde 35 jaar economie aan de economische faculteit van de Universiteit van Amsterdam, waar hij nu nog gastdocent Politieke Economie is. Van medio 2007 tot medio 2015 was hij Eerste Kamerlid voor de SP woordvoerder voor Financiën en Economische Zaken. Ik dank de TPE-redactie en twee anonieme referenten voor hun constructief commentaar op een eerdere versie van dit artikel. Ook dank ik de anonieme ambtenaren van de ministeries van Financiën en SZW met wie ik, door schriftelijke kamerstukuitwisselingen (via de minister of staatssecretaris) en door een technische briefing met hen en medewerkers van het CBS en CPB, de analyse van het onderwerp van dit artikel kon aanscherpen. Literatuur 48 Bettendorf, L, S. Cnossen en C. van Ewijk, 2012, BTW-verhoging treft hoge en lage inkomens even sterk, Me Judice, 25 april Link Bregman, R. en J. Frederik, 2015, Waarom vuilnismannen meer verdienen dan bankiers, Rotterdam, Lemniscaat. Caminada, C.L.J. en C.A. de Kam, 2007, Sleutelen aan de verdeling van de belastingdruk, in: C.L.J. Caminada, A.H. Haberham, J.H. Hoogteijling en H. Vording (red.), Belasting met beleid, Meijersreeks nr. 134, Sdu, Den Haag, pp 'Sleutelen aan de verdeling van de belastingdruk' CBS, 2015, Documentatierapport IPO Link CPB, 2008, MIMOSI Microsimulatiemodel voor belastingen, sociale zekerheid, loonkosten en koopkracht, CPB Document 161. Link Graaf-Zijl, M. de, en T. Ooms, 2013, Sociaal beleid en inkomensongelijkheid, TPEdigitaal, vol. 7(1): Link Jacobs, B., 2015, Belastingen op kapitaalinkomen in Nederland, Tijdschrift voor openbare Financiën 47(1), blz Link Kam, C.A. de, 1994, The Tax System of the Netherlands, Tax Notes International, vol. 9(12): Kam, C.A. de (2007), Wie betaalt de staat?, Amsterdam: Mets & Schilt. Kamerstuk nr. 3 [1999] Wet Inkomstenbelasting 2001, Memorie van Toelichting (staatssecretaris en minister Financiën). Link Kamerstuk nr. D [2013], Belastingplan 2014, Memorie van antwoord (staatssecretaris Financiën), 5 december Link f Kamerstuk nr. R [2014], Belastingplan 2014, brief van de minister SZW en de staatsecretaris Financiën over de Nederlandse vermogensverdeling, 16 september Link Kamerstuk nr. D [2014], Belastingplan 2015, Memorie van antwoord (staatssecretaris Financiën), 5 december Link Kamerstuk nr. F [2014], Belastingplan 2015, Verslag (commissie Financiën EK), 11 december Link 48 Bij Kamerstukken geeft het vijf-cijfer getal het wet- of onderwerp-dossier aan; voor Tweede Kamerstukken wordt dit gevolgd door een Arabisch nummer; voor Eerste Kamerstukken wordt dit gevolgd door een nummering met Romaanse hoofdletters.

100 96 Hoe progressief is de belastingdrukverdeling op het bruto-inkomen van huishoudens? Kamerstuk nr. G [2014], Belastingplan 2015, Nota naar aanleiding van het verslag (staatssecretaris Financiën), 12 december Link Kamerstuk nr. L [2015], Belastingplan 2015, brief aan de staatssecretaris van Financiën over Raming van effecten van belastingen inkomenspolitiek mede aan de hand van de lastendruk' in het kader van het Belastingplan 2015 (commissie Financiën EK), 5 maart Link Kamerstuk nr. N [2015], Belastingplan 2015, Brief van de minister SZW over Raming van effecten van belastingen inkomenspolitiek mede aan de hand van de lastendruk, 29 april Link Lejour, A. en M van t Riet, 2015, Een meer uniforme belasting van kapitaalinkomen, CPB Policy Brief 2015/16. Link Mateboer, M., J. Erkens, H. Muller en H. Langenberg, 2014, Inkomen en kenmerken van zelfstandigen zonder personeel, Heerlen, Centraal Bureau voor de Statistiek. Link Ministerie Financiën, 2014 zie Kamerstuk , nr. G. Ministerie SZW, i.s.m, Financiën en EZ, 2013, Pensioen van zelfstandigen. Onderzoek naar de oorzaken van beperkte pensioenopbouw van zelfstandigen en mogelijke oplossingsrichtingen hiervoor. Link Ministerie SZW, 2014, Stand van zaken van de Sociale Zekerheid, juli Link OECD, 2013, Compensation of employees, in National Accounts at a Glance 2013, OECD Publishing. Link OECD/KIPF, 2014, The distributional effects of consumption taxes, in The Distributional Effects of Consumption Taxes in OECD Countries, OECD Publishing, Paris. DOI: Link Reuten, G., 2014, Aanvullend pensioenstelsel benadeelt lagere inkomens, Follow the Money, 19 mei Link Reuten, G, 2015, De verdeling van de belastingdruk over huishoudens, , Tijdschrift voor Openbare Financiën, vol. 47(3): SNA 2008 zie UN Staatssecretaris van Financiën, 2014, zie Kamerstuk , nr. G. Trimp L. en C.A. de Kam, 2011, De drukverdeling van collectieve lasten, Economisch- Statistische Berichten, 25 november 2011, vol. 96(4623): Trimp L. en C.A. de Kam, 2012, De drukverdeling van collectieve lasten, Noordhoff Uitgevers. Link UN, 2009, United Nations [European Commission, International Monetary Fund, Organisation for Economic Co-operation and Development, United Nations and World Bank] System of National Accounts 2008 [SNA 2008]. Link 49 Vrijwel identiek aan de via internet breder toegankelijke versie uit 2012.

101 Rigiditeit door flexibiliteit: management bureaucratieën in Nederland Alfred Kleinknecht, Zenlin Kwee en Lilyana Budyanto Meer flexibiliteit in arbeidsverhoudingen leidt tot meer korte en vluchtige verbintenissen tussen werkgever en werknemer, wat afbreuk doet aan vertrouwen en loyaliteit. In dit paper toetsen we de hypothese dat meer flexibiliteit in arbeidsverhoudingen gepaard gaat met grotere bureaucratieën voor management & control. Uit gerelateerd onderzoek blijkt dat Angelsaksische landen met meer flexibele arbeidsmarkten ruim dubbel zo hoge percentages managers in hun personeel blijken te hebben dan bedrijven in 'Rijnlandse' economieën. Wij laten zien dat Nederlandse organisaties die veel flexibel werk gebruiken significant meer managers in hun personeelsbestand hebben dan vergelijkbare organisaties met meer vast personeel. Opmerkelijk is ook dat kleine bedrijven dikkere managementlagen hebben dan hun grotere tegenhangers en dat jonge bedrijven zich niet onderscheiden van oudere bedrijven. Ook hebben overheidsorganisaties dunnere managementlagen dan private, marktgerichte organisaties. 1 Inleiding Er wordt veelal beweerd dat Nederlandse bedrijven hun behoefte aan flexibiliteit realiseren door het inhuren van flexibele krachten, omdat de wetgever de vaste banen goed beschermt. Muffels (2015) beargumenteert bijvoorbeeld dat tijdelijke krachten, uitzendkrachten of zzp ers zorgen voor vrijere marktwerking, waardoor schaarse middelen efficiënter worden gebruikt. Bij dit soort pleidooien wordt echter makkelijk vergeten dat meer vrije marktwerking dikwijls ook meer marktfalen tot gevolg heeft, vooral marktfalen ten aanzien van innovatie. Zo is empirisch geconstateerd dat het gebruik van flexibele krachten op bedrijfsniveau negatief samenhangt met innovatie (Kleinknecht et al. 2014) en met de groei van de arbeidsproductiviteit (Vergeer et al. 2015). Daar zijn een aantal redenen voor die onder andere te maken hebben met het publieke goed karakter van kennis, externe effecten, informatie asymmetrie of gebrek aan betrokkenheid en loyaliteit. Bij meer personeelsverloop spelen deze factoren sterker op. Vooral de creatieve accumulatie en geheimhouding van unieke (veelal persoonsgebonden) kennis wordt dan lastiger. Daardoor kunnen bedrijven hun monopoliewinsten uit innovatie TPEdigitaal 2015 jaargang 9(3)

102 98 Rigiditeit door flexibiliteit: management bureaucratieën in Nederland minder lang vasthouden, waardoor de prikkel tot het aangaan van riskante innovatieve projecten verzwakt (zie Kleinknecht (2015) voor meer argumenten). Dit artikel voegt aan deze discussie één hypothese toe: als door inzet van flexibele werknemers de arbeidsmarkt soepeler werkt en de baanduren korter worden, dan heeft dit een prijs: men teert in op vertrouwen en loyaliteit van mensen en dit verhoogt transactiekosten voor monitoring & control. De verwachting is dus dat als gevolg van meer flexibele arbeidsverhoudingen het percentage managers in het personeelsbestand groeit. De invloed van zachte factoren, zoals vertrouwen en loyaliteit op het ondernemingsbestuur, is weinig onderzocht. Geïnspireerd door exploratief werk van Gordon (1990, 1994), hebben Naastepad en Storm (2006) op basis van ILO-data aangetoond dat in typisch Rijnlandse economieën het aandeel managers in de beroepsbevolking in de jaren tachtig en negentig van de vorige eeuw tussen 2 en 6 procent ligt, terwijl dit percentage in Angelsaksische landen met meer flexibele arbeidsmarkten 11,5-13,5 procent bedraagt. Interessant is in dit verband ook de observatie van De Beer (2001) dat in Nederland tussen de late jaren zeventig en de eeuwwisseling het aantal leidinggevenden van 2% naar 6% van de beroepsbevolking steeg, hetgeen min of meer parallel loopt aan de groei van flexibel werk in Nederland. Naastepad en Storm (2006) argumenteren dat de groei van managementlagen een indicator is van afbraak van sociaal kapitaal. Deze hypothese wordt recent ondersteund door Svensson (2011), die aantoont dat flexibel werk vertrouwen ondermijnt. Tegen het onderzoek van Naastepad en Storm zou men kunnen inbrengen dat data op macroniveau vertekend kunnen zijn door een inflatoir gebruik van het woord manager in Angelsaksische culturen en/of door andere niet-geobserveerde nationale bijzonderheden. Het is daarom interessant om de hypothese van Naastepad en Storm in een dwarsdoorsnede van individuele organisaties binnen een land te onderzoeken, waarin factoren zoals nationale cultuur of regelgeving hetzelfde zijn. 2 Data Een gelegenheid om de hypothese van Naastepad en Storm te toetsen biedt het arbeidsvraagpanel van het Sociaal en Cultureel Planbureau (SCP), dat toegankelijk is via de website van de KNAW ( De enquête betreft een steekproef van alle organisaties in Nederland die mensen in dienst hebben, dus naast industrie, dienstverlening en landbouw, ook niet-commerciële organisaties en overheidsinstanties, met een ondergrens van 5 werknemers. Het bestand vraagt naar het percentage leidinggevenden in de organisatie, naast een reeks andere arbeidsmarkt-indicatoren. Voor onze studie zijn vooral de percentages werknemers met tijdelijke contracten en de inhuur van uitzendkrachten en zzp ers interessant. Op het moment van schrijven wordt het aandeel flexibele werknemers in Nederland tussen 23 en 35% geschat, afhankelijk van de gebruikte definities

103 Alfred Kleinknecht 107 (Dekker et al. 2012). Wij gebruiken in het vervolg het aandeel flexibele krachten in het totale personeelsbestand als indicator van flexibele arbeidsverhoudingen. De vraag is of het gebruik van flexibel werk verschillen in de dikte van managementlagen kan verklaren, na controle voor andere factoren. De tweejaarlijkse enquête van het SCP bevat informatie over ongeveer 3000 organisaties in Nederland met 5 of meer werknemers, gestratificeerd naar sector en grootteklasse. De data worden verzameld met 3 telefonische belrondes, gevolgd door een schriftelijke bevraging. Onderstaande tabellen en figuren geven een indruk van de dikte van managementlagen en van aandelen van flexibele krachten. Het percentage managers in Figuur 1 fluctueert tussen 12 en 14 procent. Dit is hoger dan de geciteerde percentages van Naastepad en Storm (2006) en van De Beer (2001) over de jaren zeventig tot negentig van de vorige eeuw. Het verschil kan te maken hebben met verschillen in definities of met het tijdstip van meten. Figuur 1 Aandelen van managers in de beroepsbevolking per jaar, % 14% 12% 10% 8% 6% 4% 2% 0% Bron: Eigen berekeningen op basis van het arbeidsvraagpanel van het Sociaal en Cultureel Planbureau (SCP), toegankelijk via / / / /2010

104 100 Rigiditeit door flexibiliteit: management bureaucratieën in Nederland Figuur 2 Flexibele werknemers als percentage van de beroepsbevolking, Bron: Eigen berekeningen op basis van het arbeidsvraagpanel van het Sociaal en Cultureel Planbureau (SCP), toegankelijk via Tabel 1 Gemiddeld aandeel managers naar organisatiegrootte en leeftijd Grootteklassen (werknemers): Gemiddeld aandeel managers: Grootteklassen (leeftijd): Gemiddeld aandeel managers: % 5 jaar of minder 13.9% % 6-10 jaar oud 14.2% % jaar oud 14.1% % jaar oud 13.7% 706 > % >50 jaren oud 12.3% 216 Bron: Eigen berekeningen op basis van het arbeidsvraagpanel van het Sociaal en Cultureel Planbureau (SCP), toegankelijk via N

Nog meer weergeven