Van Evidentie Naar Impact



Vergelijkbare documenten
Van evidentie naar impact

CPB Memorandum. Essay voor de Parlementair Onderzoekscommissie Onderwijshervormingen

The Effectiveness of Community Schools: Evidence from the Netherlands

Evaluatie Onderwijstijdverlenging. Drs. Erik Meyer Dr. Chris van Klaveren Prof. dr. Wim Groot Prof. dr. Henriëtte Maassen van den Brink

Experiment tegen schooluitval

Samenvatting en conclusies

CPB Achtergronddocument. Follow-up evaluatie wijkscholen Rotterdam. Roel van Elk, Marc van der Steeg, Dinand Webbink

Evalueren van beleid. Research voor Beleid (Panteia Groep) Auteur: Christel Scholten

Evidence based: theorie en praktijk. Wim Groot Top Institute Evidence Based Education Research (TIER) Teachers Academy

Rapportage sociaal-emotionele ontwikkeling Playing for Success

LSVb visie op Decentrale Toelating

De kwaliteit van educatieve activiteiten meten. Universiteitsmuseum Utrecht

Jonge werknemers en werkstress: een beknopte weergave van de feiten

Monitor Haagse Lerarenbeurs. peildatum januari 2015

Deze brochure is een uitgave van het Programmabureau Onderwijs Bewijs in samenwerking met het Ministerie van OCW.

Nudging en onderwijs: gedragsinzichten inzetten voor betere schoolkeuzes? Lisanne Grimberg Marc van der Steeg Ib Waterreus

Evalueren van projecten met externen Kennisdocument Onderzoek & Statistiek

Speech Francine Giskes, collegelid Algemene Rekenkamer

Draagt lesmateriaal bij aan het vergroten van financiële vaardigheden van basisschoolleerlingen?

Doel. Spel. Duur: - Groep - Individueel. Laat je inspireren door de voorbeeld vragen in deze spiekbrief.

Werkdruk in het onderwijs

RTL Nieuws en de Cito-scores

Geachte leden van de vaste commissie Onderwijs, Cultuur en Wetenschap,

Welke basisscholen geven te hoge adviezen in vergelijking met hun CITO-score?

Samenvatting (Summary in Dutch)

Deze brochure schetst de onderwijsvisie van onze universiteit op hoofdlijnen. De doelen die horen bij die visie kunnen we alleen samen bereiken.

Fout van CPB bij berekening remgeldeffect eigen risico

Het gaf mij veel energie om een eigen evenement te organiseren.

ANALYSE PATIËNTERVARINGEN ELZ HAAKSBERGEN

Aan de Voorzitter van de Tweede Kamer der Staten-Generaal Binnenhof 4 Den Haag

Impactmeting: een 10 stappenplan

Onderwerp en positionering van de beleidsdoorlichtingen In de beleidsdoorlichtingen van de ADR staan de volgende beleidsdoelstellingen centraal:

Decentrale selectie door proefstuderen aan de poort. Klaas Visser

Ik-Wijzer Ik ben wie ik ben

Wijkaanpak. bekendheid, betrokkenheid en communicatie

IMPACTMETING VAN BRIGHT ABOUT MONEY

2017D04668 INBRENG VERSLAG VAN EEN SCHRIFTELIJK OVERLEG

Ik-Wijzer Ik ben wie ik ben

Uitwisseling tussen teamleden in sociale teams cruciaal voor prestatie

Hardell: mobiel bellen en hersentumoren aan de belzijde

Brochure. Primair onderwijs. Brochure. Primair onderwijs

Juridische medewerker

Tweede Kamer der Staten-Generaal

Samenvatting. Zie hiervoor het werkplan van de Evaluatie- en adviescommissie passend onderwijs ECPO, oktober 2008.

De effectiviteit van technologie op verbetering van de leesprestaties: een meta-analyse Samenvatting voor onderwijsgevenden

Opbrengstgericht Werken in de praktijk. De leerkracht aan het woord

Begrijpend lezen van basisschool naar voortgezet onderwijs

Lezen is cool. Pilot met vrij lezen op vmbo- KB in Duiven slaat aan. Door: Elise Haarman

Een brede kijk op onderwijskwaliteit Samenvatting

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Dagelijkse dosis visolie verbetert de prestaties van leerlingen bij nationale examens

Evaluatie Back to Basics: De Nieuwe Koers

Onderzoek naar Honors programma s op Saxion

Schoolprestaties van oude en nieuwe gewichtenleerlingen

Coach voor leren en ontwikkeling

Wat kunnen leerlingen doen om hun onderwijs te verbeteren?!

Bijlage 1: Vragenlijst factoren en items

Toespraak staatssecretaris H.A.L. van Hoof bij de opening van de miniconferentie O&O-fondsen op 10 september 14.00u in Den Haag

Researchcentrum voor Onderwijs en Arbeidsmarkt Ongelijke onderwijskansen in Nederland: is het onderwijsstelsel de schuldige?

Beantwoording vragen Tweede Kamer bij rapport Financiering onderwijs vernieuwingen voortgezet onderwijs (30 november 2007)

7. Deelname en slagen in het hoger onderwijs

Gebruikersgroepen zoals internationale investeerders, journalisten, officiële nationale en multilaterale hulporganisaties, 318

Summery. Effectiviteit van een interventieprogramma op arm-, schouder- en nekklachten bij beeldschermwerkers

De dienstverlening van SURFnet Onderzoek onder aangesloten instellingen. - Eindrapportage -

Bevorderen van integratie op de politieke agenda

SAMENVATTING onderzoek. Playing for Success

NAAR VERNIEUWD TOEZICHT VERVOLG REGIOPILOT CULEMBORG

Subsidiebeleid Onderwijs, Cultuur en Wetenschap (OCW)

Figuur 1: Leerlingen in basisonderwijs ( )

Salarissen en competenties van MBO-BOL gediplomeerden: Feiten en cijfers

dat individuen met een doelpromotie-oriëntatie positieve eigeneffectiviteitswaarnemingen

Vragenlijst leerlingen nameting

Behorende bij het proefschrift How Politics Becomes News and News Becomes Politics geschreven

MOTIVATIE-ONDEZOEK MEDEWERKERS

KWALITEITSONDERZOEK IN HET KADER VAN DE STAAT VAN HET ONDERWIJS 2016/2017

Bijlage 1 Definities en cijfers schoolverzuim

Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus

DONATEUR KIEST GOEDE DOEL VANWEGE ONDERWERP EN STOPT MET STEUN VANWEGE ONTEVREDENHEID OVER GOEDE DOEL

Een exploratieve studie naar de relatie tussen geïntegreerd STEM-onderwijs en STEM-vaardigheden op secundair niveau

Invloed van IT uitbesteding op bedrijfsvoering & IT aansluiting

Tweede Kamer der Staten-Generaal

Researchcentrum voor Onderwijs en Arbeidsmarkt De berekening van de toegevoegde waarde van basisscholen

Hoge werktevredenheid geen garantie voor doorwerken tot pensioen

Bronnenbank Onderwijstheorie Tessa van Helden. Inhoudsopgave Pagina. Bron 1 Design Marcel Wanders. 2. Bron 2 ADHD in de klas. 2

Onderzoek Wel eens gepest?

KOSTENEFFECTIVITEIT RE-INTEGRATIETRAJECTEN

Denk alvast over de volgende vraag na:

Ideeën presenteren aan sceptische mensen. Inleiding. Enkele begrippen vooraf

Onderzoek Social Media in Transport & Logistiek

Onderzoek Passend Onderwijs

Business Lounge: uw klant aan de bestuurstafel!

MCDA methodiek in SELFIE: meten en wegen

Tevredenheid over uitdagend onderwijs onder studenten Een korte notitie op basis van de Studentenmonitor Hoger Onderwijs

Evaluatie van de activeringsplicht van oudere werklozen

Student & Lector. Een steekproef

Verschillenanalyse effect nieuwe BKR. Samenvatting. Inleiding. datum Directie Kinderopvang, Ministerie SZW. aan

Introductie stage-scriptie combi. Orthopedagogiek G&G, 25 augustus 2011

Analyse van de instroom van allochtone studenten op de pabo 1

hoofdstuk 1 hoofdstuk 2 hoofdstuk 3

Het belang van begeleiding

Transcriptie:

Van Evidentie Naar Impact Prof.dr. H.D. Webbink oratie uitgesproken op 11 februari 2011

Van Evidentie Naar Impact PROF.DR. H.D. WEBBINK 2 Mijnheer de Rector Magnificus, Leden van het College van Bestuur van de Erasmus Universiteit Rotterdam, Mijnheer de Decaan, Leden van het bestuur van de Vereniging Trustfonds, Zeer gewaardeerde toehoorders, Ik wil dit betoog beginnen met een merkwaardig feit. Over de Goede Doelen sector in Nederland en in Europa weten we veel. We weten hoeveel geld er om gaat, in Nederland ongeveer 4,5 miljard Euro, in Europa ongeveer 50 miljard Euro. We weten waar het geld vandaan komt, wie de gevers zijn, en ook waar het naar toe gaat. We weten ook veel over de Goede Doelen organisaties, vaak kennen we het salaris van de directeur of de directie, en soms weten we ook nog waar de directie gedineerd heeft en welke wijn ze heeft gedronken. Het merkwaardige feit is dat we nauwelijks weten of al die middelen van de Goede Doelen sector goed worden besteed of dat er veel geld over de balk wordt gegooid. Wat zijn eigenlijk de resultaten van de vele projecten / activiteiten die worden gefinancierd door de Goede Doelen sector? Het antwoord daarop is: we weten nog weinig. Daarom is in september 2009 het Erasmus Centre for Strategic Philanthropy (ECSP) opgericht. Het centrum doet (onder meer) onderzoek naar de effecten van de projecten / activiteiten van Goede Doelen organisaties met als doel het vergroten van de impact van de Goede Doelen sector. PROF.DR. H.D. WEBBINK 3 Colofon Van Evidentie Naar Impact Prof.dr. H.D. Webbink, 11 februari 2011 Vormgeving en druk: B&T Ontwerp en advies (www.b-en-t.nl) En daarmee heb ik het woord geïntroduceerd dat in de Goede Doelen sector momenteel heel veel aandacht trekt: impact. Sinds ik me ben gaan verdiepen in de Goede Doelen sector is me opgevallen dat aan het woord impact een heleboel verschillende betekenissen wordt toegekend. Niet alleen door mensen uit de Goede Doelen sector maar ook door consultants en wetenschappers vanuit verschillende disciplines. Over impact worden veel vragen gesteld. Welke uitkomsten moet je meten? Wanneer moet je meten? Impact voor wie, de geldgever of de ontvanger? Zijn er ongewenste effecten of effecten op

4 andere doelgroepen? Gaat het om de tevredenheid van de doelgroep? Enz. enz.. In discussies komen ook regelmatig afbeeldingen voor zoals deze: Are we maximizing total performance while generating lasting impact? Deze afbeelding illustreert in mijn ogen de stand van de discussie over impact - meting in de Goede Doelen sector. Er worden vooral vragen gesteld, en er worden hele moeilijke en wellicht onmogelijk opdrachten verbonden aan impactmeting. Je zou het ook anders kunnen zeggen: er bestaat nogal wat verwarring. U begrijpt dat ik me geen beter moment had kunnen wensen om me met impactmeting in de Goede Doelen sector te gaan bezig houden. In de komende veertig minuten zal ik uit de doeken doen hoe ik dat wil gaan aanpakken. Daarbij zal ik veel voorbeelden gebruiken van onderzoek dat ik de afgelopen jaren heb gedaan, vooral op het terrein van onderwijs. Impact - meting wordt daar meestal beleidsevaluatie genoemd. De komende jaren mag ik me met een veel breder terrein gaan bezighouden dan onderwijs. De methoden en ervaringen die ik ga bespreken zijn echter even zeer bruikbaar voor de vele andere gebieden die bestreken worden door Goede Doelen organisaties en publieke overheden. 1. Waarover gaat impactmeting? Het eerste antwoord van vanmiddag geef ik meteen. Impactmeting is voor mij het vaststellen van het oorzakelijk effect van een bepaald project of van een bepaalde beleidsinterventie 1. Het gaat om de vraag in hoeverre we bepaalde uitkomsten kunnen toeschrijven aan het gevoerde beleid (of aan bepaalde projecten). Als we weten wat het effect van bepaald beleid is kunnen we deze kennis gebruiken om het beleid te versterken en daarmee meer impact te halen uit de ingezette middelen. Impactmeting / beleidsevaluatie zie ik daarom als een middel om evidentie te verzamelen, te leren en de prestaties te verbeteren. Het belangrijkste probleem bij impactmeting wil ik introduceren met een voorbeeld. Enkele jaren geleden stelde de Europese Commissie een vraag aan het ministerie van Sociale Zaken en Werkgelegenheid over het werken van jeugdigen in Nederland. Op grond van artikel 7, lid 3 van het Europees Sociaal Handvest mogen leerplichtige jeugdigen geen zodanige arbeid verrichten dat zij niet ten volle het onderwijs kunnen volgen. In Nederland mogen 15-jarigen s morgens vanaf zes uur ochtendkranten bezorgen. Om te kunnen beoordelen of Nederland daarmee handelt in overeenstemming met het verdrag is Nederland gevraagd om te onderzoeken of het bezorgen van ochtendkranten van invloed is op de schoolprestaties van vijftienjarigen. Onderzoekers van de Universiteit Nijmegen hebben vervolgens een studie uitgevoerd naar de effecten van het bezorgen van ochtendkranten door 15-jarigen (Vrieze, et al. 2001) dat de titel kreeg Vroege Vogels. De onder - zoekers concludeerden dat er geen aanwijzingen zijn dat het bezorgen van ochtendkranten door 15-jarigen van negatieve invloed is op de school - prestaties. Bovendien vonden zij geen aanwijzingen dat de lichamelijke en psychische conditie van ochtendkrantenbezorgers negatief wordt beïnvloed door het kranten bezorgen. Op alle aspecten komen de ochtendkrantbezorgers er positiever uit dan de niet-bezorgers. Krantenbezorgers voelen zich beter uitgerust en ze kunnen zich beter concentreren. Krantenbezorgers gaan met meer plezier naar school dan de controlegroep. Krantenbezorgers willen nog meer dan de controlegroep met hard werken veel bereiken in hun leven. Anders gezegd, het bezorgen van ochtendkranten leidt tot veel goeds. PROF.DR. H.D. WEBBINK 5 1 Deze definitie is niet door mij bedacht en wordt bijvoorbeeld ook gehanteerd door de Wereldbank (zie http://www.worldbank.org/oed/ie/) of door Howard White, de Excutive Director van het International Initiative for Impact Evaluation (3ie).

6 Dat is goed nieuws voor de Ministers van Onderwijs en van Sociale Zaken en Werkgelegenheid. Laten we alle middelbare scholieren een baantje geven vroeg in de ochtend dan slaan we twee vliegen in één klap. Met die baantjes kunnen we een hoop mooie dingen produceren en waarschijnlijk nog belang - rijker, we geven een belangrijke bijdrage aan de vorming van 15-jarigen. Dat is pas effectief beleid. Ik heb de indruk dat u toch enige twijfels hebt over dit beleid. Of wellicht over het onderliggende onderzoek. Gelooft u de resultaten niet? Dat lijkt me helemaal terecht. De controlegroep die wordt gebruikt in het Vroege Vogels onderzoek lijkt namelijk niet heel geloofwaardig. Ik kom daar straks op terug. Binnen de economische wetenschap is de afgelopen twintig jaar geweldig veel aandacht besteed aan het vaststellen van oorzakelijke effecten. Er zijn nieuwe methoden ontwikkeld en tal van toepassingen gevonden. Dit terrein heeft de naam Program Evaluation gekregen. Het raamwerk waarbinnen dit onderzoek plaats vindt is verrassend eenvoudig en wordt aangeduid als het Potentiële Uitkomsten Model (Rubin (1974, 1977) en Holland (1986)). De leidende vraag binnen dit model is: wat zou er gebeurd zijn als het beleid niet was ingevoerd? Of op individueel niveau: wat zou de uitkomst voor het individu zijn als dit individu niet te maken had gehad met het beleid. Voor een individu zijn er derhalve twee potentiële uitkomsten: een uitkomst in de situatie zonder het beleid en een uitkomst in de situatie met het beleid. Het oorzakelijk effect van het beleid voor dit individu is dan eenvoudig te bepalen, namelijk het verschil tussen de twee potentiële uitkomsten. Voor de hele populatie kan het oorzakelijk effect dan bepaald worden door het gemiddelde te nemen over alle individuen. Het probleem is echter dat we maar één uit - komst waarnemen. Die andere uitkomst kunnen we nooit waarnemen en hiervoor zijn we aangewezen op een vergelijking met een andere groep, die het beleid niet heeft ondergaan. Voor het bepalen van het oorzakelijk effect van het beleid maken we in dat geval de aanname dat de uitkomst voor die andere groep gelijk is aan de potentiële uitkomst die we niet kunnen waar - nemen. We nemen aan dat de uitkomst voor die andere groep de uitkomst is die we hadden gekregen als het beleid niet was uitgevoerd. Deze aanname speelt een cruciale rol in de evaluatie. In normaal Nederlands hebben we het dan over de geloofwaardigheid van de controlegroep. Bij welke aannamen krijgen we een geloofwaardige controlegroep en bij welke aannamen is er reden tot twijfel? Het onderzoek op het terrein van Program Evaluation heeft hierover veel helderheid verschaft. De afgelopen jaren zijn we steeds beter gaan begrijpen welke aannamen we maken bij verschillende technieken gericht op het bepalen van de effecten van beleid of interventies. Eén van de belangrijkste inzichten is dat de geloofwaardigheid van de controlegroep afhangt van de vraag of we begrijpen waarom een bepaalde groep wel de beleidsinterventie heeft gehad en de andere groep niet. In de literatuur over Program Evaluation wordt dit aangeduid als toewijzing aan de interventie ( assignment to treatment ). Aan de hand van het voorbeeld van de studie naar de Vroege Vogels wil ik dit verduidelijken. In het Vroege Vogels voorbeeld zijn we geïnteresseerd in het effect van een krantenwijk op de resultaten van scholieren. De onderzoekers hebben daarvoor de schoolresultaten van een groep leerlingen met een krantenwijk vergeleken met de schoolresultaten van een groep leerlingen zonder krantenwijk. En daarbij is rekening gehouden met een aantal verschillen tussen de groepen zoals geslacht, leeftijd, etnische herkomst en schooltype. De aanname die gemaakt wordt is dat de potentiële schoolresultaten van de Vroege Vogels als ze geen krantenwijk zouden hebben gelijk zijn aan de schoolresultaten van de leerlingen zonder krantenwijk, rekening houdend met de genoemde verschillen. Is deze aanname geloofwaardig? Dat hangt af van de vraag welke leerlingen een krantenwijk hebben en welke leerlingen niet. Als de kranten - wijk door loting wordt toegewezen aan bepaalde leerlingen zouden we geen verschillen verwachten tussen leerlingen met en leerlingen zonder krantenwijk. Als leerlingen echter bewust kiezen voor een krantenwijk kunnen er vele verschillen zijn tussen de twee groepen die niet zo gemakkelijk te observeren zijn. Vroege Vogels zijn wellicht energieke ambitieuze types die ook de eerste uren van de dag goed willen besteden. De controlegroep bestaat wellicht uit Late Vogels die vooral de late uurtjes goed willen besteden. Als deze verschillen tussen de groepen ook belangrijk zijn voor de schoolresultaten zal een vergelijking van de uitkomsten van deze groepen niet het oorzakelijk effect van de krantenwijk opleveren. Een onderzoeker die deze verschillen waarschijnlijk niet kan waarnemen zal dan de verkeerde conclusies trekken. U begrijpt inmiddels dat ik de aanname uit het Vroege Vogels onderzoek niet erg geloofwaardig vind. Maar is het dan ook belangrijk dat die aanname niet geloofwaardig is? Mijn antwoord daarop is ja. Als die aanname niet geloof - waardig is kunnen bepaalde effecten geheel ten onrechte worden toege schre - ven aan een beleidsinterventie. Het probleem met de Vroege Vogels studie is dat leerlingen zelf kiezen voor de krantenwijk; er is sprake van zelfselectie. In de sociale werkelijkheid is zelfselectie eerder regel dan uitzondering. Bij vrijwel alle beleidsinterventies of projecten is sprake van selectie van deelnemers. En dat is ook logisch, mensen verschillen immers in voorkeuren en mogelijkheden, en dat leidt tot verschillen PROF.DR. H.D. WEBBINK 7

8 in keuzes. Deze zelfselectie is het belangrijkste probleem uit de beleidsevaluatie. Hoe weten we bij een vergelijking tussen twee groepen of het verschil in uitkomsten wordt veroorzaakt door de beleidsinterventie en niet het gevolg is van andere niet geobserveerde verschillen tussen deze groepen? Als een beleidsmaker wil weten wat het effect van een specifiek programma voor jongeren is, bijvoorbeeld het programma Meedoen, Leren en Winnen van de Johan Cruijff Foundation, zal selectie een rol spelen bij de evaluatie. We mogen immers verwachten dat jongeren die willen deelnemen een andere groep zullen zijn dan jongeren die niet willen deelnemen aan het project. Inmiddels weten we ook dat een schatting van het effect van een programma waarbij alleen rekening wordt gehouden met geobserveerde verschillen tussen deelnemers en niet-deelnemers vaak niet klopt. Zo laat een beroemde studie van de Amerikaan Robert Lalonde (1986) zien dat het bij de evaluatie van trainingsprogramma s voor werklozen veel uitmaakt of je rekening kunt houden met de zelfselectie. Selectie doet zich ook overal voor binnen het onderwijs en dat is belangrijk voor het bepalen van de effecten van bepaalde interventies. Er is bijvoorbeeld erg veel onderzoek gedaan naar de effecten van klassenverkleining. Daarvoor vergelijkt men dan de resultaten van leerlingen in kleine klassen met die van leerlingen in grote klassen. De cruciale vraag is dan weer: hoe komen de leerlingen terecht in grote en in kleine klassen. Als dit gebeurt door loting dan zal het verschil tussen de grote en kleine klassen ook daadwerkelijk het effect zijn van de klassengrootte. Meestal wordt de klassen - grootte echter bepaald door beslissingen van scholen, docenten of ouders. In dat geval weten we niet waarom sommige leerlingen in grote en andere in kleine klassen zitten. Misschien omdat sterk gemotiveerde ouders erin slagen om hun kinderen in kleine klassen te krijgen, maar het is ook mogelijk dat docenten bij voorkeur lastige leerlingen in kleine klassen selecteren. De Amerikaanse econoom Eric Hanushek heeft een beroemd overzicht gemaakt van al dit onderzoek naar de effecten van de klassengrootte (Hanushek, 2003). En, het resultaat zal u nu misschien minder verrassen. Het overzicht geeft namelijk alle mogelijke effecten, variërend van positief significant tot negatief significant. Het grote probleem bij de interpretatie van deze onderzoeks - resultaten is echter dat alle resultaten vertekend kunnen zijn door selectie op grond van niet waargenomen kenmerken. Een onderzoeker die geen rekening houdt met het selectieprobleem kan tot de conclusie komen dat een effect positief en statistisch significant is terwijl het ware effect negatief en statistisch significant is. Kortom, als we echt het effect van beleid willen weten zullen we een oplossing moeten vinden voor het selectieprobleem. Anders, zullen we nooit met zekerheid een bepaalde uitkomst kunnen toeschrijven aan een bepaalde beleidsinterventie. 2. Hoe kunnen we de impact van beleid op een geloofwaardige manier vaststellen? Het onderzoek van de afgelopen jaren heeft veel inzicht opgeleverd voor het oplossen van het selectieprobleem. De meest overtuigende oplossingen zijn gebaseerd op een experimentele of quasi-experimentele opzet. Cruciaal daar bij is dat we inzicht hebben in de toewijzing van de beleidsinterventie. We begrijpen waarom sommige individuen wel te maken hebben met de beleids interventie en anderen niet. Dit wordt ook wel design-based onderzoek genoemd 2. De impact van beleid kan worden vastgesteld door gebruik te maken van transparante onderzoeksdesigns. 2.1 Het gecontroleerde sociale experiment De eerste oplossing voor het selectieprobleem is het gecontroleerde sociale experiment. Door loting wordt bepaald wie de beleidsinterventie wel of niet krijgt. De loting zorgt ervoor dat elk individu evenveel kans heeft op het krijgen van de beleidsinterventie. We mogen daarom verwachten dat de controlegroep zowel op geobserveerde als niet geobserveerde kenmerken vergelijkbaar is met de experimentele groep. Het effect van de beleids - interventie kan dan worden bepaald door de uitkomsten in de experimentele groep te vergelijken met die in de controlegroep. Tot zover is het allemaal heel eenvoudig. Waarom zien we dan nog weinig sociale experimenten in Nederland? Ik denk dat daarvoor twee redenen zijn aan te wijzen. De eerste reden gaat over tijd en middelen. Sociale experimenten kosten geld en vergen tijd, en beleidsmakers kunnen niet zo lang op antwoorden blijven wachten. De tweede reden, en dat geldt zeker voor de wereld van het onderwijsbeleid en die van Ontwikkelingssamenwerking, is dat beleidsmakers moeite hebben met loting. Ik heb de indruk dat voor veel beleidsmakers het L-woord nog steeds emotioneel beladen is. Ongelijke behandeling stuit velen tegen de borst. Het bezwaar blijkt dan meestal te zijn dat een bepaalde groep een kansrijke interventie wordt onthouden. Het blijft echter altijd de vraag of deze interventie wel werkt. Hoewel de interventie vooraf kansrijk wordt 2 De laatste jaren is ook kritiek gekomen op deze methoden. Deze methoden zouden vooral gericht zijn op het vergaren van zo hard mogelijk bewijs maar daarmee de grote vragen uit het oog verliezen: Good answers instead of good questions. Zie onder andere Heckman (2010), Deaton (2010), Imbens (2010), Angrist & Pischke (2010). PROF.DR. H.D. WEBBINK 9

10 geacht is nooit uit te sluiten dat het uiteindelijke effect nul of zelfs ongunstig is. Als we een boer in een ontwikkelingsland microfinanciering aanbieden kan dit de start van een mooi bedrijf zijn, maar we kunnen niet uitsluiten dat deze boer hierdoor juist een grotere schuldenlast krijgt. De keuze om niet te experimenteren betekent bovendien vaak dat nieuw beleid moet worden ingevoerd zonder goede onderbouwing. Liever experimenteren met de hele populatie dan een deel van de populatie anders behandelen. Ik ben geen ethicus maar mijn indruk is dat de ethische bezwaren van dit alternatief minstens even groot zijn en waarschijnlijk groter dan die van het L-woord. Ondanks deze bezwaren vinden wel degelijk sociale experimenten in Nederland plaats, en het aantal experimenten neemt ook toe. Zo voer ik samen met mijn CPB-collega s Marc van der Steeg en Roel van Elk een experiment uit waarbij een coach wordt toegewezen aan leerlingen in het Middelbaar Beroepsonderwijs. De toewijzing van leerlingen aan de experimentele en controlegroepen en ook de toewijzing van de docent is door loting tot stand gekomen. In dit experiment waren onvoldoende middelen beschikbaar voor alle leerlingen. Door te loten kreeg elke leerling evenveel kans om tot de experimentele groep te behoren. In dit geval kan ik helemaal geen ethische bezwaren bedenken tegen loten. Dit soort situaties doet zich overigens veel vaker voor. Zo komt het vaak voor dat bij subsidiemaatregelen de aanvragen het beschikbare budget overschrijden. Bij aanvragen van gelijke kwaliteit kan in dat geval worden geloot, met als nevenopbrengst dat het effect van de subsidie na enige tijd kan worden vastgesteld. Ook bij Goede Doelen organi - saties zullen de middelen vaak niet toereikend zijn voor alle aanvragers, en kan loting soms ook worden toegepast. Dit geeft dan niet alleen een eerlijke verdeling van middelen maar biedt bovendien een prachtige kans om impact te meten. De afgelopen jaren is ook een groot aantal experimenten gestart binnen het kader van Onderwijsbewijs, een fonds voor experimenten in het onderwijs. In de eerste ronde zijn achttien experimenten gefinancierd, in de tweede ronde zullen nog eens negentien experimenten worden gefinancierd. En natuurlijk worden binnen het Top Institute for Evidence Based Education Research (TIER) al enkele jaren sociale experimenten uitgevoerd. 2.2 Natuurlijke experimenten Gecontroleerde experimenten ontstaan door de hand van de onderzoeker. Er ontstaan echter ook regelmatig experimenten door toevallige situaties in de werkelijkheid, dit worden natuurlijke experimenten genoemd. Natuurlijke experimenten bieden ook een oplossing voor het selectieprobleem. Bestaande lotingen benutten In verschillende situaties in de werkelijkheid wordt loting toegepast, bijvoor - beeld bij de toelating tot bepaalde populaire middelbare scholen of bij de toelating tot studies zoals geneeskunde. Deze lotingen bieden vaak de mogelijkheid om oorzakelijke effecten vast te stellen, ook als de loting niet werd geïnitieerd met als doel het uitvoeren van een gecontroleerd experiment 4. Samen met Rob Luginbuhl en Inge de Wolf heb ik gebruik gemaakt van een loting die door de Inspectie van het Onderwijs wordt toegepast (Luginbuhl et al. 2009). De Inspectie van het Onderwijs trekt, in het kader van het Onderwijs - verslag, elk jaar een steekproef van scholen. Deze scholen worden bezocht door een Inspecteur. De steekproef van scholen wordt aselect getrokken, eigenlijk net als bij een echt gecontroleerd experiment. Door de resultaten van deze steekproef van scholen te vergelijken met de resultaten van andere scholen konden wij het effect van een schoolbezoek door een Inspecteur vast stellen. Wij vonden een kleine verbetering van de leerprestaties na het bezoek van de Inspecteur. Regressie discontinuïteiten Behalve loting zijn er in de werkelijkheid nog veel meer situaties te ontdekken die sterk lijken op een gecontroleerd experiment. Eén van de meest prominente situaties in de evaluatieliteratuur is de zogenoemde regressiediscontinuïteit. Deze techniek is al in de jaren zestig ontwikkeld binnen de psychologie maar is de afgelopen tien jaar opnieuw uitgevonden binnen de economische weten - schap en voorzien van een theoretisch fundament (Cook, 2008). Regressie discontinuïteiten zijn situaties waarbij de toewijzing van de beleidsinterventie PROF.DR. H.D. WEBBINK 11 Internationaal is er de afgelopen jaren sprake van een toename van experi - men ten. Opvallend daarbij is dat veel gecontroleerde sociale experimenten plaatsvinden in ontwikkelingslanden. Zo zijn er onder de vlag van het zoge - noemde Action Poverty Lab 245 gerandomiseerde evaluaties uitgevoerde in 43 landen en op veel verschillende thema s zoals gezondheid, micro finan - ciering, landbouw, arbeidsmarkt, onderwijs, milieu en bestuur 3. 3 Zie www.povertyactionlab.org 4 In Nederland is de gewogen loting voor geneeskunde benut om het effect van deze opleiding op verschillende uitkomsten vast te stellen (Leuven, et al. 2009). Voor de VS is het effect van schoolkeuze op schoolprestaties vastgesteld door gebruik te maken van de loting bij toelating tot bepaalde scholen (Cullen et al. 2006).

12 afhangt van een score op een bepaalde variabele. Individuen net boven een bepaalde grenswaarde krijgen de beleidsinterventie, individuen net beneden deze grenswaarde krijgen de beleidsinterventie niet. De belangrijkste aanname is dat individuen aan beide zijden van de grenswaarde goed vergelijkbaar zijn 5. Aan de hand van enkele voorbeelden wil ik deze aanpak toelichten. Enkele jaren geleden heb ik samen met Hessel Oosterbeek, Edwin Leuven en Mikael Lindhal een onderzoek gedaan naar het effect van extra middelen voor scholen in het primair onderwijs met veel achterstandsleerlingen (Leuven et al. 2007). De Tweede Kamer maakte zich zorgen over de prestaties van scholen met een hoge concentratie achterstandsleerlingen en had daarom besloten om deze scholen meer middelen toe te kennen. Scholen met meer dan 70% achterstands - leerlingen ontvingen ongeveer tien procent extra middelen. Het geld diende te worden besteed aan leraren of aan ICT. Scholen met minder dan 70% achter standsleerlingen ontvingen geen extra middelen. De afkapgrens van 70% werd strikt gehanteerd. Scholen met 69,9% achterstandsleerlingen ontvingen geen extra geld, scholen met 70,1% achterstands-leerlingen ontvingen wel extra geld. In ons onderzoek hebben we de scores op de Cito-toets vergeleken van scholen die het geld kregen met de scores van scholen die het geld niet kregen. Daarbij hebben we vooral gekeken naar scholen rond de afkapgrens van 70%. Zo hebben we de prestaties van scholen vergeleken die tussen 65 en 70% achterstandsleerlingen hadden met de prestaties van scholen die tussen 70 en 75% achterstandsleerlingen hadden, en daarbij hebben we ook rekening gehouden met het aandeel achterstands - leerlingen. Voor het beleid waren onze uitkomsten teleurstellend. We vonden geen effect van het extra geld, noch van het extra geld voor personeel noch van het extra geld voor ICT op school. Een andere toepassing van deze techniek is een studie naar de opbrengsten van studeren in het buitenland die ik samen met Hessel Oosterbeek heb uitgevoerd (Oosterbeek & Webbink, 2010). Het evaluatieprobleem hierbij is dat studenten die in het buitenland gaan studeren sterk kunnen verschillen van studenten die in eigen land studeren. Om dit probleem te omzeilen hebben we gebruik gemaakt van een bijzondere groep studenten, namelijk studenten die zich hadden aangemeld voor de zogenoemde Talentenbeurs. Ieder jaar bleken zich meer studenten aan te melden dan er beurzen beschik - baar waren. De selectie van studenten werd steeds gedaan door een commissie die een ranking maakte van de studenten. Aan de hand van deze ranking konden wij studenten onderscheiden die net wel en net geen beurs gekregen hadden. Studenten die geen beurs ontvingen bleken aanmerkelijk minder vaak in het buitenland te gaan studeren waardoor er variatie ontstond in het studeren in het buitenland. Deze toevallige variatie hebben wij benut voor het vaststellen van het effect van studeren in het buitenland op de latere arbeidsmarktpositie. Onze belangrijkste bevinding gaf aanleiding tot zorg. De beurs, bestemd voor de meest getalenteerde studenten, bleek er vooral toe te leiden dat Nederlandse studenten zich in het buitenland gingen vestigen. Begin vorig jaar heb ik samen Marc van der Steeg en Roel van Elk gekeken naar het effect van de zogenoemde lerarenbeurs op het volgen van een opleiding in het hoger onderwijs (Van der Steeg et al. 2010). Vanaf 2008 zijn door het ministerie van OCW beurzen beschikbaar gesteld voor leraren. Deze beurzen zijn bedoeld voor het verhogen en verbreden van kwalificaties van leraren. Het is bijvoorbeeld mogelijk om een complete Bachelor of Masters studie te volgen met deze beurs. Een belangrijke vraag is echter of het ontvan gen van een beurs ook daadwerkelijk tot extra deelname aan onderwijs leidt of dat de beurs gebruikt wordt voor het financieren van een opleiding die men ook zonder beurs wel was gaan volgen. De beurs vervangt dan de eigen middelen of de middelen vanuit de school. Voor het vaststellen van het effect van de beurs op de deelname aan hoger onderwijs hebben we gebruik gemaakt van een toevalligheid bij de toedeling van de beurs. In de eerste ronde waren er ongeveer 7500 leraren die een beurs wilden en er waren slechts 5000 beurzen beschikbaar. De toewijzing van de beurs ging op basis van het moment van aanmelding (First come, First serve). In figuur 1 is de kans op het krijgen van een beurs afgezet tegen de dag van aanmelding. PROF.DR. H.D. WEBBINK 13 5 De veronderstelling is dat de relatie tussen de onderliggende toewijzingsvariabele en de potentiële uitkomsten continu is rond de grenswaarde van de toewijzingsvariabele.

14 Figuur 1. Kans op een beurs in de eerste ronde naar dag van aanmelding eerste ronde Day of application in first round 100 90 80 70 60 50 40 30 20 10 0 0 5 10 15 20 25 30 35 40 45 50 % assigned voucher in first round Vanaf de eerste dag van de aanmelding is de kans op het toegewezen krijgen van een beurs erg hoog, ongeveer 95%. Een klein deel van de aanmeldingen is afgewezen omdat de aanvraag niet voldeed aan bepaalde criteria 6. De kans op een beurs blijft hoog tot en met dag 35. Dan zien we een plotseling daling van de kans op een beurs tot nul procent. Deze daling is het gevolg van het feit dat het geld op was. In ons onderzoek gebruiken we deze plotselinge daling van de kans op een beurs. Een complicerende factor in ons onderzoek was dat er na de eerste ronde van de beurs ook nog een tweede en derde ronde was waarin beurzen werden toegekend. Als we die ronden meenemen in onze figuur ontstaat het volgende beeld (figuur 2). Figuur 2. Kans op een beurs na drie ronden naar dag van aanmelding eerste ronde Day of application in first round 100 90 80 70 60 50 40 30 20 10 0 0 5 10 15 20 25 30 35 40 45 50 % with voucher in any of three rounds Het belangrijkste verschil is nu dat ongeveer veertig procent van de leraren die in de eerste ronde te laat waren met hun aanmelding, alsnog een beurs ontvangen hebben in de tweede en derde ronde. Er blijft echter een belangrijk verschil in de kans op een beurs op de sluitingsdag van de eerste ronde (dag 36). De kans op een beurs daalt dan van 95% naar 40%. Deze discontinuïteit maakt het mogelijk om het effect van de lerarenbeurs vast te stellen. Wij vonden dat de lerarenbeurs de kans op deelname aan het hoger onderwijs verhoogt met 10%-punt. Dat betekent dat de overheid, bij deze opzet van de lerarenbeurs, 10 beurzen moet verstrekken om één leraar extra te verleiden tot deelname aan het hoger onderwijs. Eén beurs wordt niet gebruikt en acht beurzen worden gebruikt voor opleidingen die ook zonder beurs zouden zijn gevolgd. Economen noemen dit een hoge dead weight loss. Difference-in-differences modellen Een derde prominente techniek voor het oplossen van het selectieprobleem is het zogenoemde difference-in-differences model. In dit model wordt gebruik gemaakt van een experimentele en een controlegroep en is sprake van een voor- en nameting. De belangrijkste aanname is dat de trend in de controle - groep, dat is het verschil tussen de voor- en nameting, gelijk is aan de trend in de experimentele groep als de beleidsinterventie niet zou hebben plaats - gevonden. In de Verenigde Staten zijn DD-modellen vaak toegepast door het beleid in een bepaalde gebied (staat, stad of deelgemeente) te analyseren waarbij andere gebieden als controlegroep gebruikt worden 7. Samen met Victoria Chorny (oud-cpb) heb ik deze techniek toegepast voor een analyse van het zogenoemde accountability-beleid in het Amsterdamse basisonderwijs vanaf het midden van de jaren negentig (Chorny and Webbink, 2010). De gemeente Amsterdam bemoeide zich intensief met het basisonderwijs en maakte afspraken over deelname aan en te behalen resultaten op de CITOtoets. Scholen moesten plannen opstellen voor het behalen van schoolspecifieke doelen. Aan de uitvoering van de plannen en het behalen van de resultaten werden middelen gekoppeld. Aan de hand van een groot gegevensbestand van leerlingen in het basisonderwijs, het zogenoemde PRIMA-onderzoek, hebben we de ontwikkeling van de scores op de Cito-toets in Amsterdam geanalyseerd. We hebben de trend in Amsterdam vergeleken met die in heel PROF.DR. H.D. WEBBINK 15 6 Zoals het aantal contacturen, de accreditatie van de aanbieder, en de bevoegdheid van de docent. 7 Zie bijvoorbeeld Card (1990), Jin and Leslie (2003), Meyer et al. (1995), Eissa and Liebman (1996).

Nederland en ook met de trend in een specifieke steekproef met veel achter - Figuur 4. Trend in PRIMA toetsen voor taal en rekenen in Amsterdam en in de lage SES steekproef vergeleken standsleerlingen (en met de trend in de andere grote steden). Figuur 3 laat met de rest van Nederland. zien hoe de trend in Amsterdam (de blauwe lijn) en de trend in de steekproef met veel achterstandsleerlingen (de paarse lijn) is gaan afwijken van de landelijke trend (de x-as). 0.4 0.3 PRIMA score Adjusted trend PRIMA scores PROF.DR. H.D. WEBBINK 16 Figuur 3. Trend in Cito-score in Amsterdam en in de lage SES steekproef ten opzicht van de landelijke trend. Adjusted trend CITO 0.6 0.5 0.4 0.3 0.2 0.1 0 1995 1997 1999 2001 2003 2005 Low SES Amsterdam We zien dat de trend in Amsterdam ten opzichte van de landelijk trend geheel vlak is tot 1997, en daarna doet zich een spectaculaire stijging voor van de Amsterdamse resultaten. De ontwikkeling in de steekproef met veel achter - standsleerlingen is vlak. In onze schattingen vinden we een verbetering van de Amsterdamse toetsresultaten met ongeveer 0.5 standaard deviatie. Dat zijn ongeveer 5 punten op de CITO-toets en dat is een hele sterke stijging. Het zal u waarschijnlijk niet zijn ontgaan dat er in de media ook veel aandacht is besteed aan deze opvallende progressie. Er zijn veel manieren om de toetsresultaten te verbeteren. Zo gaan de scores fors omhoog als de zwakke leerlingen uit de toets worden gelaten, en veel oefenen op de toets helpt ook. In ons onderzoek hebben we naar verschillende kanalen gekeken die zouden kunnen leiden tot een onbedoelde stijging van de toetsresultaten. Zo hebben we gekeken naar het uitsluiten van leerlingen, verwijzing naar het speciaal onderwijs of zittenblijven. Deze analyses hebben geen aanwijzingen opgeleverd voor strategisch gedrag van Amsterdamse scholen. Ook hebben we gekeken naar teaching to the test. Het PRIMA-bestand bevat namelijk naast de resultaten op de CITOtoets ook scores op separate toetsen voor taal en rekenen. Als de progressie van de resultaten in Amsterdam het gevolg is van uitgebreid oefenen op de Cito-toets verwachten we geen vooruitgang op deze separate toetsen. De trends op deze toetsen staan afgebeeld in figuur 4. 0.2 0.1 0-0.1-0.2 1988 1990 1995 1997 1999 2001 2003 2005 Amsterdam PRIMA Math Amsterdam PRIMA Languages Low SES PRIMA Math Low SES PRIMA Language De resultaten op de taal- en rekentoetsen, die dus geen onderdeel uitmaken van het Amsterdamse beleid, zijn vergelijkbaar met die op de CITO-toets. Ook hier zien we een duidelijk vooruitgang van de prestaties van Amsterdamse leerlingen ten opzichte van leerlingen in de rest van Nederland. Een belangrijk verschil is echter dat de vooruitgang minder groot is, ongeveer 0,3 standaard - deviatie. Als we deze resultaten combineren met de eerdere resultaten komen we tot de conclusie dat ongeveer 60 procent van de totale vooruitgang in A dam een daadwerkelijke verbetering is van de leerprestaties en dat 40% is toe te schrijven aan teaching to the test. De DD-modellen heb ik samen met Marc van der Steeg en Roel van Elk ook toegepast in ons onderzoek naar de effectiviteit van het beleid gericht op het verminderen van voortijdig schoolverlaten (Van der Steeg et al. 2008). Enkele jaren geleden is ons land begonnen met het zogenoemde convenanten beleid. Hiervoor werden afspraken gemaakt met 14 van de 39 regio s in Nederland om het voortijdig schoolverlaten terug te dringen. Voor elke daling van het voortijdig schoolverlaten met één leerling kregen regio s 2000 Euro. In ons onderzoek hebben we gekeken naar de ontwikkeling in het voortijdig schoolverlaten voor en na de introductie van het nieuwe beleid in zowel de 14 geselecteerde regio s als in de 25 niet geselecteerde regio s. We vonden een daling in de 14 geselecteerde regio s maar een even grote daling in de 25 niet-geselecteerde regio s. In onze DD-benadering betekent dit dat het beleid niet effectief is. De daling in de regio s met het nieuwe beleid wijkt immers niet af van de trend in de regio s zonder het nieuwe beleid. In dit onderzoek konden we de analyses nog verder aanscherpen doordat we ook de selectiecriteria voor de 14 regio s kenden. Hierdoor konden we ook de PROF.DR. H.D. WEBBINK 17

18 regio s identificeren die net niet geselecteerd waren voor dit nieuwe beleid. Separate analyses waarbij we de ontwikkeling in de net wel en de net niet geselecteerde regio s vergeleken gaven hetzelfde resultaat als hierboven besproken. Het afgelopen jaar ben ik samen met Lara Hemmes en Karen Maas gestart met het toepassen van DD-modellen voor het evalueren van de effecten van projecten rond de Johan Cruijff Courts. We kijken naar het effect van het project Meedoen, Leren en Winnen. Daarvoor vergelijken we jongeren op Courts die het project wel toepassen met jongeren op Courts die niet deel - nemen aan het project. In een tweede project, waaraan ook Iolia Ossokina deelneemt, willen we de invloed van de Johan Cruijff Courts op de buurt vaststellen. De uitkomstmaat die we daarvoor willen gebruiken is de huizen - prijs. Als de aantrekkelijkheid van de buurt is toegenomen of afgenomen door de aanwezigheid van het Johan Cruijff Court zal dit immers tot uitdrukking moeten komen in de huizenprijs. We willen de ontwikkeling van de huizenprijs in de buurt van een Johan Cruijf Court vergelijken met de ontwikkeling van de huizenprijzen op lokaties die kandidaat waren voor de vestiging van een Johan Cruijff Court. Deze methoden gebaseerd op experimentele of quasi-experimentele onder - zoeksdesign maken het mogelijk om oorzakelijke effecten van beleids - interventies of projecten vast te stellen. De toepassing van deze methoden kan derhalve evidentie opleveren die beleidsmakers kan helpen om de effectiviteit van hun beleid te vergroten. Anders gezegd, dit type onderzoek kan het beleid evidence based maken. Echter, het gebruik maken van onderzoeksresultaten in beleid is in de praktijk niet vanzelfsprekend. 3. Gebruik maken van evidentie: Evidence Based Beleid Het doel van impactmeting/ beleidsevaluatie is tweeledig: het verantwoorden van de inzet van middelen en het leren over de effecten. Allereerst bestaat er altijd de behoefte om vast te stellen of de middelen goed worden ingezet. Dit geldt voor de overheid en nog sterker voor Goede Doelen organisaties. Zij zijn immers opgericht om Goed te doen, dus om impact te hebben. En voor de gevers aan Goede Doelen organisaties is het ook weer belangrijk om te zien dat de organisaties daadwerkelijk resultaten boeken. In de tweede plaats, en in mijn ogen het meest belangrijk, is het doel van beleidsevaluatie om te leren over de effecten van beleid en deze kennis te gebruiken voor het versterken van de effectiviteit van het beleid. Instrumenten die niet werken kunnen worden gestopt, beleid dat wel werkt kan worden uitgebreid. De baten van beleid dat werkt kunnen geweldig hoog zijn. Neem het onderwijs. Inmiddels weten we dat onderwijs grote opbrengsten levert voor zowel individuen als landen. Hogere testscores zijn belangrijke voorspellers voor economische groei (Hanushek & Woesman, 2010). Beleid dat de Nederlandse onderwijsresultaten blijvend kan verhogen kan op termijn geweldige productiviteitseffecten opleveren. Dit betekent tegelijkertijd ook dat beleid dat niet werkt geweldig hoge kosten heeft. Het goed gebruik maken van de beschikbare evidentie is daarom heel belangrijk. Maar, in de praktijk is de relatie tussen onderzoek en beleid verre van eenvoudig. Spanning tussen onderzoek en beleid Beleid maken is niet eenvoudig. Er zijn veel belangen, er is weinig tijd, de politieke arena heeft een geweldige dynamiek, politici moeten scoren en journalisten moeten ook scoren. Alle beleidsproblemen hebben een hoge sense of urgency, beleidsmakers moeten meters maken en steden staan in brand. Slecht nieuws lijkt in de media beter te scoren dan goed nieuws. Een aantal jaren geleden heb ik met een aantal CPB-collega s een vergelijking uitgevoerd van de prestaties van het Nederlands onderwijs met die van het onderwijs in een aantal andere rijke landen (Antenbrink, et al. 2005). Wellicht anders dan de beeldvorming over het Nederlands onderwijs kwamen wij tot de conclusie dat het Nederlands onderwijs er niet slecht voor staat. De kop van ons persbericht was dan ook: Nederlands onderwijs niet onder de maat. De volgende dag stond echter in een vooraanstaand landelijk dagblad: CPB: Nederlands onderwijs onder de maat. De teneur van de berichtgeving over PROF.DR. H.D. WEBBINK 19

20 de Goede Doelen sector lijkt niet heel anders. In deze beleidsomgeving leidt nieuwe evidentie niet automatisch tot aanpassingen van beleid. Goed nieuws wordt omarmd, slecht nieuws over de resultaten van het beleid wordt bestre - den. Als je een tijd in Den Haag hebt gewerkt herken je de beleidsreflexen bij slecht nieuws : 1. Het onderzoek deugt niet; 2. Het onderzoek richt zich slechts op een deel van het beleid; 3. De doelen van het beleid waren heel anders; 4. Het beleid is al bijgesteld, het onderzoek is achterhaald. Al deze beleidsreflexen heb ik de afgelopen jaren gezien, en ze zijn ook heel goed te begrijpen. Hoewel ik niet de illusie heb dat de relatie tussen onderzoek en beleid ooit zonder problemen zal zijn denk ik dat er zeker mogelijkheden zijn om het beleid verder te versterken met evidentie. In dat verband is de laatste jaren de term evidence based beleid in zwang geraakt (en helaas ook aan inflatie onderhevig geraakt). Evidence based beleid is wel degelijk mogelijk. Maar laat ik eerst aangeven wat evidence based beleid niet is. Ongewenste beleidsonderbouwing Het onderbouwen van staand beleid met onderzoek teneinde sterker te staan in het gevecht om de miljoenen / miljarden. Een voorbeeld. Nadat de recessie in Nederland hard had toegeslagen nam het aantal studenten in het hoger onderwijs fors toe. In onderzoek naar de stijging van de deelname aan hoger onderwijs werd echter de conclusie getrokken dat de stijging niets te maken had met de daling van de conjunctuur (Berger & Broek, 2010). Met als directe implicatie, de stijging van de deelname aan hoger onderwijs zou wel eens structureel kunnen zijn en derhalve structureel meer middelen vereisen. Hoe hebben de onderzoekers het effect van de conjunctuur vast - gesteld? Dit hebben ze gedaan door studenten te vragen naar de motieven voor hun deelname. Het belangrijkste motief was dat studenten zichzelf wilden ontwik kelen en dat heeft niet te maken met de conjunctuur. Als we dit onderzoek bekijken vanuit het potentiële uitkomsten model dan moeten we echter constateren dat in dit onderzoek geen poging wordt gedaan om een counterfactual te vinden. Het onderzoek verschaft ons geen enkel inzicht in de vraag wat deze studenten zouden hebben gedaan als de conjunctuur veel beter was geweest. Anders gezegd, op basis van eenvoudige methodo - logische criteria kun je vaststellen dat dit onderzoek ons niets leert over het effect van de conjunctuur op de deelname aan hoger onderwijs. Dit onderzoek lijkt uitsluitend bedoeld om middelen te claimen van de Rijksbegroting. Beleid wordt onderbouwd met onderzoeksgegevens maar niet om er van te leren. Dit type onderbouwing van beleid heeft niets te maken met evidence based beleid, sterker nog, dit soort onderzoek kunnen we beter achterwege laten 8. Een ander voorbeeld is het onderzoek over het effect van de extra middelen voor scholen met meer dan 70% achterstandsleerlingen, waarover ik u eerder al vertelde. Al voordat wij op het idee kwamen om de discontinuïteit rond 70% achterstandsleerlingen te benutten voor ons onderzoek was er, op verzoek van het ministerie, een evaluatie uitgevoerd (Beerends en Van der Ploeg, 2001). In deze evaluatie waren directeuren van scholen die de middelen gekregen hadden gebeld en gevraagd naar hun mening over dit nieuwe beleid. Meer dan 80% van deze directeuren dacht dat de subsidie effectief was. Verrassend vind ik dan dat ongeveer 20% van de directeuren dacht dat de subsidie niet effectief was. Deze studie speelde later een rol in de beslissing om de subsidie te continueren. Echter, ook bij deze studie is geen sprake van een counterfactual, en deze studie geeft ons weinig inzicht in het effect van dit beleid. Toen wij met onze resultaten kwamen over het effect van de extra middelen werden we niet met gejuich ontvangen bij het Ministerie. U kent de reflexen al. Het onderzoek deugde niet, het geld was helemaal niet bedoeld voor het verhogen van de Cito-scores en het beleid was al geëvalueerd. 9 Ik heb daaruit twee lessen getrokken. De eerste gaat over timing. Beleidsevaluatie is niet alleen een kwestie van geloofwaardige controlegroepen maar ook een kwestie van afstemming op het beleidsproces. Beleidsprocessen zijn rijdende treinen, als je beleid wilt helpen moet je op tijd instappen. De tweede les ging over extra middelen beschikbaar stellen voor scholen. Een beleidsreflex binnen het onderwijsveld is dat problemen worden opgelost met extra geld. We signaleren een probleem en dan wordt er ergens geld gevonden en beschikbaar gesteld, echter zonder duidelijke afspraken over resultaten. Deze reflex lijkt, sinds de commissie Dijsselbloem de autonomie van scholen en de professionals binnen scholen heilig heeft verklaard, alleen nog maar sterker 8 Overigens is in buitenlands onderzoek, waarin wel gebruik werd gemaakt van echte controle - groepen, wel degelijk gevonden dat een verslechtering van de conjunctuur leidt tot een stijging van de deelname aan onderwijs, zie bijvoorbeeld Rivkin (1995) of Black et al. (2005). 9 De resultaten leidden ook tot grote woede bij de toenmalige wethouder van onderwijs in Amsterdam Aboutaleb. Ook kreeg ons onderzoek veel kritiek vanuit de Stichting ICT op School omdat het niet zou voldoen aan de methodologische eisen van het What Works Clearing House. Dit was verrassende kritiek omdat ons onderzoek nu juist wel voldeed aan strenge methodologische eisen. Helaas konden we geen effect vaststellen van de extra gelden voor ICT. PROF.DR. H.D. WEBBINK 21

22 geworden. Ons onderzoek leerde dat het beschikbaar stellen van extra middelen, zonder duidelijke doelen en zonder duidelijke afspraken over de doelen, niet werkt. Dit resultaat is geheel in lijn met de klassieke conclusie van de Amerikaans onderwijseconoom Eric Hanushek: There appears to be no strong or systematic relationship between school expenditures and student performance (Hanushek, 1986). Heldere afspraken over verwachtingen en resultaten zijn in mijn ogen een onmisbaar element bij het beschikbaar stellen van extra middelen. Hoe dan wel? Maar hoe zou evidence based beleid er dan wel moeten uitzien? Hoe slagen we erin om beleid beter gebruik te laten maken van onderzoek. Uiteindelijk hebben beleidsmakers en onderzoekers toch hetzelfde doel: het verbeteren van de impact van de ingezette middelen. Evidence based beleid zou ik willen definiëren als beleidskeuzen baseren op geloofwaardige wetenschappelijke evidentie. Serieus proberen vast te stellen wat wel of niet werkt, en deze informatie gebruiken bij beleidsbeslissingen. In de economische literatuur die zich bezig houdt met beleidsevaluatie / impactmeting hangt geloofwaardigheid af van het onderzoeksdesign. Een difference-in-differences design is ongeveer de minimumnorm voor geloofwaardigheid. Deze norm heeft niet te maken met academische spielerei maar is ingegeven door de ervaring dat impact - meting gebaseerd op onderzoeksdesigns die nog sterkere aannamen maken een grote kans geven op foutieve conclusies. Evidence based beleid betekent niet alleen goed onderzoek doen maar vooral ook onderzoek beschikbaar hebben voor de beleidsbeslissingen. Om dit te bereiken is een goede afstem - ming tussen beleid en onderzoek noodzakelijk. Deze afstemming zou er al moeten zijn vanaf de start van het beleid. Ik wil ingaan op twee mogelijk - heden. worden naar de internationale ervaringen met deze instrumenten. Bij de beoordeling van deze ervaringen zou ik het meeste gewicht toekennen aan ervaringen die getoetst zijn met geloofwaardige onderzoeksdesigns. Vervolgens komt de fase aan de orde dat de nieuwe instrumenten in de Nederlandse context getest worden. In het onderwijs zien we dan vaak allerlei proefprojecten plaatsvinden. Dit is een periode die zich uitstekend leent voor het vergaren van kennis. Bijvoorbeeld, als pilots worden uitgebreid met controlegroepen kunnen eerste effecten worden vastgesteld. Deze controle - groepen kunnen worden gevormd door heldere toewijzingsregels te gebruiken, bij voorkeur loting, maar andere regels kunnen ook goed werken zoals moment van aanmelding of een ranking naar kwaliteit. Na de testfase van het beleid komt de implementatiefase. Ook hier zijn kansen voor beleids evaluatie. Het komt immers vaak voor dat beleid niet direct over de hele linie wordt inge - voerd. Zo werd bij de introductie van de Tweede Fase in het voortgezet onderwijs gestart met ongeveer 25% van de scholen. Een ander voorbeeld is het convenantenbeleid in Nederland gericht op de aanpak van voortijdig schoolverlaten, zoals ik hiervoor al heb besproken. Een gefaseerde invoering leidt ertoe dat sommige scholen al wel en sommige scholen nog niet te maken hebben met het nieuwe beleid, hetgeen kansen schept om goede controle - groepen te vormen. De kwaliteit van de evaluatie wordt nog beter als we ook precies weten waarom sommige scholen eerder kunnen beginnen dan andere scholen. De recente economische literatuur biedt verschillende internationale voorbeelden van studies die gebruik maken van een gefaseerde invoering om het oorzakelijk effect van beleid vast te stellen 10. Ik denk dat we in deze fase van het beleidsproces veel kansen laten liggen om al te leren van het beleid. De kansen voor serieuze evaluatie, en daarmee voor het genereren van belangrijke beleidsinformatie, nemen toe als er meer tijd wordt genomen voor de implementatiefase. Uiteraard zit hier een grote spanning met de beleidsdynamiek waar men resultaten wil zien of waar men geweldig enthousiast is geraakt over een bepaald project. PROF.DR. H.D. WEBBINK 23 Serieus werk maken van de eerste beleidsfase Alleen projecten financieren die zicht geven op de resultaten Beleidskeuzen kennen verschillende stadia: de keuze van thema s en instru - men ten, implementatie, voortzetting, aanpassing of stopzetting van beleid. Bij al deze stadia kan wetenschappelijke evidentie gebruikt worden. Op grond van mijn eerdere ervaringen denk ik dat de eerste stadia van het beleidsproces de meeste mogelijkheden bieden om gebruik te maken van wetenschappelijke kennis. Bij de keuze van beleidsinstrumenten kan gekeken De tweede mogelijkheid om beleid meer evidence based te maken is om gebruik te maken van de financiering. Dit kan door alleen projecten te financieren die zicht geven op de resultaten. Een mooi voorbeeld hiervan 10 Zie bijvoorbeeld Dearden et al. (2009) voor de evaluatie van de Educational Maintenance Allowance in het Verenigd Koninkrijk.

24 is het Social Innovation Fund van president Obama. Dit fonds financiert projecten die bijdragen aan sociale innovatie op het terrein van gezondheid, werkgelegenheid of jeugd 11. Projecten komen alleen voor financiering in aanmerking als ze gericht zijn op meetbare uitkomsten en de effecten op een geloofwaardige manier zichtbaar maken. Daarmee wordt bereikt dat de middelen impact kunnen hebben voor veel mensen en tegelijkertijd wordt een catalogus verkregen van benaderingen die werken. Ook interessant aan dit initiatief is dat het fonds wordt gevuld met zowel publieke middelen als met private middelen afkomstig uit de Goede Doelen sector. Door het Amerikaanse Institute of Education Science wordt een vergelijkbare benadering gekozen, met als doel evidentie te verkrijgen over wat wel en niet werkt in het onderwijs. Alleen projecten met een geloofwaardig evaluatiedesign worden gefinancierd. Deze aanpak lijkt nu ook navolging te krijgen binnen de Nederlandse Ontwikkelingssamenwerking, en dat vind ik een hele goede zaak. Binnen deze sector is de roep om resultaten te tonen de afgelopen jaren steeds luider geworden. Het beschikbaar stellen van middelen voor Ontwikkelingssamenwerking lijkt momenteel veel minder vanzelfsprekend dan in het verleden. Ontwikkelings - organisaties in Nederland wordt steeds vaker gevraagd om hun resultaten te laten zien. Dit heeft in de afgelopen jaren geleid tot vele evaluatierapporten maar de focus lag daarin nog niet op het vaststellen van de oorzakelijke effecten van projecten of programma s. De komende jaren is het echter te bedoeling om bij belangrijke evaluaties de focus te verleggen en gebruik te maken van een counterfactual en een nulmeting. Daarmee wordt de financiering van Ontwikkelingsorganisaties verbonden aan de zichtbaarheid van de resultaten, in lijn met het fonds van Obama. Deze benadering maakt het mogelijk om antwoord te krijgen op de cruciale vraag welke vormen van ontwikkelingshulp daadwerkelijk impact hebben. En dat is toch uiteindelijk wat we willen weten. Ik ben ook erg blij met een aantal nieuwe inspanningen die recent zijn geïnitieerd en die zicht geven op de effecten van beleid. Allereerst natuurlijk Onderwijsbewijs, dat ik hiervoor al heb genoemd. Een tweede inspanning die ik bijzonder vind is een project dat ik zelf de afgelopen maanden heb mogen doen samen met Marc van der Steeg, Roel van Elk en Frans-Bauke van der Meer. Wij hebben meegedacht over de opzet van een aantal nieuwe beleids - maatregelen op het terrein van onderwijs. Het doel daarvan is het beleid zodanig vorm te geven dat we evidentie kunnen genereren over de effecten. Het project moet uitmonden in een aantal evaluatieontwerpen die direct verbonden zijn aan de opzet van het beleid. Ik ben ook erg benieuwd of deze ontwerpen stand zullen houden in het geweld van de dagelijkse beleids - dynamiek. Ook de aanpak bij de zogenoemde Wijkscholen in Rotterdam verdient lof. De beslissing over voortzetting van de financiering is bij dit project afhankelijk gemaakt van de resultaten die worden vastgesteld met een serieuze evaluatie. Uiteraard zijn evaluaties niet gratis en zal bij de keuze van de evaluaties een kosten-baten afweging gemaakt moeten worden. Middelen die besteed worden aan evaluaties kunnen niet besteed worden aan andere, mooie doelen. Daar staat tegenover dat beleid dat niet werkt of projecten die niets toevoegen erg kostbaar zijn. Ik denk dat de kosten van evaluaties omlaag gaan als vanaf de start van het beleid wordt nagedacht over de toekomstige evaluaties. Vaak zijn gegevens al beschikbaar en soms zijn controlegroepen ook gewoon voor - handen. Het is vooral zaak om de kansen voor evaluatie te herkennen en deze in te bouwen in de opzet van het project. Aan een controlegroep hoef je immers in principe niets aan te bieden. Hoeveel middelen een evaluatie mag vergen heeft natuurlijk ook te maken met het belang van het project of beleidsinstrument voor de organisatie. Bij echte sleutelprojecten liggen serieuze evaluaties meer voor de hand. Serieus werk maken van beleidsevaluaties leidt onvermijdelijk tot slecht nieuws voor verschillende dossiers. Evaluaties zullen laten zien dat sommige beleidsinstrumenten slecht werken of helemaal niet werken. Hoe goed het beleid ook is voorbereid, er is nooit een garantie dat dit beleid daadwerkelijk effectief is in een nieuwe context. Echter, als tijdig kan worden vastgesteld dat de resultaten tegenvallen, kan grote schade worden vermeden. Een goede opzet geeft dus ook een early warning systeem. Ministers of bestuurders van Goede Doelen organisaties die zorgen voor zicht op de effectiviteit van beleid verdienen daarvoor in mijn ogen applaus. PROF.DR. H.D. WEBBINK 25 11 Zie www.nationalservice.gov/about/programs/innovation.asp

26 4. Onderzoeksagenda De onderzoeksagenda die ik de komende jaren wil uitvoeren bestaat uit het toepassen van moderne econometrische evaluatietechnieken voor beleid en projecten op het terrein van filantropie, gezondheid en onderwijs. Voor elk project of beleidsinstrument worden doelen vastgesteld. Vervolgens stellen we de effecten vast aan de hand van een geloofwaardig evaluatiedesign. Deze effecten betreffen niet alleen de doelgroep maar ook anderen dan de doelgroep. Met deze technieken zijn de afgelopen jaren ervaringen opgedaan op terreinen zoals onderwijs, arbeidsmarkt en ontwikkelingseconomie. Samen met Karen Maas, Kellie Liket, Frank Hubers, Job Harms en Lara Hemmes en ondersteund door de VFI hebben we het afgelopen jaar een start gemaakt met diverse evaluaties waaronder projecten rond de Johan Cruijff Courts, micro-financiering, trainingsprogramma s voor jongeren en maatschappelijke dienstplicht. Ik zie dit als een prachtig begin dat smaakt naar veel meer. Ik wil evaluaties uitvoeren die daadwerkelijk inzicht bieden in de effecten van beleidsinterventies of projecten en die bruikbaar zijn voor beleidsmakers. Om dit te kunnen bereiken zoek ik naar afstemming tussen beleid en onderzoek. Als bij nieuwe projecten of beleidsinstrumenten vanaf de start de insteek wordt gekozen om te leren over de effecten kunnen evaluaties van hoge kwaliteit tot stand komen. Deze lerende houding maakt het dan ook mogelijk om met deze evidentie de impact van de ingezette middelen te vergroten. In het beleid lijkt het tonen van acties of actieplannen vaak belangrijker dan het vaststellen van de daadwerkelijke resultaten van beleid. Ik denk dat het beleid gebaat is bij een verschuiving van actieplannen en monitoring naar serieuze evaluaties. Het gaat uiteindelijk niet om de acties maar om de echte resultaten van het beleid. Aan het begin van dit betoog stelde ik vast dat we nog weinig weten over de resultaten van de inspanningen van de Goede Doelen sector. Dat gaan we de komende jaren veranderen. Woorden van dank Tot slot wil ik deze rede beëindigen met enige woorden van dank 12. Geachte leden van het College van Bestuur van de Erasmus Universiteit, geachte decanen Professor Franses en Professor Yip, De Vereniging Trustfonds Zonder uw inspanningen en vertrouwen was deze leerstoel niet mogelijk geweest. Ik wil u allen hartelijk danken voor het in mij gestelde vertrouwen en ik zal mijn best doen om van deze leerstoel een succes te maken. Geachte mensen van Adessium Door jullie inspanningen en enthousiasme is het ECSP opgericht en is deze leerstoel mogelijk geworden. Ik ben geweldig blij met jullie steun en aanhoudende belangstelling. Daarvoor wil ik jullie hartelijk danken. Collega s van het ECSP Sinds april vorig jaar maak ik deel uit van het ECSP-team. Vanaf de eerste dag hebben Manuela Ettekoven en Charles Erkelens ervoor gezorgd dat ik me thuis voel, en ze hebben me de mooiste kamer heb van het hele H-gebouw gegeven. Ik geniet elke dag van de energie, de pluriformiteit en de vele discussies binnen het ECSP. Toen Lucas Meijs een jaar geleden zijn prachtige oratie uitsprak kon hij alle medewerkers nog noemen. Onder de bezielende leiding van Charles Erkelens is het ECSP inmiddels zo gegroeid dat ik dat maar achterwege laat. Ik ben blij dat ik lid ben van deze club en ik wil alle ECSP ers bedanken. PROF.DR. H.D. WEBBINK 27 12 Charles Erkelens, Frank Hubers, Rinke Perizonius en Bas ter Weel dank ik hartelijk voor commentaar op een eerdere versie van deze oratie. Li Riemersma dank ik voor zijn suggesties voor de titel van deze oratie.

28 Collega s van CPB, TIER, Erasmus School of Economics Vanaf 2000 heb ik bij het CPB mogen werken en ik ben altijd blij geweest dat George (Gelauff) en Marc (Pomp) mij hebben aangenomen. Het CPB heeft mijn liefde voor het economisch onderzoek aangeblazen. Ik heb veel geleerd van al die collega s, ik heb veel kansen gekregen en ik heb er ook enorm veel plezier gehad. Ik ben het CPB daarvoor heel dankbaar. Hetzelfde geldt voor de groep in Amsterdam rond mijn promotor Professor Joop Hartog, en de unieke initiatieven TIER, en SCHOLAR, die door Professor Henriette Maassen van den Brink en Professor Wim Groot tot stand zijn gebracht. Alle mensen die hierbij betrokken zijn wil ik hartelijk danken. Mijn nieuwe collega s van de Erasmus School of Economics wil ik bedanken voor de manier waarop ik ben ontvangen: professioneel en warm. Ik loop hier nog niet zo lang rond maar het bevalt uitstekend. De voortvarende wijze waarop Philip Hans Franses mij benaderde heeft op mij grote indruk gemaakt. Ik ben er trots op dat ik bij deze professionele organisatie mag horen en verheug me op de komende jaren. Lieve Sofie en Sanne Ik geef weleens het verkeerde voorbeeld. Jullie zijn voor Ajax, ik ben voor Twente. Toen Twente vorig jaar Ajax weer eens alle hoeken van het veld had laten zien rende ik juichend de tuin in. Jullie waren toen heel boos op me en jullie hadden gelijk. Zo n bejaarde moet zich kunnen beheersen. Ik ben ontzettend gelukkig dat ik jullie heb hoewel jullie me wel erg pesten met dat woord bejaarde. Lieve Rinke De laatste die ik bedank is de belangrijkste. Ik ben blij dat je met mij het experiment bent aangegaan. Jouw impact kun je misschien moeilijk meten maar ik voel het elke dag. Ik vind je de liefste vrouw. Ik heb gezegd. PROF.DR. H.D. WEBBINK 29 Hooggeleerden Oosterbeek en Visscher, beste Hessel en Peter Om stappen vooruit te kunnen maken in het leven moet je het geluk hebben dat je speciale mensen tegenkomt die je helpen, adviseren en uitdagen. Ik heb veel van jullie geleerd en het helpt als iemand tegen je zegt you are the worst collaborator I have ever had. Ik prijs me gelukkig dat ik jullie ben tegengekomen. Hooggewaardeerde co-auteurs en promovendi De afgelopen jaren heb ik met veel mensen artikelen kunnen schrijven. Zonder anderen tekort te doen wil ik Marc van der Steeg, Roel van Elk en Pierre Koning met name noemen. Ik heb veel plezier beleefd aan de samen - werking in de afgelopen jaren en wil die graag voortzetten. Ik ben ook erg blij met promotieplannen van Marc, Roel, Sander Gerritsen en Ted Reininga, en die van mijn ECSP-collega s Frank Hubers en Job Harms. Ik verheug me zeer op al ons nieuw onderzoek. Lieve ouders Ik beschouw het als een voorrecht dat jullie hier vanmiddag zijn. Jullie zijn er altijd voor mij geweest en hebben me altijd gesteund. Toen ik studeerde kreeg ik altijd een pakketje mee met kaas, worst en een pak koffie. Als ik nu weer zou gaan studeren zouden jullie precies hetzelfde doen. Jullie zijn voor mij een voorbeeld en daar ben ik jullie heel dankbaar voor.

Referenties Dearden, L., C. Emmerson, C. Frayne and C. Meghir, 2009, Conditional Cash Transfers and School Dropout Rates, Journal of Human Resources. Deaton, Angus. 2010. Instruments, Randomization, and Learning about Development, Journal of Economic Literature, 48(2): 424 55. PROF.DR. H.D. WEBBINK 30 Angrist, J.D and J Pischke, 2010, The credibility revolution in empirical economics: How better research design is taking the con of out econometrics, Journal of Economic Perspectives, 24 (2), 3-30. Antenbrink, P., K. Burger, M. Cornet, M. Rensman en D. Webbink, 2005, Nederlands onderwijs en onderzoek in internationaal perspectief, CPB Document 88. Beerends, H., and S. van der Ploeg, 2001, Onderzoek vergoeding school - specifieke knelpunten, Regioplan, Report OA-230. Berger, J.H.J. en Broek, 2010, Aanmeldingsgolf door crisis?, Analyse van studentenaantallen en studiemotieven 2009-2010, Research voor Beleid. Eissa, N. and Liebman, J., 1996, Labor Supply Response to the Earned Income Tax Credit, Quarterly Journal of Economics, 111(2), 605-37. Hanushek, E.A., 1986, The economics of schooling: production and efficiency in public schools, Journal of Economic Literature, vol. 24 (3) (September), pp. 1141 77. Hanushek, E.A., 2003, The failure of input-based schooling policies, The Economic Journal, 113 (February), F64 F98. Hanushek, E.A. and L. Woessmann, 2010, The Economics of International Differences in Educational Achievement, NBER Working Paper 15949, 2010. Heckman, James J.. 2010. Building Bridges between Structural and Program Evaluation Approaches to Evaluating Policy. Journal of Economic Literature, 48(2): 356 98. PROF.DR. H.D. WEBBINK 31 Black, D.A., McKinnish, T.G., Sanders S.G., 2005, Tight labor markets and the demand for education: Evidence from the Coal Boom and Bust, Industrial and labor relations review, 59 (1), 3-16. Card, D., 1990, The Impact of the Mariel boatlift on the Miami Labor Market, Industrial and Labor Relations Review, 43(2): 245-257. Chorny, V. and D. Webbink, 2010, The effect of accountability policies in primary education in Amsterdam, CPB Discussion paper no. 144. Holland, P, 1986, Statistics and causal inference (with discussion and rejoinder). Journal of the American Statistical Association, 81, 945 970. Imbens, Guido W., 2010. Better LATE Than Nothing: Some Comments on Deaton (2009) and Heckman and Urzua (2009). Journal of Economic Literature, 48(2): 399 423. Jin, G., & Leslie, P., 2003, The effect of information on product quality: Evidence from restaurant hygiene grade cards, Quarterly Journal of Economics, 118(2), 409-51. Cook, T. D., 2008, Waiting for Life to Arrive: A History of the Regression- Discontinuity Design in Psychology, Statistics and Economics, Journal of Econometrics 142, 636 654. Cullen, J.B., B.A. Jacob and S. Levitt, 2006, The effect of school choice on participants: evidence from randomized lotteries, Econometrica, 74, 1191-1230. Lalonde, 1986, Evaluating the econometric evaluations of training programs with experimental data, American Economic Review, 604-620. Leuven, E., M. Lindahl, H. Oosterbeek and D. Webbink, 2007, The effect of extra funding for disadvantaged students on achievement, Review of Economics and Statistics, 89 (4), 721-736.

Leuven, E., Oosterbeek, H. & De Wolf, I., 2009, The effects of health education on health outcomes: Evidence from a natural randomized experiment, in mimeo. PROF.DR. H.D. WEBBINK 32 Luginbuhl, R., D. Webbink and I. De Wolf, 2009, Do inspections improve primary school performance? Educational Evaluation and Policy Analysis, 31 (3), 221-237. Meyer, Viscusi, Durbin, 1995, Workers Compensation and Injury Duration : Evidence from a Natural Experiment, American Economic Review, vol 85(3), 322-40. Oosterbeek, H. and D. Webbink, 2010, Does studying abroad induce a brain drain? Economica, forthcoming. Rivkin, S.G., 1995, Black/White differences in Schooling and Employment, Journal of Human Resources, 30 (4), 826-852. Rubin, D. B., 1974, Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology, 66, 688 701. Rubin, D. B., 1977, Assignment to treatment group on the basis of a covariate. Journal of. Educational Statistics, 2, 1 26. Steeg, M.W.van der, R. van Elk en D. Webbink, 2010, Het effect van de lerarenbeurs op scholingsdeelname docenten, CPB Document no. 205. Steeg, M.W.van der, R. van Elk en D. Webbink, 2008, Did the 2006 covenant program reduce school dropout in the Netherlands? CPB Document no. 177. Vrieze, G., R. Kloosterman en N. van Kessel, 2001, Vroege Vogels, Onderzoek naar de gevolgen van het s ochtends kranten bezorgen voor de schoolprestaties en schoolbeleving van 15-jarige ochtendkrantbezorgers, ITS Nijmegen.