Wat ervan terecht komt Zicht op beleidsevaluatie

Transcriptie

1 Wat ervan terecht komt Zicht op beleidsevaluatie Prof.dr. Arno F.A. Korsten

2 VOORWOORD In de loop van 2012 bereikte mij het verzoek van het provinciebestuur van Noord Brabant om mee te denken met de verdere ontwikkeling van beleidsevaluatie door en voor de provinciale organisatie en het bestuur. Ik zou in 2013 een inleiding dienen te houden ten behoeve van topambtenaren en en een aantal functionele relaties van het provinciebestuur uit het maatschappelijk middenveld. Hierover en over de discussie naar aanleiding daarvan zou dan een brochure verschijnen in het licht van leren door evaluaeren. Op dat verzoek wou ik graag ingaan omdat ik over het onderwerp beleidsevaluatie en over de benutting van onderzoeksbevindingen in de loop der jaren gepubliceerd heb. Ik heb in de loop van de tijd namelijk zelf als opdrachtgever van evaluatieonderzoek gefungeerd (bij wetsevaluatie), zelf beleidsevaluaties verricht (onder meer op het vlak van innovatiebeleid) en ook als voorzitter of lid van een visitatiecommissie tal van visitaties van organisaties of organisatie eenheden uitgevoerd in Nederland en België, onder meer op het vlak van bestuurskracht. Dat leverde mij een schat aan inzichten op. Daarom besloot ik niet alleen in te gaan op een verzoek om een inleiding te houden maar ook een achtergronddocument op te stellen. Deze beschouwing is te beschouwen als dat achtergronddocument. Dit document geeft een overzicht van wat ik beschouw als de stand van zaken ten aanzien van beleidsevaluatie bij overheden. De verhandeling laat zich zelfstandig lezen. Ze is mogelijk ook van nut voor vele andere lezers, waaronder studenten. Arno Korsten, 7 april

3 Inhoudsopgave 1 Inleiding Veel beleid, toenemend aantal beleidsevaluaties Kanttekening Aantal evaluaties per jaar Een specialisme ontstaat Fase in de beleidscyclus Casus 1: Evaluatie van trage standpuntbepaling een tragedie Casus 2: Evaluatie als schoenlepel de Floriadesof Drie lessen Deel I: Algemeen 2 Evalueren: een introductie Wat evalueren is Wat beleidsevaluatie is Wat een gebruiksgerichte evaluatie is Terugblik op de casus Wat belicht wordt Klassieke beleidsevaluatie Voorwaarden voor effectiviteitsevaluatie Tot welke bevindingen leidt de effectiviteitsevaluatie? Dilemma: achteraf discussie vanuit andere criteria 3 Waarom evaluaties starten: de argumenten pro Argumenten De aanleiding voor evaluatie: over sunsets en meer 4 Functies en nevenfuncties van beleidsevaluatie Functies van beleidsevaluatie Nevenfuncties van evaluatie 5 Een stappenplan voor een klassieke beleidsevaluatie Stappenplan voor evaluatie Deel II: Typen beleidsevaluatie 6 De klassieke beleidsevaluatie: effectiviteitsanalyse Vertrek vanuit een beleidstheorie Formele evaluatie 7 De opzet van een klassieke beleidsevaluatie: enkele dilemma s Kan het zoals het moet of moet het maar zoals het kan? Wet van de evaluatieve gebreken 8 Het te vroege evaluatiemoment: early warning evaluation als oplossing Wat een early warning evaluation is Het waarom van early warning evaluation Voorwaarden Werkzaamheden Conclusie 9 De veelheid aan maatstaven: de normenbank en selectiviteit als oplossing Maatstavenvloed 3

4 Twee gevolgen: normenbank en code Maatstaven in een netwerkcontext Deel III: De keuze van een evaluatie opzet en de evaluatieladder 10 Er is meer dan de klassieke evaluatie: typen beleidsevaluatie op een rij Doelstellingsvrije beleidsevaluatie ex post Indelingen Toelichting: ex ante en ex post evaluaties Inputevaluatie als vorm van ex ante evaluatie Efficiency evaluatie als ex post of ex ante evaluatie Responsieve evaluatie Retrospectieve en prospectieve evaluatie ex post Van welke aard is het meeste beleidsevaluatieonderzoek? 11 De evaluatieladder: kiezen voor een lichte of zware evaluatie? Geen evaluatie nodig of slechts een sobere Zware evaluatie Pseudo evaluatie Deel IV: Ex post evaluatie nader bezien 12 Monitoring: laag op de evaluatielader Wat het is Conclusies 13 Benchmarking: hoger op de evaluatieladder Benchmarking, wat het is Plaats op de evaluatieladder Beoordelingskader Functies van benchmarking Voorwaarden Beperkingen en grenzen van vergelijking Waardering van benchmarking 14 Zelfevaluatie en visitatiecommissies: hoog op de evaluatieladder Plaats op de evaluatieladder Populariteit Condities en inrichtingsbeslissingen Beginselen van behoorlijk visiteren Geijkte praktijk Retrospectief en ook prospectief? Conclusie Deel V: Ex ante evaluatie nader bezien 15 Ex ante evaluatie 16 Een subtype van ex ante evaluatie: effectrapportages Deel VI: Leren van evalueren 17 De evaluatoren: wat ze kunnen leren van kritiek Te weinig bezinning op de opdracht Begrip van doelbereiking schiet tekort 4

5 De keuze van de centrale maatstaf De reikwijdte van het onderzoek Veldkennis te gering? Te weinig nieuws? Te weinig prospectief Wat is daar nog als reactie op mogelijk? Alternatief 1 Responsieve evaluatie: rekening houden met belanghebbenden Alternatief 2 Evaluatie als argumentatie Alternatief 3 Netwerkgericht evalueren Alternatief 4 Lerend evalueren: leren in een beleidsnetwerk Conclusie 18 De ambtenaren en bestuurders: wat ze doen met evaluaties Drie manieren om gebruik te analyseren Gebruiksfuncties van beleidsevaluaties Aanzienlijk gebruik Welke kennis meest gebruikt: doelbereikingsanalyses of procesevaluatie? Wat werkt in op gebruik of benutting? Naar een lerende cultuur 19 De politici: wat ze doen met evaluaties Stelling Bij welke type volksvertegenwoordigers evaluatie past Omgaan met een opdracht De beleidsevaluatie ligt er. En dan? De aard van de kwestie doet ertoe Adviezen Conclusies 20 Leren door evalueren en wat leren belemmert Omschrijving van beleidsleren Aspecten van leren Leergradaties Hoe het leren plaatsvindt Belemmeringen voor leren Conclusie Deel VII: Capita selecta en samenvatting 21 Denkpistes: beleidsevaluatie in relatie tot benaderingen van beleid 22 Samenvatting Literatuur 5

6 6

7 1 INLEIDING Om maar direct met een stelling te beginnen: waar veel beleid ontstaat en vastgesteld wordt, is er behoefte aan beleidsevaluatie. Hiervoor bestaan diverse argumenten. Het argument van onzekerheid. Veel beleid zal niet het doel bereiken omdat het een sprong in het duister is (Bovens en t Hart, 1996; 2001). De vraag wordt dan waarom het lukt om succes te hebben met beleid of niet lukt? En politiek wordt een zaak van repareren, zoals Hans Wansink (20 juli 2002) terecht stelt. We kunnen wel een voedsel en warenautoriteit oprichten maar toch bleek sprake van gekke koeienziekte (BSE), van verpakte producten waarin paardenvlees zat dat niet op het etiket voorkwam, van verkoop van waterige tomaten en plofkippen, van producten met het ehecbacterie gevaar, etc. Evaluatie en maatregelen gevraagd. Argument: ontrafel het fiasco. We kennen natuurlijk bij zo veel beleid ook beleidsmiskleunen. Er kunnen schandalen volgen en crises, beleidsaffaires en beleidsfiasco s. Het aantal daarvan neemt historisch gezien toe. Enkele afkortingen en namen laten dit indicatief zien: RSV affaire (scheepvaart), paspoort affaire, CTSV affaire, Kalkar, GBA (bevolkingsadministratie niet op orde), WBL (woningcorporatie), Ceteco (ambtenaar maakt geld van geld), klimaatverandering en broeikaseffect (cie Van Middelkoop rapporteerde er over), integratiebeleid (cie Blok maakte een analyse), tbs stelsel, grote infrastructuurprojecten (cie Duivesteijn ging in op de overschrijdingen in tijd en budget en op andere aspecten), onderwijsvernieuwingen (cie Dijsselbloem over succes en falen), zorguitgaven (cie Mosterd), privatisering en verzelfstandiging (cie Kuipers over succes en falen), Icesave, onderzoek naar het financieel stelsel (cie De Wit over bankencrisis), onderhoud en innovatie op het spoor (waarom zoveel vertragingen?), de Fyra kwestie (ondeugdelijke trein?). Argument van beleidsverstrengeling. Beleid roept als vanzelf de noodzaak van evaluatie op. Daarmee komt een volgend argument pro evaluatie naar voren. Waar veel beleid is, gaat dit verstrengeld raken en stapelen en als een beleidsvoerder dan wil ingrijpen, wil hij of zij een cognitieve basis daarvoor hebben. Die behoefte kan onder meer vervuld worden door een beoordeling van beleidsprocessen op effecten. Ik licht dit toe. Veel beleid, toenemend aantal beleidsevaluaties De overheden zijn in de tweede helft van de vorige eeuw beleid op tal van fronten gaan maken in het kader van de ontwikkeling van de welvaartsstaat en de doorontwikkeling naar een verzorgingsstaat. Er kwam verdere onderwijs en arbeidsmarktpolitiek van de grond, en er kwamen tal van wetten op het gebied van sociale zekerheid; om een vangnet te scheppen voor werklozen en voor gehandicapten, etc.. De beleidsproductie is onder invloed van andere omstandigheden, zoals economische crises en andere crises, doorgegaan. Er trad ook volop beleidsverandering op. Veel beleid is tegenwoordig zelfs een kwestie van policy change. Hoe de beleidsverandering te typeren? 1. De eerste vorm heet beleidsinnovatie. Een beleidsprogramma is nieuw en raakt niet aan bestaand beleid. Er wordt een nieuw gebied betreden. Humaan omgaan met op het strand aangespoelde potvissen? Een protocol voor hoe hiermee om te gaan? Het onderwerp kwam in het parlementair jaar in de Tweede Kamer aan de orde. 2. De tweede vorm van beleidsverandering is de integrale of partiële beleidsbeëindiging: beleid stoppen of budgettair inkrimpen of qua doelgroep beperken. 7

8 3. En de derde vorm noemen we beleidsopvolging. Het meeste nieuwe beleid is beleidsopvolging. Het ene beleid vloeit als het ware over in een nieuw beleid. Deze policy succession kan tal van vormen aannemen. 1. Een vorm van beleidsopvolging is replacing : het voorbeeld van oude schoenen maken plaats voor nieuwe schoenen is wat bedoeld wordt. Denk aan de Bescherming Bevolking (BB) die in de jaren tachtig van de vorige eeuw is ingeruild voor de Rampenbestrijding en civiele verdediging. 2. Een andere vorm van beleidsopvolging is policy split, een uitsplitsing van bestaand beleid in nieuw afzonderlijk beleid. Denk bij voorbeeld aan podiumkunstenbeleid dat uiteengaat in beleid voor ballet, beleid voor orkesten, voor toneel, voor cabaret, etc. Denk aan de ontwikkeling van milieubeleid tot specifiek beleid voor de bodem, de lucht, het oppervlaktewater, de zee, etc. 3. Een derde vorm van beleidsopvolging is policy integration. Een aantal wetten wordt bij voorbeeld na enige tijd samengevoegd tot een nieuwe wet, de opvolger. Zo zijn milieuwetten afgeschaft en is het onderwerp van die vorige wetten opgegaan in een integrerende Wet milieubeheer. Soms komen combinaties van gedeeltelijke beëidiging en opvolging voor. Beleid wordt bij voorbeeld gedecentraliseerd (heroriëntatie) onder gelijktijdig inkrimping van de middelen (krimp). Zoals in 2012/2013 is voorgesteld door minister Plasterk in samenspraak met vakministers ten aanzien van de decentralisaties op het vlak van jeugd, zorg (AWBZ) en werk (Participatiewet). Dan verandert de institutionele setting en is sprake van beleidsopvolging in combinatie met partiële beëindiging. Kanttekening Een bijzonder fenomeen is het volgende. Het aantal verwijzingen naar wetten neemt sinds pakweg 1980 toe. Dat heet beleidsverstrengeling of Vernetzung. Speelt beleidsevaluatie hierin nog een rol? Aan een gerichte beleidsverandering ligt vaak een beleidsevaluatie ten grondslag en niet zelden ook aan de uitvoering van beleid. Beleidsevaluatie speelt zeker een rol bij het stoppen van beleid. Gebleken is dat wie beleid wil stoppen aan drie voorwaarden moet voldoen om betrekkelijk snel succes te hebben: 1. het ideologisch tij moet gunstig gezind zijn, 2. er moet een ombuigingsnoodzaak bestaan en 3. er moet een beleidsevaluatie ten grondslag liggen aan een nieuw beleidsvoorstel. Drie voorwaarden dus, die bij voorkeur gelijktijdig moeten voorkomen. Beleidsevaluatie is ook wenselijk om twee bijzondere redenen. Goed beleid vraagt om meer beleid en slecht beleid vraagt om een correctie. De rechtvaardigingsgrond voor dergelijke aanpassing zal vaak in een beleidsevaluatie te vinden zijn. Aantal evaluaties per jaar In welke orde van grootte moeten we ons die beleidsevaluatie op rijksniveau voorstellen? Te denken is aan een pakweg 300 evaluaties per jaar op rijksniveau (Bongers en Den Hertog, 2007: 30). Met de toename van beleid en de toenemende verstrengeling van beleid en verandering in de aard van het beleid (meer beleidsopvolging) is de beleidsevaluatie toegenomen. Logisch, want 8

9 uit veel evaluaties zal komen dat beleid maar gedeeltelijk een succes is en zich leent voor ombuigingen of heroverwegingen. Ook de omvang van de wetenschappelijke literatuur over evalueren is gegroeid. Een specialisme ontstaat Beleidsevaluatie groeide na de jaren zestig in de vorige eeuw uit tot een vakgebied, een specialisme. Drie indicaties: Er kwamen nieuwe tijdschriften van de grond met de naam Evaluation. Er verschenen internationaal boektitels met koppen als Public Policy Evaluation en Evaluierungsforschung. Het ministerie van Financiën ging via de afdeling Beleidsanalyse beleidsevaluatie pushen. Het gebied groeide ook onder invloed van ontwikkelingen in overheidsland zelf. Er is al het een en ander over gesteld. Meer beleid, meer verstrengeling van beleid: wordt het beoogde dan bereikt? Fase in beleidscyclus Tegenwoordig is beleidsevaluatie een regulier onderdeel geworden van wat heet de beleidscyclus. De beleidscyclus bestaat uit probleemanalyse, beleid ontwerpen, besluitvorming, beleid uitvoeren, beleid beoordelen op effectiviteit, beleid stoppen (als het probleem verdwenen is of opgelost is) of beleid aanpassen. Die cyclus zit weliswaar in de hoofden van veel topambtenaren van de rijksoverheid, provincies, gemeenten, waterschappen maar de praktijk is een andere. Een provinciale topambtenaar zei me in 2013: Toen ik nog op een departement werkte, lieten we wel ex ante evaluaties verrichten maar hier op de provincie is dat duidelijk veel minder gebruikelijk. Ook ex post evaluatie hangt er wat bij. Dat zou niet zo moeten zijn want in de beleidscyclus volgt vanzelfsprekend na enige tijd een bezinning op beleid. Dan is beleid sleets, of niet sleets maar het beleid is uitgewerkt, of er is van alles een beetje sprake: de noodzaak tot ombuiging, en knelpunten in de beleidsuitvoering. En of het beleid nu opnieuw zou worden uitgevonden, als die vraag vandaag gesteld zou worden, is dan misschien ook zeer de vraag. Deze ambtenaar zei me ook: Er is eigenlijk meer beleidsevaluatie nodig. We moeten af en toe halt houden. En dan is het handig als er een speciale afdeling is voor beleidsevaluatie. Die afdeling kan af en toe eens langs komen en vragen naar wat echt aan evaluatie onderworpen moet worden en die kan zo een evaluatie ook zelf uitvoeren. Ik repliceerde: Ik begrijp dat. Maar dan vinden jullie zo n afdeling weer lastig. Dan parkeren jullie de beleidsevaluatie daar. Zijn reactie: Ja, dat zou kunnen maar dat is natuurlijk niet de bedoeling. Hoe dan ook moeten er meer evaluaties plaatsvinden. En het evalueren is vakwerk. Dat kunnen de meeste provincieambtenaren niet want die hebben uiteenlopende professionele achtergronden. Velen zijn ongeschikt voor dit odnerzoekswerk. En een slager moet het eigen vlees niet keuren. Dus een afdeling moet niet zowel het beleid ontwikkelen als 9

10 beleiden als ook nog eens evalueren. Dan ontstaat de neiging om beleid goed te beoordelen omdat dit een herbevestiging geeft van het nut van de eigen afdeling. Kijk eens hoe goed wij het doen. Ik weer: Er was toch al een beleidsevaluatiecommissie: Ja, ik meen van wel maar dat was een commissie van Provinciale Staten. Niet verkeerd. De politiek heeft het primaat. Maar zo een commissie zorgt niet voor een gangbare opname van beleidsevaluatie in de beleidscyclus waar ambtenaren bij betrokken zijn. Evalueren moet gericht zijn op betrokkenheid van alle relevante actoren: ambtenaren, GS en PS en niet te vergeten ook nog van degenen die meewerken aan het beleid, zoals andere overheden. De conclusie is duidelijk. Beleidsevaluatie verdient evident meer prioriteit, zoals ook de commissaris des konings van Noord Brabant, de bestuurskundige Wim van de Donk, tegen me zei. Kent beleidsevaluatie zelf niet ook een cyclische ontwikkeling? Inderdaad. Na enige tijd werd de afdeling Beleidsanalyse van Financiën opgeheven. Beleidsevaluatie was gemeengoed geworden en het ministerie van Financiën moest zelf ook bezuinigen. Dus verdween ook het tijdschrift Beleidsanalyse, dat door Financiën werd uitgegeven. Daarentegen ging de Algemene Rekenkamer juist meer beleidsevaluaties verrichten, iets was voor 1970 niet gebeurde. En deze rekenkamer hield stug vol. Conclusie: Beleidsevaluatie is inmiddels gewoon geworden maar kan wat injectie in provincies en gemeenten wel gebruiken. Zijn er ook overtuigende argumenten pro evaluatie als je enkele casus beziet? Twee amusante casus worden kort belicht. Casus 1: Evaluatie van trage standpuntbepaling een tragedie In de jaren tachtig kreeg ik schrijver dezes de opdracht van enkele departementen om met enkele collega s onderzoek te doen naar het in de steigers gezette nationaal technologisch innovatiebeleid. Er was juist een nationale (rijksbrede) innovatienota verschenen, de eerste. Enkele topambtenaren vonden dat als je een nota opgetuigd had met veel ambities en instrumenten er eigenlijk ook een op evaluatie gericht onderzoeksprogramma aan gekoppeld moest worden om te zien of je met de nota op de goede weg was of moest bijstellen. Een van de geprioriteerde projecten betrof het onderwerp de opstelling van een onderzoeksprogramma naar biotechnologie. De programmacommissie onder leidign van prof. Schilperoort had snel werk verricht om tot zo n programma te komen. In een maand of drie, vier lag er een kloek programma dat evenwichtig was en steun bij universitaire vakgroepen die op het gebied van biotechnologie onderzoek deden, genoot. De standpuntbepaling van de regering vergde echter ruim een jaar, vier keer zo lang als het opstellen van het programma zelf. Dat leidde tot verwondering en verbazing, zeker omdat de oorzaak daarvoor niet leek te liggen in de inhoud van het programma. Waarom duurde het proces van departementale standpuntbepaling zo verschrikkelijk lang, ook volgens tal van ambtenaren? Dat moest ik onderzoeken, samen met iemand die thuis was in de biotechnologie. We bekeken het rapport Schilperoort, analyseerden vergaderstukken van de commissie die het regeringsstandpunt moets voorbereiden en hielden interviews met departementsambtenaren die deelnamen aan de voorbereiding van het 10

11 standpunt. Ons rapport verscheen. De begeleidingscommissie toonde zich tevreden met ons rapport. Een van de vermelde inzichten was dat de interdepartementale samenwerking niet goed was verlopen. Er waren zeker drie departementen betrokken bij de standpuntbepaling. Relevant bleek vooral: de voor het programmadocument eerstverantwoordelijke minister voor Wetenschapsbeleid zou bij de volgende verkiezingen voor de Tweede Kamer vermoedelijk verdwijnen, zo was de inschatting in politiek en ambtelijk Den Haag, en daarmee zou het onder zijn leiding ressorterende programma verschuiven, dat wil zeggen elders opgehangen worden. Dan zou het beleid ten aanzien van biotechnologisch onderzoek verschuiven naar het ministerie van Economische Zaken (EZ) en daarom liepen de betrokken EZ ambtenaren niet hard om nog voor de Kamer verkiezingen een standpunt te hebben. Ze traineerden het proces. Het ging hen niet alleen om macht maar ook om een standpunt dat paste in het komende EZ beleid. Dat was in de concepten nog niet het geval want het ministerie van Landbouw bemoeide zich er ook mee en dat van Onderwijs; die hingen tegen. Een casus vol bureaupolitieke strijd, zogezegd. Het was een bijzondere ontdekkingstocht voor mij. Een illustratie van wat in de boeken over bureaucratietheorie te lezen was. Ook een illustratie van een inzicht uit de pastorale psychologie: verpleegsters lopen niet hard meer als ze weten dat de patiënt dood gaat. Was dit eigenlijk wel een evaluatieonderzoek? Blijken zal van wel. Het is immers een evaluatie van een beleidsproces, namelijk een totstandkomingsproces van beleid. Het antwoord wordt verderop nader toegelicht. In feite was het een bijzondere evaluatie. Casus 2: Evaluatie als schoenlepel de Floriadesof De meest gangbare evaluaties zijn evaluaties van beleid in uitvoering. Dan gaat een evaluator op zoek naar de vraag of prestaties en daarop volgende effecten sporen met de voorgenomen beleidsdoelstellingen en wat een discrepantie verklaart. Daarvan is ook een voorbeeld te geven. In het begin van deze eeuw viel na een krachtige lobby uit Noord Limburg het besluit om de Floriade in Noord Limburg (Venlo) te laten plaatsvinden. De tuinbouwtentoonstelling zou goed passen bij een oriëntatie op nabij gelegen agrobusiness in Greenport, logistieke dienstverlening en een grote tuinbouwveiling en er zelfs een injectie voor zijn. Het gebied rond Venlo, in feite geheel Noord Limburg, zou nog beter op de kaart komen te staan. Het organiseren van de tentoonstelling zou ook energie vrij maken voor andere initiatieven en de regio zelfs zelfbewuster maken, volgens sommige bestuurders. De voorbereidingen startten en er kwam er een Floriade bv met een directie, een raad van commissarissen en de gemeenten in de rol van aandeelhouders. In het begin van 2012 liep de Floriade op het oog ook redelijk goed. Tal van internationale hoogwaardigheidsbekleders van overheidszijde, onder andere uit Turkije, vereerden de tentoonstelling met een bezoek. De media berichtten. Er werden veel kaartjes aan bezoekers verkocht. De weersomstandigheden waren redelijk en Noord Limburg liep er ook voor uit. Was het genoeg? Werden de gewenste aantallen bezoekers gehaald? Was de grote tuinbouwtentoonstelling ook een financieel succes? Dat was altijd wel de bedoeling geweest. Het provinciebestuur had geholpen met budget dat oorspronkelijk een herindelingspremie voor Noord Limburg was ; het geld kreeg in feite een nieuwe bestemming. Maar dat bedrag was helemaal niet genoeg. Hoewel de eindafrekening toen dit geschreven werd nog moest volgen, barstte eind 2012 veel kritiek los van de zijde van gemeenten, die zich garant hadden gesteld om tekorten te dekken. Er waren 11

12 wel vrij veel bezoekers geweest maar een aantal bezoekers was abonnementhouder. Sommige bezoekers hadden de Floriade wel een keer of twintig bezocht. Ze werden wel als bezoeker geteld maar betaalden niet per keer. En het was bepaalde weken vrij fris geweest, wat de bezoekersaantallen had getemperd. Algemeen directeur Becks liet positieve geluiden horen ( niet te vroeg jammeren ; wacht op de eindafrekening ) maar er waren ook tegengeluiden. Hij zag de bui echter hangen, vertrok eerder naar een nieuwe baan in Rusland en zei af te willen zien van een prestatiebonus, als die al zou worden toegekend. Hij had die bonus niet hoeven te weigeren want het zag er toch al naar uit dat hij die nooit gekregen had van de aandeelhouders, gezien de Floriadestorm die opstak. Het evenement had miljoenen aan verliezen geleden. Wie betaalt, bepaalt, maar ook het omgekeerde geldt: wie bepaalt, krijgt ook de verliezen op zijn bord. Waarom werden de hooggestemde verwachtingen niet waargemaakt? En door wie zijn op welk momenten verwijtbare fouten gemaakt die de financiële tekorten hebben veroorzaakt? De gemeenten die hebben meebetaald en de tekorten op hun bord krijgen, wilden weten hoe de zaak uit de hand kon lopen. Hoewel een onderzoek de tekorten niet wegwerkt, en mosterd na de maaltijd is, moest dat onderzoek er wel komen: een onderzoek naar doelbereiking en waarom de doelstellingen niet bereikt werden? Lag het verlies aan zaken waarop de directie invloed had kunnen uitoefenen (o.a. de opzet van de tentoonstelling zelf, het imago; de marketing in binnen en buitenland; de aard, omvang en prijsstelling van shuttles en consumpties; de omlijsting met evenementen op het terrein; parkeerfaciliteiten; parkeermogelijkheden) of waarop geen invloed mogelijk was (temperatuur; weersomstandigheden in termen van zonne uren, regen, wind; etc.). Had de directie voldoende en tijdig de vinger aan de pols gehad en had ze signalen ontvangen om nog tijdig bij te sturen en ook echt bijgestuurd? Had de raad van commissarissen adequaat geopereerd naar de directie? Drie lessen Wat leert deze casus? Ik geef drie inzichten. Het eerste inzicht slaat op multi gebruik van de evaluatie in het Floriadenetwerk. De evaluatie is niet slechts voor één actor bestemd maar voor tal van betrokken partijen in het Floriadenetwerk. Die moeten er lering uit trekken. De evaluatie is bestemd voor de Floriadedirectie, de raad van commissarissen en de aandeelhouders. En in feite voor alle betrokken gemeentebesturen want de vertegenwoordigers van de gemeenten in de aandeelhoudersvergadering moeten met hun boodschap ( opdraaien voor verliesaandeel ) naar de gemeenteraden. En die raden wensen tekst en uitleg. Die kunnen individuele wethouders en burgemeesters niet geven. Daarom is een onafhankelijk onderzoek nodig. Het onderzoek moet de achterlanden in het gareel brengen. Het tweede inzicht slaat op het schoenlepel effect: dat er een rekening in een schoen geschoven moet worden en dat er geen voet te vinden is die de schoen wil aantrekken. De evaluatie moet de schoenlepel zijn die er voor zorgt dat de schoen toch wordt aangetrokken. We noemen het officieel neutraler, namelijk de verantwoordingsfunctie van een evaluatieonderzoek. Een dwaas onderzoek? Nee, want er was een schoenlepel nodig om de gemeenteraden zo ver te krijgen dat ze de rekening willen betalen in tijden van financiële krapte. Maar rijker zijn in feite die evaluaties die ingebed zijn in de beleidscyclus en waarbij het evaluatieonderzoek nog kan leiden tot aanpassingen of vernieuwing in beleid of desnoods het (gedeeltelijk) stoppen van beleid (dus te komen tot policy change ). 12

13 Het derde inzicht luidt: bestuurders willen leren waarom het mis ging. Nuttig? Ja maar de kans om het een volgende keer beter te doen, komt in dit geval niet. De tuinbouwtentoonstelling was namelijk eenmalig, althans in Noord Limburg. Het is dus leren in het luchtledige. Bij de organisatie van een volgende Floriade, als die er komt, zal het dan aantredenende organisatienetwerk proberen te leren van de Floriade die in Noord Limburg georganiseerd was. 13

14 DEEL I: ALGEMEEN 14

15 2 EVALUEREN: INTRODUCTIE Wat evalueren is Hoe zouden we evalueren omschrijven? Evalueren is beoordelen of in andere woorden iets op waarde beoordelen of schatten. Beoordelen doe je van iets dat is waargenomen, dus als er sprake is van een voorstelling van een bepaald verschijnsel. Wie beoordeelt, heeft bovendien maatstaven of criteria voor beoordeling nodig. Daarmee zijn drie elementen van alle evaluatie duidelijk: een onderwerp (een waargenomen verschijnsel), de waarneming zelf, maatstaven of criteria ter beoordeling van een waargenomen verschijnsel (Bressers en Hoogerwerf, 1995: 21). Evalueren doen mensen op een bijna vanzelfsprekende manier, zonder er altijd bij stil te staan. Wie in een sloot kijkt, neemt wellicht waar dat sprake is van bruin uitziend troebel en niet stromend water. Deze waarnemer hanteert als veronderstelling dat vervuiling meestal leidt tot bruin water. Zijn oordeel zal luiden vervuild en ongezond. Hij zal, als hij een boer met vee is er daarom van afzien om paarden of koeien te laten drinken uit deze sloot. Ander voorbeeld. Evalueren van Q koorts, hoe gaat dat? Dan moet er eerst iets zijn waargenomen dat als Q koorts geldt, vervolgens zijn criteria nodig over of en wanneer de koorts goed of slecht is (lees: een kritische waarde overschrijdt) en wat de gevolgen zijn. Eerst dan valt er te oordelen of bij voorbeeld Q koorts vanzelf overgaat of actief bestreden moet worden, en of wellicht preventieve maatregelen nodig zijn. De elementen onderwerp, waarneming, criteria voor beoordeling komen ook hier dus weer terug. Wat beleidsevaluatie is Het voorgaande ging over evaluatie maar wat is beleidsevaluatie bij of door een overheid? Beleidsevaluatie bij een overheid slaat op het op een systematische manier beoordelen van overheidsbeleid. Het woord systematisch wordt hier toegevoegd om daarmee een onderscheid aan te brengen met impressionistische of impulsieve evaluatie. Impulsief uitgevoerde beleidsevaluatie of zo maar een greep voeren we daarmee direct af. De literatuur geeft verder aan: beleidsevaluatie van overheidsbeleid is het beoordelen van beleidsprocessen zoals bij voorbeeld de probleemanalyse of de totstandkoming van beleid, de beleidsinhoud, de organisatie van het beleid of effecten aan de hand van bepaalde maatstaven of criteria (cf Bressers en Hoogerwerf,1995: 21). De lezer ziet hier de onderdelen uit de beleidscyclus terugkeren. Elke fase of onderdeel leent zich voor een beleidsevaluatie. Tot beleidsprocessen behoren daarmee: het proces van beoordeling van de agendering van een beleidsonderwerp, de beoordeling van een specifieke probleemanalyse, de beoordeling van de totstandkoming van beleid en het ontwerpproces, de beoordeling van de besluitvorming, de beoordeling van de inhoud en organisatie van de beleidsinvoering en beleidsuitvoering, 15

16 en de beoordeling van de beleidsdynamiek in de vorm van gedeeltelijk of geheel stoppen van beleid of beleidsaanpassing of beleidsinnovatie. In geval van het beoordelen van overheidsbeleid kan een beoordelaar dus een aantal kanten op. Er zijn keuzen te maken en accenten te zetten. Overheidsbeleid is bij voorbeeld te bezien op de aansluiting op een probleem dat aanleiding was voor de totstandkoming van een beleid: is het beleid een effectief antwoord op het probleem doordat het maatschappelijk probleem (vervuild water?; Q koorts?) verdwijnt of kleiner wordt? Het overzien van de evaluatieliteratuur toont dat evaluaties op bijna alle terreinen van overheidsbeleid voorkomen, zoals bij voorbeeld bij begrotingsbeleid, jeugdzorg, detentie en resocialisatie, rechtshandhaving, alcoholcontroles, verkeersveiligheidsbeleid, gezondheidszorg, integratiebeleid, de wet maatschappelijke ontwikkeling, ouderenbeleid, natuurbeleid, megastallenproblematiek, verplaatsing van agrarische bedrijven, mestwetgeving, betaald voetbal. Noem maar op. Wat een gebruiksgerichte evaluatie is Beleidsevaluatie kan bog twee kanten op: op een wetenschappelijk kennisdoel gericht zijn of gebruiksgericht zijn. Hier gaat het om gebruiksgerichte beleidsevaluatie. Gebruiksgerichte beleidsevaluaties zijn evaluaties waartoe op de een of andere manier opdracht is verleend of die al bij de start door een overheidsbestuur zijn gelegitimeerd en vaak ook door een overheid gefinancierd worden. Hieronder vallen in principe beleidsevaluaties van de Algemene Rekenkamer en evaluaties van andere rekenkamers of rekenkamercommissies. Patton (1997) spreekt van utilisation focused evaluation. Terugblik op de casus Hoe nu naar de eerder gegeven casus te kijken? De studie naar de totstandkoming van een ministerieel standpunt over het biotechnologieprogramma, hoewel als opdrachtresearch verricht vanuit een universitaire vakgroep bestuurskunde, was een voorbeeld van een gebruiksgerichte studie, die vooral gericht was op verheldering en de boodschap zo nooit meer. Concrete andere gevolgen kon die studie verder niet meer hebben. De nevenfunctie van deze evaluatie was dat de opdrachtgever direct liet zien dat de evaluaties van de Innovatienota gestart waren en dat er durf werd opgebracht om kritisch naar het innovatiebeleid te kijken. Is in geval van de casus over biotechnologie sprake van beleidsevaluatie? Zeker, het betrof een analyse van een totstandkomingproces van een regeringsstandpunt. Deze totstandkoming werd onder meer bezien op het criterium voortgang en interdepartementale coördinatie en coöperativiteit en de verklaring van gebrekkige voortgang. Deze beschouwing handelt verder over gebruiksgerichte beleidsevaluatie, met name richt ik me op de beoordeling van gewenste en ongewenste effecten van beleid, dat in uitvoering is of kan komen. Dat in de wetenschap dat evaluatie betrekking kan hebben op andere beleidsprocessen, beleidsinhoud, de beleidsorganisatie en de beleidseffecten. Wat belicht wordt Drie aspecten van beleidsevaluatie komen aan bod. Beleidsevaluatie is te zien als product, proces en procedure (Pröpper, 2001: 146). Ik licht dat toe. Beleidsevaluatie als product verwijst naar een rapportage die het resultaat is van de evaluatie: de beoordeling van beleid, de toelichting en argumentatie. 16

17 Beleidsevaluatie als proces verwijst naar de handelingen die leidden tot een bepaald resultaat, het product. Hier kan het gaan om de formulering van de evaluatievraag, de keuze van de beoordelingsmaatstaven of evaluatiecriteria, de interactie tussen evaluatoren en opdrachtgever, de relatie tussen evaluatoren en betrokkenen. Hoe uitgebreid is het forum dat betrokken wordt bij de beoordeling. Beleidsevaluatie als procedure verwijst naar de methodische opzet. Klassieke beleidsevaluatie De klassieke beleidsevaluatie is een beoordeling achteraf van de resultaten en effecten van een in uitvoering zijnd beleidsprogramma en een antwoord op de vraag of die effecten bereikt worden door het beleidsprogramma zelf of door gebeurtenissen, omstandigheden of oriëntaties daarbuiten. Doorgaans zullen de gewenste effecten onderzocht worden. Dan vormen de officiële doelstellingen dus het vertrekpunt, want officiële doelstellingen zijn gewenste of beoogde effecten. Deze doelstellingen zijn al voorafgaand aan de democratische besluitvorming geformuleerd. Ze staan bij voorbeeld in een Memorie van Toelichting op een wet en passeren dus de Tweede en Eerste Kamer. Deze klassieke beleidsevaluatie noemen we een effectiviteitsevaluatie. Ze omvat de doelbereikingsanalyse (ook wel goal attainment analysis genoemd) plus de oorzakelijkheidsanalyse (ligt het bereiken van doelstellingen aan beleid?). Voorwaarden voor effectiviteitsevaluatie Om een dergelijke klassieke beleidsevaluatie te kunnen verrichten zouden idealiter de volgende voorwaarden vervuld moeten zijn. 1. Er moet sprake zijn van een before aftermeting, zodat verschillen te zien zijn die door het betreffende beleid veroorzaakt worden. 2. De before aftermeting wordt verricht bij een controlegroep en een of meer experimentele groepen. De interventie vindt plaats in de experimentele groep en in de controlegroep is die afwezig. Het beleid geldt dus niet voor alle burgers. 3. Achter het te evalueren beleid gaan daadwerkelijk doelstellingen zijn. 4. Deze doelstellingen zijn ook de echte. En er komen er gaande de uitvoering geen bij. 5. Deze doelstellingen zijn stabiel. Ze verschuiven niet in de tijd. Je kunt je erop verlaten. 6. De doelstellingen zijn smart geformuleerd: Specifiek, Meetbaar, Aanvaardbaar, Realistisch, Tijdgebonden. Een onderzoeker moet immers bij voorkeur over een operationalisatie van doelstellingen kunnen beschikken. 7. De overheid is een unicentrische overheid. De overheid die beleid uitvoert zit zelf volledig aan de knoppen ; ze beschikt over alle taken, bevoegdheden en middelen. Van een beleidsnetwerk, waarbij de betreffende overheid niet over alle doorzettignsmacht beschikt, is geen sprake. Er zijn geen afhankelijkheden. Niemand kan vetomacht uitspreken en beleid dwarsbomen of vertragen. 8. Onderzoekers zijn ideale professionals: ze opereren onafhankelijk, ze beschikken over zowel veldkennis als kennis van overheidsbestuur en vaardigheid van methodologie en onderzoeksmethoden, ze krijgen de volle medewerking van alle betrokkenen bij de overheid en daarbuiten, ze beschikken over een ruim budget om het onderzoek op te 17

18 zetten en uit te voeren en ze formuleren de resultaten, al of niet in een apart leesbare samenvatting en een modnelinge toelichting, op een gebruiksgerichte manier. 9. Gebruikers kijken naar de bevindingen van de beleidsevaluatie uit. Ze gaan actief op zoek naar het rapport en bestuderen de resultaten zodra het rapport verschenen is individueel en bespreken het in een relevante groep. Tot welke bevindingen leidt de effectiviteitsevaluatie? Ik kom vaak de volgende bevindingen van klassieke beleidsevaluaties of effectiviteitsanalyses tegen: een beleidssucces, een beleidsfalen, een gedeeltelijk succes of falen, het resultaat is satisficing (politici aanvaarden de bevindingen, ze leggen zich erbij neer), of we weten het niet precies. Bijna nooit is sprake van een evident succes. Vooral het omgaan met wicked problems, dus met hardnekkige problemen ( brandende kwesties, controverses ), is problematisch. Denk aan de bestrijding van voetbalvandalisme. De oorzaken voor miskleunen liggen volgens de effectiviteitsanalyses bijna altijd bij de overheid zelf (Bovens & t Hart, 1996, 2001). Logisch, want er is vanuit een unicentrisch overheidsperspectief vertrokken; niet uitgegaan van een beleidsnetwerk. De effectiviteitsevaluaties leiden nogal eens tot tot de volgende waarnemingen: weinig doeltreffend beleid, teveel ambitie en daarmee hooggegrepen doelstellingen, overoptimisme over kostenbeheersing of aantallen bezoekers, aan bepaalde doelstellingen geen middel verbonden, mismanagement, ondoelmatig uitgevoerd beleid, duur, de veronderstellingen over het kunnen bereiken van doelstellingen bleken onjuist, diffuse verantwoordelijkheden (Bovens & t Hart, 1996, 2001; Leeuw, 2008). Is het werkelijk zo dat de overheid bij beleidsevaluatie overal de schuld van heeft of krijgt? Ligt het aan de politici, aan de ambtenaren, aan het beleid, aan de burgers? Op dit vlak is een aantal stellingen te formuleren. Het ligt bij het niet bereiken van beleidssucces aan de gestegen verwachtingen van burgers ( rising expectations ). Burgers zien dat de welvaart toeneemt, de middelen voor informatievoorziening (ICT), voor nadenken (scenario s etc.), voor deliberatie. Waar zoveel meer kan dan vroeger verwachten (sommige) burgers voor elk probleem een oplossing. Misschien zijn beleidsdoelstellingen met het beleid wel in enigerlei mate bereikt maar aan de verwachtingen is niet (helemaal) voldaan. Daarmee sluipen dus ook verwachtingen als criterium de evaluatie of nabespreking binnen. Het ligt aan politici: die beloven teveel. De beleidsdoelstellingen blijken te hoog gegrepen. Terugschroeven? Het ligt aan ambtenaren: die willen hun afdeling aan het werk houden, blijven budget opmaken en denken vanuit hun functie (padafhankelijkheid). Dus als beleid geen succes is, zullen ze niet pleiten voor nieuw beleid (wat dat inhoudt is ongewis) maar bestaand beleid willen voortzetten met meer en/of betere middelen. Het ligt aan de toerusting. Het had met het beleid kunnen lukken als er meer aandacht was geweest voor.de beleidsontwerpkwaliteit, en voor meer competentie.en meer budget. Het ligt aan de adviesorganen en wetenschappers: het aantal maatstaven om beleid te beoordelen is de laatste decennia toegenomen. Er is altijd wel een maatstaf waar een beleid niet aan voldoet. Zo gezien, kan beleid bijna niet een succes worden. Hoe dit ook gezien wordt, we worden samen steeds kritischer. 18

19 De tijdfactor. Wat eerst nog als voldoende werd beoordeeld, daar wordt later geen genoegen meer mee genomen. De tolerantie voor falend overheidsbeleid neemt af (Bovens & t Hart, 1996). Het ligt aan de overheid: teveel hooi op de vork. Het ligt aan de gebrekkige interactie: als beleidsvoerders eens beter zouden luisteren naar de werkers in de frontlinie of de burgers die de regeling moeten uitvoeren dan Het ligt aan de omstandigheden: gewoon pech gehad. Het ligt aan de wenselijkheid van meer toezicht en beter kijken: eens goed kijken want het lukt ze (de gezagsdragers die minder gezag verdienen) vast niet. Misschien is dat allemaal waar. Dan is politiek een kwestie van repareren. Met dat kijken, stoten onderzoekers ook op bijvangsten. Ze stoten op zaken die niet kloppen maar niet het hoofdonderwerp van onderzoek waren. Zo bleek bij een analyse van SNS dat ook sprake was geweest van fraude. Dan ontstaan er natuurlijk ook rationalisaties voor beleidsfalen, zekere ontkenningen en mystificaties. Risico s zijn onvermijdelijk. Je kunt geen omelet bakken zonder eieren te breken. Waar gehakt wordt, vallen spaanders. Wat op korte termijn een miskleun lijkt, kan op langere termijn anders uitpakken. Het had niet gemoeten maar de basis is gelegd onder mijn voorganger. Beleid maken is een kwestie van vallen en opstaan. De gemeenteraad is volop geïnformeerd; we dragen met zijn allen schuld. Als je nu maar lering trekt uit deze zaak, dan zal het de volgende keer beter gaan. Dilemma: achteraf discussie vanuit andere criteria Als de doelstellingen bereikt worden, is te spreken van een beleidssucces. Maar vaak is het resultaat een beetje mistig. En dan wordt de discussie achteraf ook nogal eens in andere termen gevoerd dan voorafgaand aan de besluitvorming. Een voorbeeld. Casus Megabanenmarkt Een aantal jaren terug meldt De Volkskrant (281002) over het fenomeen Megabanenmarkt. Deze markt was in Amsterdam gehouden. De Banenmarkt moest de sociale dienst uit het slop trekken door tienduizend bijstandsontvangers om te toveren tot werkzoekenden. Het werden er 4100, waarvan dertienhonderd een baan vonden. Negentig werkgevers hadden meegewerkt en vijfhonderd ambtenaren hadden zich ingezet om de operatie te laten slagen. De voorstanders van de Banenmarkt vonden het resultaat een succes: beter een half gevulde hand dan een lege hand, bij wijze van spreken. De tegenstanders riepen dat de markt mislukt was. Op basis van dezelfde cijfers. De tegenstanders: 1. De verwachtingen waren te hooggestemd geweest. Vier op de tien bijstandstrekkers waren bij nader inzien geheel of gedeeltelijk arbeidsongeschikt. Uiteindelijk gingen er 4100 bijstandstrekkers in procedure. 2. Ongeveer 2500 mensen kwamen helemaal niet opdagen op de markt, wat illustreerde dat sommige mensen ten onrechte in de kaartenbakken hadden gezeten. 3. Kosten van het houden van de markt: 70 miljoen euro. 19

20 Voorstanders: 1. Door de markt zijn 7000 uitkeringen beëindigd. Dat doorrekenend naar uitkeringen per jaar betekent dit 73 miljoen. De kosten zijn met een bedrag van 70 miljoen lager dan het totaal van uitkeringen. 2. De markt heeft meer inzicht opgeleverd wat we met deze bijstandstrekkers kunnen. 3. De dossiers zijn over het algemeen ook opgeschoond. 4. De sociale dienst kon een impuls gebruiken. Dat is gelukt. Is het eerlijk dat de discussie na afloop in andere termen gevoerd wordt? Een evaluator zal aarzelen want hij moest uitgaan van de officiële doelstellingen. Politieke vertegenwoordigers en bestuurders denken echter meestal in andere termen over een beleidsprogramma dan in termen van de officiële doelstellingen zoals die ooit geformuleerd werden en door een gemeenteraad geaccordeerd zijn. Waarom? 1) De tijdgeest kan verschoven zijn. 2) Een probleem is in omvang toe of afgenomen. 3) De electorale cyclus duurt vier jaar en deze actoren hebben misschien niet aan de wieg van een beleidsprogramma zoals de banenmarkt gestaan. Ze kennen de doelstellingen niet eens en zijn opportunitisch. Ze kiezen die criteria die hun politiek uitkomen. Zie daar een vraagstuk waar een evaluator mee moet omgaan. Advies: evalueer niet uitsluitend in termen van oorspronkelijke doelstellingen maar betrek andere criteria erbij. Wat betekent het evaluatieresultata in termen van andere perspectieven? 20

21 3 WAAROM EVALUATIES STARTEN: DE ARGUMENTEN Voro evaluatie kunnen vaak veel argumenten opgevoerd worden. Waaraan valt te denken? Evaluatie is nuttig als gevolg van de financiële gang van zaken in overheidsorganisaties. Daarom kende het ministerie van Financiën decennia terug al een afdeling die zich bezighield met beleidsanalyse. Daarin was een prominente plaats ingeruimd voor evaluatiestudies (en ook voor heroverwegingen). Maar ook om andere redenen is evaluatie nuttig. Ik geef een aantal redenen voor evaluatie. 1. Het heroverwegingsargument: Evaluaties kun je als afd. financiën laten verrichten omdat je dat beleid wilt opsporen dat je ingekrompen wilt zien als er ineens bezuinigd moet worden. Het is handig voor een minister van Financiën of een wethouder Financiën om op elk moment over een lijst te beschikken van falend beleid of geslaagd beleid en uitgewerkt beleid. De evaluatie verschaft de verantwoordelijke bestuurder dan mogelijkheden om in begrotingsonderhandelingen suggesties te doen. 2. Het begrotingsargument: Tegenwoordig bevatten programmabegrotingen van gemeenten en provincies een antwoord op de drie W s: wat willen we, wat doen we ervoor en wat mag het kosten? Dan wordt evaluatie een logische vier component die antwoord geeft op: wat levert het op? Het antwoord daarop is weer van invloed op de eerste W: wat willen we? En zelfs voor de tweede W: wat doen we ervoor? 3. Het verantwoordingsargument: Waar gaat het geld voor het beleid eigenlijk heen? Wordt het goed besteed? Wordt het geld wel gebruikt waarvoor het bedoeld was? Als een project financieel uit de hand gelopen is, moeten partijen bereid gevonden worden om de rekening te betalen. De evaluatie moet de schoenlepel zijn om de schoen aan te trekken, lees het verlies te dragen: het schoenlepel effect van beleidsevaluatie. 4. Het argument om beleidshomeopathie te bestrijden: Achter beleid gaan vaak ongetoetste veronderstellingen over doel middelrelaties schuil. Bijvoorbeeld: als we iemand een straf geven na een vergrijp of misdrijf zal dat heilzaam werken; na een straf neemt de kans op recidive af. Dat is een veronderstelling. Het kan nuttig zijn om te evalueren of veronderstellingen achteraf gezien juist zijn geweest. Zijn ze niet juist dan is het beleid mogelijk een vorm van charlatanerie. Beleidsevaluatie is een hulpmiddel om beleidshomeopathie te bestrijden (Leeuw, 2008). 5. Het meerwaarde argument: Van nieuw beleid is veelal niet duidelijk wat de meerwaarde is bovenop het beleid dat al bestaat of wat maatschappelijke processen al doen zonder overheidsinterventie. Een evaluatie van bij voorbeeld een subsidie kan dan duidelijk maken of organisaties een subsidie eigenlijk wel nodig hadden of deze slechts aanwenden om zo het budget dat hiervoor voorzien was aan iets anders te besteden Beleidsevaluatie kan substitutie effecten aan het licht brengen. 6. Het ik wil stoppen argument : Evaluatie is ook om geheel andere reden nuttig. Wie na verloop van tijd nadenkt over beleid stoppen of niet stoppen, bezuinigen op beleid of anderszins beleid denkt te gaan aanpassen (doelgroep inkrimpen of uitbreiden, middelen wijzigen, etc.) zal er niet omheen kunnen om te beschikken over onderzoek naar de beleidsuitvoering en beleidseffectiviteit. Evalueren dus (Brewer & DeLeon, 1983). Zo werd na evaluatie de Beeldende KunstenaarsRegeling (BKR) afgeschaft en de Wet Investeringsrekening. 21

22 7. Het ik ben klaar argument : Beleid evalueren is ook nuttig om te achterhalen of beleid effectief is en uitgewerkt (bv. een dam is aangelegd, een maanprogramma in de ruimtevaart is gerealiseerd, een ziekte is bestreden) of nooit effectief zal worden. In beide gevallen is bezinning en een verhaal nodig: gaan we het beleid stoppen of gaan we toch door? 8. Het argument van het gelijke speelveld: Een comparatieve evaluatiestudie naar een bepaald (zelfde) beleid in twee of drie landen kan aan het licht brengen welke instrumenten andere landen inzetten en daarmee bereiken en hier niet worden ingezet. In verband met een discussie over level playing fields is het nuttig beleidshiaten op te sporen. Dit argument speelde bij voorbeeld in de jaren tachtig van de vorige eeuw bij het technologisch innovatiebeleid van de rijksoverheid. Ik heb het zelf gehoord. 9. Het argument van zicht krijgen op onbedoelde voor of nadelen: Beleid kent vaak neveneffecten, aldus de rechtssocioloog Kees Schuyt. Als die neveneffecten gunstig zijn, kunnen ze een argument vormen om tegenvallende resultaten op het vlak van de hoofddoelstelling te compenseren. In geval van neveneffecten zul je wel een bepaalde aanpak moeten kiezen anders kom je niet achter ongewenste effecten. Zie de casus Megabanenmarkt. Opschonen van bestanden van werkzoekende cliënten bleek een grotendeels bereikt positief nevendoel. 10. Het ik wil bijsturen argument: Wie beleid ontwikkelt, wil bijsturen als dreigt dat de uitvoering niet de goede gewenste kant opgaat. Daarvoor kan een early warningevaluation zijn hebben. 11. Het show argument: Veel beleidsevaluatie is bedoeld om de resultaten ervan zo mogelijk direct en op korte termijn te benutten. De argumenten pro evaluatie laten dat zien. Het komt echter wel voor dat dit niet het geval is. Evaluaties worden ook wel eens gestart omdat ze een onderdeel van een breder beleid betreffen waarvan verondersteld wordt dat het juist een succes is. Beleidsvoerders kunnen belang hebben bij een showeffect, omdat beleidssucces dan afstraalt op een breed programma en een verantwoordelijke bestuurder. Anders gesteld: beleidsvoerders hebben helemaal niet het voornemen om een beleid aan te passen of te stoppen of uit te breiden. Leerdoelstellingen zijn er niet echt. Ze willen alleen laten zien hoe goed het beleid is. De aanleiding voor evaluatie: over sunsets en meer In de Verenigde Staten gelden andere rigoreuze argumenten. Bijna alle beleid wordt stelselmatig aan evaluatie onderworpen omdat beleid een sunset of horizon kent. Beleid stopt na enkele jaren automatisch ( policy termination ). Het loopt altijd af ; de valbijl valt. Maar voorafgaand aan de valbijlwerking is er een verplichte evaluatie. Die evaluatie kan reden zijn om het beleid toch voort te zetten. De evaluatie is namelijk de opstap naar een politieke discussie. In veel staten wordt een dakpansconstructie gevolgd. Elk jaar komt als het ware vanzelf, vanwege sunset legislation, een deel van het totaal aan beleidsprogramma s in aanmerking voor evaluatie. In Nederland kennen we de constructie van sunset legislation niet zo, maar wel komen vaker evaluatiebepalingen voor. Denk nationaal maar aan wetten als de Wob, WUB en Wabm die zo n artikel kenden. 22

23 Afgezien daarvan, hoe staat het met provinciaal of gemeentelijk beleid? Er zijn in Nederland geen decentrale overheden die alle beleid evalueren, ook niet volgens een dakpansgewijze aanpak. 23

24 4 FUNCTIES EN NEVENFUNCTIES VAN BELEIDSEVALUATIE Er is na het voorgaande iets bekend over wat evalueren is, wat een klassieke beleidsevaluatie is, wat de condities zijn voor het succesvol evalueren, vanuit welke criteria te evalueren valt en wat zoal de argumenten pro evalueren zijn. Er is ook al een dilemma genoemd bij evalueren. Wat zijn de functies van evalueren? Functies van beleidsevaluatie Is het verstandig om na te denken over functies van beleidsevaluatie? Zeker. Ik geef een voorbeeld. Er is onderzoek gedaan naar om en nabij 500 vooral buitenlandse evaluaties van beleidsprogramma s gericht op geweldspreventie en het tegengaan van geweld in de openbare ruimte. Van die programma s waren er slechts 9 effectief (Van der Knaap e.a., 2006, 2008; Leeuw, 2008). Wat doelgericht bleek was hot spots policing : doelgericht politieoptreden. En leren bleek nuttig: kijk zelf hoe dingen uitpakken en doe het dan beter. Veel beleidsevaluaties laten zien dat beleidsinterventie amper of geen doel treft (Leeuw, 2008: 26). Gebruiksgerichte beleidsevaluatie is dus zo gezien urgent. Beleidsevaluatie kan natuurlijk om allerlei redenen verricht worden en functies hebben. 1) Het kwaliteitsargument. Of een beleidsinterventie werkt of niet werkt, weet een overheid vaak pas achteraf, zeker als er voorafgaand aan een beleidsinterventie geen experiment heeft plaatsgevonden om uit te vinden of en hoe de interventie werkt (Leeuw, 2008: 25). Als het onbekend is of iets werkt, is het in het algemeen verstandig uit een oogpunt van kwaliteit van politiek bestuur om te achterhalen of beleid werkt of niet. Als allerlei beleid niet werkt zoals beoogd is, moet terugkoppeling plaatsvinden omdat het schadelijk is, in geval van schaarste, om door te gaan met dwaze voornemens die niet werken. Beleid dat niet beantwoord heeft aan doelstellingen en verwachtingen moet gestopt worden. Doorgaan werkt verspillend en verloederend. 2) De leerfunctie. Evaluatie heeft in potentie een leerfunctie. Leeuw, Sonnichsen en Rist bepleiten in Can governments learn? meer aandacht voor evaluatie als middel voor leren. Leren betekent dat na evaluatie ook een grondige bezinning plaatsvindt in ambtelijk bestuurlijke kringen op het geëvalueerde vraagstuk en pogingen worden gedaan tot het stoppen van beleid, tot opvolging of een andere beleidsverandering ( policy change ; zie Hogwood & Peters). 3) De verantwoordingsfunctie. Beleidsevaluatie kan een middel zijn dat dient voor verantwoording (van ingezette budgetten) naar de samenleving. Immers, er mag verwacht worden dat het budget dat gaat naar tal van beleidsprogramma s ook de moeite waard was, is en zal zijn. Veelal gaat het immers om gebruik van belastinggeld van burgers. 4) De politieke massagefunctie in een netwerk. Een evaluatie is soms niet wat het lijkt. De evaluatie van de Floriadesof moest de handreiking zijn om te rechtvaardigen dat een gemeenteraad bijdroeg aan het verlies en het dagelijks bestuur van elke gemeente uit de wind bleef (aan ons lag het niet). In feite moeten de politieke fracties met het onderzoek gemasseerd worden om de beurs te trekken voor een verlies. 5) De functie van feedback loop. Ter wille van feedback in een politiek systeem is discussie van belang over de vraag of een beleidsinterventie iets uitmaakt of dat de 24

25 beleidsinterventie juist sterker moet worden doorgezet of beleid net zo goed of zelfs beter kan worden afgeschaft. In een politieke democratie moet bezinning plaatsvinden. Beleidsevaluaties leveren dus denkstof op voor opstellers van nieuwe verkiezingsprogramma s. Nevenfuncties van evaluatie Kunnen evaluaties, zoals van onafhankelijke onderzoekers of visitatiecommissies, ook onbedoelde en ongewenste effecten hebben? Inderdaad. In de literatuur over prestatiemanagement wordt hier betrekkelijk veel aandacht aan besteed (bijv. De Waal en Kerklaan, 2004: 79 88). Ik volsta hier met enkele mogelijke effecten te noemen: het opluchtingseffect, het ossificatie effect, de prestatieparadox, het proceduralisme effect en het McDonaldization effect. 1) Het opluchtingseffect. Wat zich bij evaluatie wel voordoet is dat er officieel wordt gesteld dat evaluatie gericht is op verantwoording en op leren maar dat de werkelijkheid een stuk cynischer is. Mensen lopen soms niet warm voor de evaluatie omdat men de wet van de tolerantie voor suboptimaliteit kent. Die wet houdt in dat elke organisatie in bepaalde onderdelen of opzichten niet helemaal voldoet aan de gewenste standaarden maar dat wordt door de vingers gezien zolang het maar niet uit de hand loopt. Die wet werkt indirect door in evaluaties. Soms is evaluatie met een visitatiecommissie een zware gang die bestuurders en anderen moeten maken, waarbij leren voor hen geen hoofdzaak is (immers, men worstelt al met suboptimaliteit). De deelname aan een visitatie is soms onvermijdelijk omdat juist het niet deelnemen aan een benchmarking, monitoring of visitatieproces vragen oproept. Maar men is vaak weer blij als de evaluatie erop zit en men weer gewoon verder kan. Immers bestuurders kennen de sterkten en zwakten van een organisatie of elementen of aspecten vaak wel, maar men beseft ook je moet wel de goede mensen vinden (vacatures?), en een team moet een team zijn maar dat valt niet altijd af te dwingen (een organisatie zit vol menselijke zwakten) of er kan zich plotseling een incident voordoen met impact en dat kun je niet plannen. Kortom, het streven naar leren kan concurreren met de dagelijkse praktijk van hozen. Dat impliceert dat evaluaties soms wel als een opluchting worden gezien, onder het motto he,he, dat hebben we ook weer gehad. 2) Het ossificatie effect: beleidsevaluatie kan de mogelijkheid tot innoveren remmen of tot angst om te innoveren leiden (Leeuw, 2001: 77). De leerfunctie van beleidsevaluatie is heel belangrijk maar bezinning en het zich los maken van het bestaande is niet eenvoudig? Er is namelijk veel padafhankelijkheid ( path dependency ; Werle, 2007). Beleid is doorgaans geen pennestreek op een leeg vel: waarheen je beleidsmatig heengaat, wordt sterk bepaald door waar je vandaan komt. Dat wijst op padafhankelijkheid. Anders gesteld: beleidsprocessen worden voorgestructureerd door historisch gegroeide gewoonten, tradities, heersende normen en waarden, bestaande regels en werkwijzen. En 25

26 bedenk: er is vaak al een beleid waardoor een beleidsvoorstel een uitbouw van het bestaande beleid of een aanpassing ( beleidsopvolging ) of terminatie is, of een replacing (nieuwe schoenen voor oude). Deze eerdere groei en deze vroegere keuzen beperken het andere te zien en leggen beperkingen op om zich los te maken van een eenmaal ingeslagen weg. Beleidsevaluaties zijn vaak evaluaties van voortgang op hetzelfde pad en brengen geen andere route in beeld. Een voorbeeld van wat padafhankelijkheid is in de praktijk. Dat de schoolstrijd van begin twintigste eeuw opleverde dat bijzondere scholen mogelijk werden, impliceerde dat een weg gebaand werd naar verzuiling, dus naar onderscheid tussen algemeen en bijzonder onderwijs op katholieke of protestants christelijke grondslag, die tot in de 21 ste eeuw doorloopt. Dat heeft onder andere negatieve effecten gehad: doordat wat de een kreeg, de ander niet onthouden mocht worden, is het onderwijs duurder geweest dan in geval er alleen openbaar onderwijs was geweest (zie het proefschrift van Koelman uit 1987; promotor was de hoogleraar en latere onderwijsminister Jo Ritzen). Is dit ossificatie effect concreet aangetroffen? Rapportages over verricht benchmarkonderzoeken leiden zelden of nooit tot het volledig op zijn kop zetten van het beleid van de organisatie (Abma en Korsten, 2009). Deze rapportages bevatten doorgaans ook geen aanbevelingen. Vaak omvat een rapport de vergelijking van 10 of 15 organisaties. Wil men de vergelijking begrijpen dan moeten gebruikers een eigen verhaal maken over hun eigen organisatie, dus een vertaalslag. Dat bevordert doorwerking van benchmarking niet. Als deze al tot aanpassingen van beleid leiden is dat doorgaans een zaak van stukjes en beetjes. 3) De performance paradox kan optreden (Van Thiel en Leeuw, 2003). Wie voortdurend prestaties evalueert, denkt te kunnen verbeteren maar kan op een bepaald moment niet verder verbeteren. Er komt als het ware een steeds verdere afvlakking van de meeropbrengst. En organisaties die grossieren in evaluaties zijn na verloop van tijd niet meer vanzelfsprekend de beste of meest effectieve organisaties. Waarom? Om drie redenen. Ten eerste, de betrokkenen bij evaluatie leren zich instellen op evaluaties (Leeuw, 2001: 76). Denk aan de politie die beter moest presteren. Dan gaat men verkeerscontroles houden en vliegen de prestaties in termen van aantallen bonnen met sprongen omhoog. De politie gaat makkelijke vangsten organiseren. Een pervers effect van performance meting. Ten tweede, wie presteert en evalueert en zich verbetert, kan op een gegeven moment nauwelijks nog verder verbeteren. En organisaties die zwak presteren kunnen, vanuit de wet van de stimulerende achterstand en evaluatief geïnspireerde verbeterinitiatieven, ineens sprongen vooruit maken en de al langer goed presterende organisatie bijna inhalen. Het gevolg kan zijn dat de zich steeds evaluerende organisatie zich bijna niet meer kan onderscheiden van de organisatie met minder prestaties (die na enkele evaluaties ineens grote sprongen maakte). Een derde mogelijkheid is dat de organisatie die aan evaluatie wordt onderworpen de onderdelen waarop ze slecht scoort af gaat snijden. Scholen doen het volgende: beter leerlingen op vier vwo een jaar over laten doen dan laten zaken voor een eindexamen. Waarom? Ze zouden anders de examenresultaten in het vijfde jaar toch maar bederven. Universiteiten neigen ertoe vakgroepen met weinig onderzoeksoutput op te heffen of samen te voegen met een andere groep. Wat constateer ik op grond van de analyse? De performanceparadox is in verband met beleidsevaluatie nog niet (empirisch) waargenomen. Dan zouden evaluaties een zeer grote invloed gehad moeten hebben. Waarom om andere redenen dan wel die performanceparadox 26

27 kan of zal optreden? Omdat new public management heeft geleid tot prestatieafspraken. Overal waar prestatieafspraken over aantallen ontstaan, komt de neiging tot perverse effecten op. Als een overheid onderwijsinstellingen financiert op diploma s bevordert dat de tendens om toch vooral diploma s te verstrekken ook in die gevallen dat dit niet gerechtvaardigd is. 4) Het proceduralisme effect. Er is nog een vierde neveneffect van evaluatie te noemen. Het is mogelijk dat voortdurende evaluatie van beleid leidt tot steeds meer verbeteringen die niet betrekking hebben op de veronderstellingen achter een bepaald beleid maar tot next best verbeteringen in termen van processen, zoals: meer verantwoording, meer dash boards om de voortgang van een beleid te volgen, (nog) meer monitoring, meer protocollen (Leeuw, 2001: 79). De evaluator vlucht door middel van aanbevelingen in een cumulerend procesfetisjisme (of in andere woorden een proceduralisme effect). Dat kan onwenselijk zijn omdat zo een verdere bureaucratisering ontstaat. Wat constateer ik ten aanzien van het proceduralisme effect? Dit effect komt zeker voor naar aanleiding van evaluaties (Leeuw, 2001). Hoe dat kan? Omdat procedures veranderen makkelijker gaat dan de beleidsinhoud veranderen. 5) Het McDonaldization effect. Ik kom bij een vijfde neveneffect. De McDonalds restaurants worden gekenmerkt door dat ze op alle plaatsen in de wereld hetzelfde leveren: niet meer, niet minder, niet anders. Een BigMac is overal dezelfde BigMac. Zo kan het ook gaan in de evaluatiewereld. Evaluatie kan uitwijzen dat een bepaald doelstelling niet gehaald is. Het gevolg daarvan kan dan zijn dat via organisatievergelijking toegewerkt wordt naar steeds hetzelfde resultaat dat wel haalbaar is. Een voorbeeld is te vinden bij de politie. Een politie agent die op straat werkt, moet per dag gemiddeld zus en zoveel bonnen uitschrijven. Ook voor andere street level bureaucrats kan deze kwantificeerbare aanpak ontstaan. Volgens Ritzer is hier sprake van de irrationality of rationality. Het effect van McDonaldization kan optreden bij een organisatie met lopende band processen (bij een machinebureaucratie om de indeling van Mintzberg in organisatietypen te volgen) maar niet bij een geheime dienst of een sterk op stimulering, coördinatie en samenwerking gerichte provinciale organisatie. Samenvattend, we moeten de kans op het optreden van deze neveneffecten niet overdrijven. Het effect van de performanceparadox ligt niet steeds op de loer bij alle typen organisaties. Maar de kans is wel groter dat padafhankelijkheid optreedt en leerprocessen remt die juist out of the box denken vragen (Werle, 2007). Proceduralisme acht ik wel een dreigend effect. De Algemene Rekenkamer is zich hiervan bewust geworden, zo meldt de voormalige directeur Frans Leeuw (2001) ons. 27

28 5 EEN STAPPENPLAN VOOR EEN KLASSIEKE BELEIDSEVALUATIE Hoe zou een stappenplan voor beleidsevaluatie eruit kunnen zien? Ter eerste oriëntatie een houtskoolschets. Een provinciebestuur heeft een medewerkster aangenomen die tot taak krijgt om een provinciaal beleidsprogramma op het gebied van (uitvoering van) sociaal economisch beleid te evalueren. Vraag 1: Hoe kan ze te werk gaan? Wie weinig van beleidsevaluatie weet, doet er goed aan enkele boeken ter hand te nemen en tijdschriften te raadplegen als Evaluation, en Beleidswetenschap. Qua boeken is te denken aan de volgende inleidende werken: A Overheidsbeleid onder redactie van A. Hoogerwerf & M. Herweijer, Samsom, Alphen, 2008 (8 e druk). Deze bundel bevat hoofdstukken als: De inhoud van beleid, Beleidsinstrumenten, De uitvoering van beleid, De evaluatie van beleid. B Beleidsevaluatie onder redactie van J. Bressers & A. Hoogerwerf (red.), Samsom, Alphen, 1995 (3 e druk). Dat boek bevat hoofdstukken als: Het beleid en het beleidsveld, Het vaststellen van doelbereiking, De bijdrage van het beleid aan doelbereiking, De verklaring van de effectiviteit van beleid, Presentatie en gebruik van evaluatie onderzoek. Vraag 2: Welke evaluatieve aanpak in de vorm van stappenplan kan de medewerkster kiezen? Wij dachten met haar mee en stelden de volgende checklist in de vorm van een stappenplan op. Bepaalde stappen kunnen wellicht worden overgeslagen en andere toegevoegd, in concrete gevallen. Stappenplan voor evaluatie Omdat er keuzen bij evalueren mogelijk zijn, heeft een stappenplan zin om die keuze te verhelderen. Stap 1: Inventariseer de bestaande informatie Bestaat er een dossier van het beleidsprogramma en van in en uitvoeringsmaatregelen? Zo ja, vul het aan. Zo nee, leg het aan. Welke afdeling is verantwoordelijk voor het provinciaal beleid op het gebied van sociaal economisch beleid? Wie heeft destijds het beleid ontwikkeld? Was het een betrekkelijk makkelijk ontwerpproces resp. wat waren de barrières? Bestaat er een verbinding met Europees en/of nationaal beleid? Welke? Perspublicaties: zijn die er geweest? Is er een knipseloverzicht? Wat is het grote toegekende voordeel van beleid en wie draagt dat uit? Wat is de hoofdkritiek en wie heeft die vooral? Stap 2: Breng de bestaande informatie over het beleidsprogramma nader in kaart Wat is de beleidsinhoud van het te evalueren beleid in termen van doelstellingen, doelboomstructuur, in te zetten middelen, tijdspad, verwachtingen over doelbereiking? Is sprake van doelstellingen zonder middelen om ze te realiseren of middelen zonder doelstelling over de inzet? Welke veronderstellingen gaan achter het beleid schuil over gedrag? Valt een beleidstheorie (het geheel van verodnerstellingen over oorzaken en gevolgen, over doelen en middelen) te reconstrueren? Zo ja, hoe ziet die theorie eruit? 28

29 Wat voor een geschiedenis kent dit beleid? Wat toont de totstandkominganalyse van het beleid qua beoogde beleidsdoelstellingen, een eventuele doelstellingenhiërarchie, veronderstellingen over gedrag van verschillende actoren en eventueel verwachte nevendoelstellingen van beleid? Bestaat er een invoeringsprogramma? Welke zijn de doelgroepen van het beleid? Hebben zij informatie over de reactie op de beleidsuitvoering in de vorm van een jaarverslag of anderszins? Is sprake geweest van een nulmeting of niet? Heeft er al ooit eerder een evaluatie van het betreffende beleid plaats gevonden? Zo ja, wat hield die in en wat waren de bevindingen? Heeft er al ooit eerder evaluatie van dergelijk beleid plaats in een andere provincie gevonden? Wat houdt die evaluatie in en wat kwam eruit qua resultaten/uitkomsten? Stap 3: Voer gesprekken met relevante actores om zo een verdere schets van het beleidprogramma en de uitvoering te krijgen (verder inzoomen) Wat zijn de doelstellingen van dat beleidsprogramma in de woorden van de meest betrokken medewerker? Wat waren de verwachtingen per doelstelling? Welke veronderstellingen zoal? Welk sturingsconcept ging schuil achter het beleid? Welke instrumenten? Uitvoering: wie voert het programma uit: de provincie zelf, gemeenten of derden? Waarom? Politiek: welke gedeputeerde had/ heeft dit beleid in portefeuille? Geërfd van voorganger? Was het politiek omstreden? Is het beleidsprogramma destijds makkelijk door de commissie (welke?) en Provinciale Staten geloosd? Kan het verslag te voorschijn komen? Is het beleid sinds het in uitvoering is onderwerp van discussie geweest in GS of Provinciale Staten? Zijn er vanuit de samenleving of het maatschappelijk middenveld reacties geweest op het beleid en/of de uitvoering en/of de doelrealisatie? Welke belangen zijn in het spel? Welke actores uit de samenleving hebben voor of nadeel van het beleid gehad? Wie is aanspreekbaar buiten de provinciale organisatie? Wat is de kijk van werkgever en werknemersorganisaties op dit beleid? Stap 4: De evaluatieopdracht en een eventueel evaluatieplan Van wie komt de wenselijkheid of eis van een evaluatie? Is de evaluatieopdracht duidelijk? Voor wie is die bestemd? Hoe precies moet de evaluatie zijn? Aan wie moet voor wanneer hoe uitgebreid of beperkt worden gerapporteerd? Maakt de evaluatieopdracht deel uit van een breder geheel van evaluaties? Zo ja, zijn er aanwijzingen of indicaties over omvang en richting van de evaluatie? Zijn er andere opmerkingen te vinden over de wijze van evalueren, bijvoorbeeld in een Statencommissie of een motie? Moet/mag de evaluatie intern plaatsvinden of moet/mag die extern worden uitgevoerd? Als extern mogelijk is: bestaat er een gremium dat zich bemoeit met de vraag: intern of extern? Hoe verhoudt dit zich tot het tijdpad van rapportage? Is een evaluatieplan gewenst en zo ja, moet een orgaan of ambtelijk team dit plan goedkeuren? Bestaat er een link naar de actuele provincie, lands of Europese politiek? Wil iemand het bestaande beleid veranderen en is er een legitimatie voor verandering nodig? Welk type evaluatie is gewenst? Zie verder. Is sprake van een begeleidingscommissie voor het evaluatieonderzoek? Zo ja, wat is daarvan de samenstelling, taak en werkwijze? 29

30 Is bekend wie na afloop allemaal gebruiker is van de evaluatiebevindingen? Zo ja, is bekend wat hun verwachtingen zijn over het onderzoek? Worden ze betrokken in een evaluatie? Is in de opzet sprake van goede maatvoering: is de evaluatie niet te uitvoerig, te duur, komen de resultaten te laat? Stap 5: Keuze en inhoud van de evaluatie opzet Evalueren betekent beoordelen in een vooruitblik of terugblik: ex ante evaluatie of ex post? Ligt het in de rede om het bij een terugblik te laten of staat de evaluatie ook in het kader van prospectie? Is de evaluatie extern of intern? Hoe uitgebreid? Wordt gekozen voor een evaluatie waarbij nagegaan wordt of doelen bereikt zijn (doelbereiking), welke de uitvoering was en of beleid daadwerkelijk de gewenste effecten opleverde? Is een goal free aanpak gewenst door juist te kijken naar verwachte of onverwachte neveneffecten van beleid? Is beleid al zo lang in werking dat niet alleen prestatie (output) maar ook effecten (outcomes) zichtbaar zijn? Als geen effecten zichtbaar zijn is dan een early warning evaluation nodig en mogelijk: door te kijken of de uitvoeringsmaatregelen nog in lijn zijn met de beoogde effecten? Geldt de wet van de evaluatieve gebreken : geen/wel nulmeting, te vroege/late meting, before aftermodel met experimentele en controlegroep, enz.? (zie verderop in deze tekst) Stap 6: Reconstructie van de beleidsinhoud Wat was de belangrijkste beweegreden voor het beleid? Hoe luidt de beleidstheorie achter het beleid: Wat zijn de doelstellingen? Was sprake van meetbare doelstellingen? Kwamen officieuze doelstellingen voor? Welke doelstellingenboom? Welke doelstelling was de belangrijkste? Veranderden de doelstellingen sinds de vaststelling van het beleid of niet? Middelenkeuze? Nog verandering? Verwachtingen t.a.v. beleidsuitvoering, prestaties en doelstellingsrealisatie, geschiktheid en omvang van de personele en financiële middelen? Wat waren samengevat de belangrijkste veronderstellingen achter het beleid? Zijn daarmee voldoende maatstaven voor beoordeling verkregen? Stap 7: Prestatie en effectmeting Operationalisatie van prestaties en van doelstellingen? Welke prestaties en bedoelde effecten zijn waargenomen, door wie en wat is de kwaliteit daarvan? Additionele informatieverwerving? Bij wie: welke waarnemingseenheden? Wat is de beste waarnemingsmethode (survey, observatie, expertmeeting)? Is een combinatie gewenst? Is sprake van doelbereiking: is beleid een succesnummer? Stap 8: Uitvoeringsanalyse Hoe verliep de in en uitvoering van beleid qua transparantie voor doelgroepen, personele uitvoeringscapaciteit, beleidsmiddelenkeuze, keuze van uitvoerders? Wat is de satisfactie bij betrokken actores over de beleidsinhoud en uitvoering? Welke knelpunten volgens wie? (Framing?) 30

31 Succes en faalfactoren? Wat was de discourscoalitie? Veroorzaakte het beleid ook de gewenste effecten of was sprake van externe factoren en omstandigheden? Stap 9: Rapportage Ga nogmaals na wat de gebruikers verwachten en vergelijk die met bevindingen. Wat zijn de hoofdconclusies in termen van empirie? Wat is de betekenis van de bevindingen in het licht van enkele scenario s, zoals: is er reden het gehele beleid af te schaffen? ( termination ); is er reden het gehele beleid onverkort voort te zetten? ( continuïteit ); op naar een proces van beleidsopvolging?; naar een nieuw paradigma? Argumenteer waarom welke aanbeveling te geven is. Stel het rapport op. Maak een samenvatting en stel een persbericht op. Er bestaan ook andere stappenplannen: zie bij Bressers (1988). 31

32 DEEL II: TYPEN BELEIDSEVALUATIE 32

33 6 DE KLASSIEKE BELEIDSEVALUATIE: EFFECTIVITEITSANALYSE Beleidsevaluatie betreft de evaluatie van beleidsprocessen zoals bij voorbeeld de totstandkoming van beleid, de besluitvorming, de organisatie van het beleid, de in en uitvoering van beleid, de effecten van beleid. Het meeste onderzoek wordt gedaan naar prestaties en effecten van beleid. Een bekende aanpak bij het beoordelen van beleid is de effectiviteit van beleid (Bressers, 1993). Hierbij wordt antwoord gegeven op de vraag: wat zijn de doelstellingen achter het beleid (= gewenste effecten)?; worden die doelstellingen bereikt?; en zo ja, komt dat door het beleid zelf of iets anders, iets dat geen onderdeel was van het beleid? Dergelijk onderzoek is klassiek. Het wordt effectiviteitsonderzoek genoemd. Doelbereikingsonderzoek is hiervan een belangrijk onderdeel naast de analyse van beleid en/of van andere omstandigheden die bijdragen aan de doelbereiking. Internationaal wordt in geval van doelbereikingsanalyse gesproken van the goal achievement approach of goal attainment (Weiss, 1972, 1976). Deze aanpak is natuurlijk gerechtvaardigd omdat een beleid beoordeeld mag worden op basis van wat officieel ook is uitgesproken en democratisch is vastgelegd en besloten. Beleidsevaluaties hebben vaker het karakter van een doelbereikingsevaluatie dan van een effectiviteitsevaluatie (Bressers en Hoogerwerf, 1991; Bongers en Den Hertog, 2007: 36). Een andere maatstaf is legitimiteit en err een andere doelmatigheid van beleid. Het is dus ook mogelijk onderzoek te doen naar het bereiken van doelen met geringe middelen (doelmatigheid) of bij voorbeeld de acceptatie van beleid. Henri Potman (1989) is op dit onderwerp beleidsacceptatie gepromoveerd. Een aantal jaren geleden gold de Wet geluidhinder, die toen omstreden was. Potman heeft de acceptatie van die wet bezien. Hij verrichtte dus een beleidsevaluatie. Vertrek vanuit een beleidstheorie Maar een maatstaf is bij evalueren eigenlijk niet genoeg. Aan beleid zelf zijn vaak al maatstaven te ontlenen. Welke dan? Belangrijke maatstaven voor beoordeling van beleid zijn te vinden in de achterliggende gedachten achter een beleid, dus de veronderstellingen. Bestuurskundigen spreken in dat verband van de beleidstheorie van een bepaald beleid (Hoogerwerf, 1984; Leeuw en Van de Graaf, 1988; Pröpper & Reneman, 1993; Van Heffen, 1996; Leeuw, 2003; Dunn, 2012). Achter in feite elk beleid gaat dus een beleidstheorie schuil. Een beleidstheorie is het geheel van veronderstellingen over oorzaken en gevolgen van een verschijnsel en ook over doelen of doelstellingen van beleid om iets met of tegen een verschijnsel te doen, de toegepaste beleidsmiddelen en de relatie ertussen (Van Heffen, 1996). Dat betekent dat achter een wet als de Wet Milieubeheer of om het even welke op modificatie gerichte wet of maatregel van bestuur, een beleidstheorie schuilgaat. Als er bij voorbeeld een nitraatmaatregel komt voor landbouwers, zit daar een redenering achter, een beleidstheorie. De beleidstheorie is in feite de motor achter beleid die ervoor moet zorgen dat een beleidsinterventie werkt (Pawson en Klein Haarhuis, 2005: 45). De beleidstheorie wordt ook 33

34 wel de programmatheorie achter beleid genoemd (Pawson en Klein Haarhuis, 2005). Bressers (1993, 2008) spreekt van een beleidsveldmodel. Formele evaluatie William Dunn (2012: 324) spreekt in dit verband van formele evaluatie. Hij omschrijft formele evaluatie als volgt: an approach that uses descriptive methods to produce reliable and valid information about policy outcomes but evaluates such outcomes on the basis of policy program objectives that have been formally announces by policy makers and program administrators. De belangrijkste assumptie achter deze formele evaluatie is volgens Dunn dat wat formeel als doelstellingen geannonceerd wordt ook daadwerkelijk iets zegt over de waarde of betekenis van een beleidsprogramma. Dat zal vaak wel het geval zijn, maar soms kan beleid ook een middel zijn om een kritiek wind uit de zeilen te nemen. Machiavelli zou het wel weten. In zijn geest kun je bij voorbeeld bedenken: je geeft als rijksoverheid organisaties voor ontwikkelingshulp budget voor uitvoering van ontwikkelingstaken om ze zo zoveel aan je te binden dat je ze domestificeert en monddood maakt. Door uitvoerders te verafhankelijken neem je tijdig kritiek op de omvang van het ontwikkelingsbudget wind uit de zeilen. Wie gaat evalueren (ex ante of ex post), kan dus beginnen met de veronderstellingen (inclusief de doelstellingen) eerst op een rij te zetten en die te operationaliseren in onderzoekbare termen. Zijn die veronderstellingen niet duidelijk en niet precies dan kan beleid vermoedelijk ook geen gewenste doelstellingen bereiken. Mogelijk is het beleid dan een wazig compromis geweest of een vage vorm van cadeauverstrekking of een vorm van (co)financiering waarbij aan de andere financierende partij overgelaten wordt om doelstellingen te specificeren. Veelal wordt als eis gesteld aan beleid dat doelstellingen in beleidsnota s zijn geformuleerd. Dat moet bij voorkeur SMART gebeuren, dus moeten de doelstellingen Specifiek, Meetbaar, Actueel, Realistisch en Tijdsgebonden (dus SMART) zijn (Bongers en Den Hertog, 2007: 35). Dat wordt ook wel rationalistisch genoemd. In werkelijkheid is overheidsbeleid een kwestie van cognitie en interactie of anders gesteld van uitdenken en uitvechten (Hoppe, 2012). Dat betekent dat beleid vaak ook een compromis is en inconsistenties bevat. Dat moet een evaluator openbaren maar daar moet hij ook mee leren leven. Het maakt dat zijn (of haar) vertrekpunt niet ideaal is. Elke evaluatie begint dus met de analyse van de beleidsinhoud (wat is het beleid) en het ontwikkelen van een beeld over wat een overheid eigenlijk met het beleid nastreeft. 34

35 7 DE OPZET VAN EEN KLASSIEKE BELEIDSEVALUATIE: ENKELE DILEMMA S Hier komt ex post evaluatie aan bod. In het voorgaande is aangegeven dat een een onderzoeksopzet idealiter zou moeten plaatsvinden op basis van voor en nametring met controlegroepen. Kan dat wel? Kan het zoals het moet of moet het maar zoals het kan? Er moeten keuzen op het vlak van de onderzoeksopzet en methoden en technieken van onderzoek gemaakt worden. Een aantal belangrijke keuzen heeft betrekking op de volgende punten. Figuur 1: Aspecten van de keuze van een opzet voor ex post beleidsevaluatie 1 Ideaal is een voor en nameting. 2 Ideaal is de keuze van een experimentele groep en een controlegroep. 3 Ideaal is een variatie in beleidsimpuls. 4 Ideaal is het meten van effecten, niet slechts van prestaties. 5 Ideaal is een tijdige opdracht tot evaluatie. 6 Ideaal is als de officiële beleidsdoelstellingen ook de echte doelstellingen zijn. 7 Ideaal is als de beleidsdoelstellingen stabiel blijven. 8 Ideaal is als de effecten hard zijn te maken. 9 Ideaal is als evaluatoren zich bewust zijn van de eventualiteit van een netwerkcontext. Deze aspecten worden hierna toegelicht. 1 Ideaal is een voor en nameting. Er dient er in een ex post evaluatie vóór de beleidsimpuls of beleidsinterventie al een meting te hebben plaatsgevonden, dan kan vervolgens op een later moment of op meerdere momenten een nieuwe vergelijkbare meting plaatsvinden. Deze meting vooraf wordt een nulmeting genoemd. Een verschil tussen de voor en nameting(en) moet dan, als de omstandigheden gelijk blijven, op de cruciale variabelen duiden op een beleidseffect. Het beste is als ook nog voldaan wordt aan een volgende eis. 2 Ideaal is de keuze van een experimentele groep en een controlegroep. Strikt genomen kun je niet zeggen dat een verschil tussen voor en nameting evident duidt op een beleidseffect want er kunnen andere invloeden zijn buiten het beleid die het effect bewerkstelligen. De onderzoeker moet dit nagaan. Stel de onderzoeker bevindt zich in een land waarvan de overheid een beleid gericht heeft op de tempering van gebruik van zonnebanken omdat het aantal mensen met huidkanker toeneemt. Stel we beperken ons tot het menselijk gezicht. Als mensen de laatste vijf jaar een meer gebruind gelaat hebben na de zomermaanden, meer bezoeken aan huisartsen met klachten over huisirritaties worden gebracht en doorverwijzingen naar ziekenhuizen op dit vlak plaatsvinden, stel we weten dat, dan kan dat liggen aan: a) het vaker gebruiken van zonnebanken, en/of b) een toename in de hoeveelheid zonne uren, en/of c) de kracht van de straling waaraan mensen zijn blootgesteld, en/of d) aan het feit dat subtropische en tropische vakantiegebieden meer in trek zijn geraakt. Ik laat hier het gebruik van middelen met een bruiningseffect terzijde. Het is gewenst om een experimentele groep te hebben en een controlegroep met gelijke kenmerken. 35

36 De experimentele groep onderscheidt zich van de controlegroep doordat die een beleidsimpuls krijgt en de controlegroep niet. Eigenlijk zou je zowel een voor als een nameting moeten verrichten bij de experimentele groep en de controlegroep. 3 Ideaal is een variatie in beleidsimpuls. Misschien dat de evaluatoren ook oog hebben voor het op zo doelmatig mogelijke wijze bereiken van de doelstellingen. Men zal dan proberen om de overheidsinterentie te differentiëren naar kracht en instrument. De lichtste route is favoriet als je zo even veel bereikt als met een zwaar of duurder instrument. Om dat vast te stellen, moet er sprake zijn van twee of drie experimentele groepen. In het lokale verkeersveiligheidsbeleid is zo een aanpak denkbaar. Je kunt de verkeersveiligheid bevorderen door de verkeerssnelheid te temperen via elkaar snel opeenvolgende bobbels in de weg of via elkaar niet snel opvolgende bobbels. Of via een combinatie van bobbels en bepaalde kilometerzonering en eventueel wegversmallingsmaatregelen. 4 Ideaal is het meten van effecten, niet slechts van prestaties. In de beleidspraktijk wordt gekozen voor een beleid, waarbij meestal bepaalde instrumenten ingezet worden. De beleidsuitvoering impliceert dan toepassing van die instrumenten. In een verkeersveiligheidsbeleid impliceert dat bij voorbeeld een instructie geven aan bepaalde personen om over te gaan tot aanschaf van borden voor 30 kilometerzones en/of van materiaal voor de aanleg van een wegversmalling. De feitelijke aanleg is dan de beleidsprestatie (output). Het bereiken van minder verkeersincidenten en feitelijk verkeersslachtoffers is het gewenste effect (outcome). In de praktijk wordt vervolgens vaak gezegd dat een beleidsevaluatie de gewenste effecten in beeld moet brengen. Zijn die effecten wel of niet opgetreden? Wat laat evaluatie echter vaak zien? Dat het nog te vroeg is geweest om het beleidsevaluatieonderzoek te verrichten. Effecten zijn door dat vroege moment nog helemaal niet zichtbaar. Men meet slechts dat de drempels of wegversmallingen zijn aangelegd. In de praktijk ontstaat vaak verwarring over het meten van prestaties of effecten. Nogal eens worden prestaties voor effecten aangezien. Stel dat een overheid een subsidie geeft aan een schouwburg en daarbij eist dat de schouwburgdirectie zich richt op culturele verheffing van de stadsinwoners. Hoe dat vast te stellen? Vaak zal een directie dan aangeven dat er bij voorbeeld vijf typen programma s zijn: het lichte muziekgenre, klassieke muziek, toneel, cabaret en ballet. De directie wil naar een gemiddelde stoelbezetting van 60 procent, over alle voorstellingen in een jaar gezien. Wat blijkt bij een beleidsevaluatie? Er is geen nadere keuze gemaakt van het gewenste effect, dus wat gerekend wordt tot culturele verheffing en wat niet, maar slechts de stoelbezetting is aangegeven. Dan beantwoordt de beleidsevaluatie niet aan haar doel. De evaluatie zegt dan niets over de verheffing terwijl dat toch een doel was. Kon dit ook niet? Toch wel. De directie had in overleg met de subsidieverstrekker vooraf kunnen bepalen dat verheffing te operationaliseren is als: De aanwezigheid van jaarlijks meer dan in totaal minimaal 3000 bezoekers van klassieke muziek en toneel; Een gewenste stoelbezetting in de grote zaal van de schouwburg van gemiddeld per voorstelling op het gebied van klassieke muziek en toneel van 60 procent; Opname van minimaal 40 procent ander toneel dan blijspelen (komedies). 36

37 De werkelijkheid is dat een schouwburgdirectie misschien helemaal niet denkt aan een evaluatiecriterium of er geen belang bij heeft of de handen vrij wil houden. En de subsidieverstrekker heeft wellicht ook geen aandacht geschonken aan de vaststelling van een maatstaf om naderhand het succes of het falen van een subsidie te meten. We zien dat evaluatoren vaak een toevlucht moeten nemen tot een next best maatstaf. Dat kan een prestatiemaatstaf zijn bij gebrek aan zicht op een effect. 5 Ideaal is een tijdige opdracht tot evaluatie. De evaluator wil graag een tijdige opdracht, en een evaluatiedesign kiezen met voor en nameting(en), met experimentele en controlegroep en met een variatie naar beleidsimpuls en met zicht op effecten. Dan zal de evaluator ook nog graag nagaan of er sprake is van invloeden van buiten, om de oorzakelijkheidsanalyse (komt het effect doro beleid of een extern effect?) te verrichten. 6 Ideaal is als de officiële doelstellingen ook de echte doelstellingen zijn. Het is gangbare praktijk om de officiële overheidsdoeleinden als evaluatiecriteria te nemen. Het beleid is immers democratisch vastgesteld. Er ligt een analyse aan ten grondslag, het beleid is qua doelstellingen en middelen doordacht. Adviesorganen als de Raad van State hebben er hun licht over laten schijnen. Dus ligt het voor de hand om deze doelstellingen ook serieus te nemen. Waarom dan andere criteria nemen? Er behoeven geen andere criteria te worden genomen. Een orgaan als de Algemene Rekenkamer doet dat dan ook niet. Maar er zijn twee waarschuwingen van belang. Ten eerste, gaat er soms een doelstelling achter een wet of andere maatregel schuil die, als je deze noemt, al geen kans meer maakt om gerealiseerd te worden. Zo was de WUB, de Wet Universitaire Bestuurshervorming, in de jaren zeventig van de vorige eeuw een wet die ook ertoe strekte om kritiek op het universitaire bestel en met name kritiek van studenten op hun gebrekkige medezeggenschap de wind uit de zeilen te nemen. Maar dit punt is nooit officieel erkend. Wie evalueert, doet er goed aan om dit soort accenten toch op te sporen. Dat kan door middel van analyse van de wetsgeschiedenis of interviews met bewindslieden en parlementariërs. Op uitsluitend gebruik van officiële doeleinden bij beleidsevaluaties bestaat dan ook kritiek (Bressers en Hoogerwerf, 1995: 23). De tweede waarschuwing betreft dat bepaalde doelstellingen belangrijker zijn dan andere. Toen de wetsevaluatiecommissie die de Wet algemene bepalingen milieuhygiëne (Wabm), waarin ik zitting had, in de eerste helft van de jaren tachtig werd geïnstalleerd zei de toenmalige minister Leendert Ginjaar (minister van Volksgezondheid en Milieuhygiëne in het kabinet Van Agt I) dat de commissie wel moest weten dat een bepaalde doelstelling belangrijker was, in zijn ogen, dan een andere. 7 Ideaal is als de doelstellingen stabiel blijven. Een specifiek punt is ook de vraag of officiële doelstellingen stabiel blijven, dus in de loop van de tijd niet veranderen doordat bepaalde accenten verlegd worden en er doelstellingen bij komen of verdwijnen ten opzichte van de oorspronkelijke doeleinden. De wereld staat tenslotte niet stil en ook in politieke arena s gebeurt van alles. Idealiter blijven doeleinden stabiel, dat is het makkelijkst voor evaluatoren. Evaluatoren doen er evenwel goed aan rekening te houden met wat in evaluatiekringen de dynamiek van doelstellend gedrag heet (Herweijer, 1981; Bressers en Hoogerwerf, 1995: 23; Bongers en Den 37

38 Hertog, 2007: 37). Doelstellingen kunnen gaan rollen. Dat wil zeggen, de ene doelstelling gaat na verloop van tijd belangrijker worden dan een andere, bij voorbeeld door veranderde maatschappelijke omstandigheden en/of de komst van een politiek bestuur van andere samenstelling. Misschien blijft een doelstelling wel bestaan maar er worden meer of minder middelen aan een doelstelling gekoppeld. Een evaluator kan zich dan de vraag stellen of dat een desastreus gevolg heeft gehad of helemaal niet. 8 Ideaal is als de effecten hard zijn te maken. De evaluatoren onderzoeken en onderzoeken maar zijn de effecten ook echt zichtbaar te maken? Ray Pawson (2006) is de man van evidence based policy. Hij wil bereiken dat beleid zo onderzocht wordt dat je bij wijze van spreken ook weet dat als je een bepaald medicijn geeft de kans heel groot dat een gemiddelde patiënt, waarvoor het medicijn ook een oplossing zou moeten zijn, ook eerder beter wordt dan misschien langs natuurlijke weg al het geval zou zijn. Hij streeft met zijn evidence based policy bewijs na alvorens een beleidsinterventie wordt gepleegd. Maar makkelijk is dat niet (Nelen, 2008). Waarom? Ten eerste, bestaande kennis over een (voorgenomen) beleidsprogramma is meestal veelsoortig en gefragmenteerd. Ten tweede, in onderzoek ontbreekt vaak een (quasi ) experimentele opzet. Ten derde, als we al iets over effecten weten, welk onderdeel van het beleidsprogramma is daar dan verantwoordelijk voor? De effecten van een programma zijn dus zelden hard te maken, aldus Pawson & Klein Haarhuis (2005: 46). De oplossing? Ik zie twee mogelijkheden voor evaluatoren. 1) Informatiebundeling. Probeer zoveel mogelijk informatie te verzamelen over processen waarlangs beleid zijn uitwerking heeft, die gebaseerd is op uiteenlopende bronnen van informatie. Kijk wat notulen, brieven, mails, sms berichten, dossiers en andere documenten opleveren, alsmede observaties van gedrag, interviews met sleutelfiguren en objecten van beleid, en schriftelijke enquêtes. Filter overeenkomst en verschil uit. Analyseer eventuele tegenspraak in het materiaal (Pawson en Klein Haarhuis, 2005: 46). 2) Early warning evaluation (ex post). Is een beleid nog amper ingevoerd en kunnen effecten nog niet blijken dan kan toch geëvalueerd worden door te kijken of de maatregelen in de beleidsuitvoeringsfase nog sporen met de bedoelingen van de beslissers: een logische stappentoets ; ook wel consistentietoets genoemd. Deze evaluatie heet early warning evaluation. Met deze aanpak wordt gepoogd een keten van stappen te construeren vanaf de besluitvorming, de voorlichting, de invoering van beleid tot de prestaties. Zijn de punten in de keten consistent, zo dat er een lijn zichtbaar wordt die gaat richting gewenste effecten? Het doel hiervan is natuurlijk om vroeg geattendeerd te worden op wegdrijven van de bedoelingen of doelstellingen, zodat bijstelling nog mogelijk is. 9 Ideaal is als evaluatoren zich bewust zijn van de netwerkcontext. Er is nog een bijzonder probleem bij evaluatieonderzoek: wiens handelen wordt aan evaluatie onderworpen? Dat van een overheid of het handelen van meerdere netwerkpartners die van elkaar afhankelijk zijn omdat geen enkele overheid over alle taken, bevoegdheden en middelen beschikt? 38

39 Hier is achter te komen als je kijkt naar wie taken en bevoegdheden heeft op een bepaald beleidsterrein en wie over welke middelen beschikt. Het komt wel voor dat een evaluator niet in de gaten heeft dat één overheidsbestuur maar beperkte taken en bevoegdheden heeft en zich ook niet autonoom met iets kan bemoeien omdat andere overheidsactoren en actoren daarbuiten ook over taken, bevoegdheden en/of middelen beschikken. Dan zijn de actoren van elkaar afhankelijk. Ieder voor zich kan niet veel uitrichten, de partners hebben elkaar nodig. Geen enkele van de actoren afzonderlijk heeft alle doorzettingsmacht. Geen enkele partij kan afdwingen wat die wil. Om tot actie te kunnen komen, moeten de actoren aan netwerkconstitutie doen (de goede partijen rond tafel krijgen) en moeten ze komen tot netwerkmanagement: een gezamenlijk perspectief ontwikkelen, meer concrete doelverbinding aangaan en komen tot middelenballing (Klijn en Koppenjan, 2001; Van den Heuvel, 2001; Klijn, 2005; Bekkers en Lips, 2008). Neem de verdroging of vernatting van De Peel (Bekkers en Lips, 2008). Op dit vlak heeft geen enkele overheidsorganisatie of private partij alle doorzettingsmacht. Geen overheid heeft hier alle taken, bevoegdheden en middelen in handen. Organisaties zijn dus van elkaar afhankelijk. Om de verdroging of vernatting aan te pakken, hebben we onder andere te maken met enkele departementen, enkele provinciebesturen (Noord Brabant en Limburg), een waterschap, gemeenten, grondeigenaren, pachters. Deze partijen dienen bij beleidsvorming te komen tot gedeelde beeldvorming over wat het probleem is en wat de oplossingsrichting, die uitmondt in doelbundeling en zelfs doelverrijking en middelenbundeling. Fixaties op bepaalde onhaalbare oplossingen moeten weg en ook blokkades moeten verdwijnen. Om het eens te worden zal men het eigen belang en de eigen mental map moeten overstijgen. Wat betekent dit voor evaluatie? Evaluatie in deze context zou eigenlijk als nuttig gezien moeten worden en gedeeld moeten worden door alle partijen. De evaluatie moet dan niet gericht zijn op zichzelf, op slechts een actor maar op de netwerksamenstelling, netwerkdoelstellingen en netwerkproductiviteit. De evaluator heeft dan dus gedeeltelijk andere maatstaven nodig. Het komt veel voor dat de aanwezigheid van beleidsnetwerken vol afhankelijkheden niet gezien wordt door de opdrachtgevers van evaluatieonderzoek en evaluatoren. De evaluatoren komen dan met een criterium als slagvaardig bestuur en versterking van slagvaardig bestuur ( spierballen ). Dat is niet verstandig. Slagvaardigheid is een criterium dat lijkt verbonden met een overheid die alle doorzettingsmacht bezit. In plaats daarvan zouden evaluatoren de netwerkproductiviteit moeten bekijken. Dus meer aandacht is gewenst voor stroop en voor schikken en plooien dan voor de spierballen. Dit misverstand doet zich soms voor bij de rol van provincies. Dan wordt de rol van het provinciebestuur gezien als een bestuur dat zijn doorzettingsmacht onvoldoende neemt terwijl miskend wordt dat de provincie sterk afhankelijk is van anderen (Korsten, 2011). Dergelijke netwerkgerichte evaluaties komen voor maar ze zijn schaars. Hoe kan dat? 1) Een eerste factor is dat een overheidsbestuur soms een evaluatie over zichzelf en voor zichzelf wil omdat dit bestuur ook zelf de evaluatie financiert. 2) Een tweede verklaring ligt in het moeizame overleg om het eens te worden over een netwerkgerichte evaluatie. Partijen moeten het eens zien te worden over een evaluatieopdracht. Het gevaar van een garbage can dreigt: iedereen wil iets anders maar niet of weinig betalen. 39

40 3) Een derde verklarende factor ligt in de sterke kracht van de suggestie dat deze ene overheid dan misschien wel afhankelijk lijkt maar wie wil dat toegeven. De reflex om toch vanuit zichzelf een evaluatie op te stellen is sterk. Op bepaalde terreinen zijn netwerkgerichte evaluaties zelf nagenoeg onmogelijk. Toen kritisch gekeken moest worden naar de Herculesramp nabij Eindhoven (een vliegtuigongeluk met vele doden) verscheen een tiental rapporten. Elke betrokken organisatie liet een onderzoek instellen vanuit het eigen perspectief en ten behoeve van zicht op de eigen organisatie. Nuttig om zich te verantworden en te willen leren maar blame avoidance ligt ook op de loer (zie ook het werk van Hood). Iedere organisatie wil weten of ze wel of niet gefaald heeft en mogelijk ook de eigen stoep schoon vegen. Tineke Abma (1996) is sterk voorstander van netwerkgerichte evaluaties waarin het perspectief van verschillende actoren aan bod komen. Ze noemt het responsief evalueren. Strenge evaluatoren noemen responsieve evaluatie echter geen evaluatie omdat het hen teveel doet denken aan het iedereen een bijdrage laten leveren aan beleidsvorming. Conclusie: wet van de evaluatieve gebreken Genoemde punten maken duidelijk dat er meestal geen ideaal design voor onderzoek mogelijk is. Dan is het een beetje behelpen. Soms zal iedereen onder de bevolking of doelgroep voor beleid in aanmerking willen komen en is er dus geen groep te vinden die uitgesloten is van beleid en tot controlegroep gebombardeerd kan worden. Dan is de keuze voor een experimentele groep en een controlegroep voor de evaluator helemaal niet te maken. Ook het werken met variatie in beleidsimpuls lukt vaak niet. En tenslotte, soms wordt een opdracht tot evaluatie pas verstrekt als het beleid al enige tijd loopt. Dan is het laat. Een nulmeting is dan onmogelijk. Alleen al deze omstandigheden bewerkstelligen wat genoemd wordt de wet van de evaluatieve gebreken. De wet impliceert: er is altijd wel een manco aan evaluatieonderzoek (Leeuw, 2008: 26). In de praktijk kunnen er meer manco s zijn dan de genoemde. 40

41 8 HET TE VROEGE EVALUATIEMOMENT: EARLY WARNING EVALUATION ALS OPLOSSING Stel, een beleidsprogramma in de vorm van een wet is door de volksvertegenwoordiging geaccepteerd (ook door de Eerste Kamer) en kan in het Staatsblad. De invoeringsdatum is nabij. Het departement laat een persbericht het licht zien. De organisatie van de beleidsuitvoering wordt opgepakt en er wordt een invoeringsprogramma opgetuigd als eerste onderdeel van de uitvoering. Ambtenaren (uitvoerders) gaan op cursus. Het eerste boekje over het nieuwe beleid van een juridisch onderlegd schrijver die vertrouwd is met de beleidssector ziet binnenkort het licht. En uitgevers gaan aan het werk met een losbladige uitgave, cd roms, en wellicht ook met een discussieplatform voor een community van betrokkenen bij en kenners van de wet. Misschien heeft de oppositie het beleid gehoond en is er een motie aangenomen die de minister verplicht om binnen korte tijd te komen tot een evaluatie van het beleidsprogramma. De minister heeft nog even getracht om de Tweede Kamer tegemoet te komen door, na een hint in die richting in het advies van de Raad van State, voor te stellen om in de wet een jaarverslagartikel op te nemen. Eens per twee jaar zou er een jaarverslag komen met bevindingen van monitoring van de wetsuitvoering. De Tweede Kamer nam daar echter geen genoegen mee. Men wilde iets zwaarders. Het werd niet een horizonbepaling (de wet houdt na vijf jaar op te bestaan en vooraf dan een wetsevaluatie) maar het werd een ad hoc toegezegde evaluatie. Wat dan vervolgens? Wachten tot de beleidseffecten zichtbaar zijn kan een jaar of drie vier gaan duren. Zo lang wilde het parlement niet afwachten. De Kamerleden weten: als er geen druk op de ketel gezet wordt, komt er niks van. Daarop besluit het betreffende departementaal sectorhoofd, gehoord de directeur generaal, een maand of vijf na introductie van het programma een aanbesteding op uitnodiging te starten om een evaluator te vinden. Begrotingruimte daarvoor was eerder al geschapen. Wat moet de evaluator in een offerte al aanbieden? Voor een ex ante evaluatie is het moment strikt genomen te laat. Een before aftermeting met experimentele groep en controlegroep is ook niet mogelijk; een nulmeting was niet vorozien. Maar de evaluator kan overwegen meerdere meetmomenten te kiezen, want de wet is immers amper in uitvoering. Direct maar een meting? Maar wat dan? Een mogelijkheid is de early warning evaluation (EWA). Dit is een concept waarmee ik zelf ervaring heb opgedaan nadat in de vorige eeuw de Innovatienota het licht zag (Gooren, Korsten en Prakke, 1983; Gooren en Korsten, 1983). Wat een early warning evaluation is Een early warning evaluatie heeft de volgende basiskenmerken (ook Gooren, 1985). 1. De early warning evaluation (EWA) is een ex post evaluatie. 2. Deze EWA vindt plaats op een moment dat het beleid nog niet lang in uitvoering is. EWA is dus aan de orde in een vroege fase van de beleidsimplementatie. 3. Er zijn in en uitvoeringsmaatregelen genomen maar beleidseffecten zijn nog niet of nauwelijks zichtbaar. De evaluatie kan dus geen doelbereikingsanalyse zijn of effetiviteitsanalyse. 41

42 4. De evaluatie is gericht op de analyse van de opeenvolgende stappen van beleid tot effect. Het is een soort ketenanalyse met beoordeling op consistentie van maatregelen en acties waarbij nagegaan wordt of de voorlichting, de uitwerking van doelen, middelenkeuze en andere elementen consistent zijn tot opzichte van de gedachte route van beleid tot effect. Zodat daarmee een voorspellende antwoord gegeven kan worden op de vraag of de doelstellingen überhaupt later bereikt zullen kunnen worden. Sporen de al getroffen maatregelen met de veronderstellingen achter het beleid? 5. De evaluatie is bedoeld voor beleidsaanpassing, correctie of uitwerking. De beleidsmakers worden door een EWA vroeg gewaarschuwd als beleid dreigt weg te drijven van de oorspronkelijke intenties. Wat de EWA niet biedt, is een fundamentele evaluatie van de vraag of het beleid überhaupt wel zinvol was en of de doelstellingen haalbaar zijn. Het is ook geen doelstellingsvrije evaluatie en geen doelmatigheidsevaluatie. Eerder is het een uitvoeringsevaluatie in een vroege fase gericht op de vraag of er een lijn zit in de uitwerking van beleid die de kans op het bereiken van de doelstellingen groot maakt. De EWA is bij uitstek gebruiksgericht. Het waarom van early warning evaluation Het waarom van deze vorm van evaluatie is makkelijk te achterhalen en te formuleren. 1. Er is sprake van onzekerheid over de kwaliteit van de beleidsinhoud en/of uitvoering. De oppositie en anderen in het parlement hebben bedenkingen over het beleid maar zij hebben het beleid niet willen tegenhouden. De evaluatie is voor hen een aflaat, een reiniging van de ziel waarna alles weer door kan gaan. Een aflaat is een lichte straf voor een lichte zonde. 2. De evaluatie is een soort tweede kans om nog te repareren in een stadium als de belangen niet echt gestold zijn. Er is dan nog ontvankelijkheid voor verandering. In het voorbeeld is niet aangegeven waar de bedenkingen ten aanzien van de wet betrekking op hebben. Wellicht is een vraag of de uitvoerende eenheden in het land wel tijdig in de startblokken staan. En mogelijk is sprake van vrees voor gebrekkige handhaving of gebrekkige steun in het veld. Voorwaarden Tot de voorwaarden voor het succesvol verrichten van een EWA behoort het volgende. De evaluator moet allereerst een ervaren evaluator zijn met kennis van de organisatie van de uitvoering van beleid en dus van implementatievraagstukken. Ten tweede moet de evaluator wets en veldkennis hebben. Ten derde moet de evaluator vermogen hebben om schakels in de uitvoering van deze specifieke wet te zien en te koppelen en overzicht te krijgen, iets waarvoor René Torenvlied (1996) in zijn dissertatie Beleid in uitvoering aandacht vroeg. Vermoedelijk is het onderzoek makkelijker uit te voeren als sprake is van een conditioneel beleidsprogramma dan van een doelprogramma. Een conditioneel 42

43 programma is een als. dan programma. Bij voorbeeld is te denken aan iemand die een identiteitsbewijs wil. Als iemand Nederlander is, ingeschreven is in gemeente X en voor de kaart betaalt (de condities), kan een identiteitskaart verstrekt worden. Stel even dat het zo werkt, dan is dit een kwestie van checken en verstrekken. Een evaluator kan bij een dergelijk uitgewerkt systeem een hele keten uittekenen. Bij doelprogramma s met veel beleidsvrijheid voor ambtenaren wordt dit veel lastiger. Werkzaamheden Hoe de evaluator te werk kan gaan? 1. Een referentiebeeld opbouwen. Het verrichten van deze EWA is mogelijk voor evaluatoren die het beleid en de beleidsgeschiedenis goed kennen en zeer op de hoogte zijn van de invoeringsmaatregelen. De evaluator moet kunnen uittekenen hoe die uitwerking en uitvoering logischerwijze zullen moeten verlopen. Zonder dat beeld kan het niet. 2. De schakeling in de ketting opsporen, dus de logische stappen op een rij zetten. Uit dat referentiekader moet afgeleid kunnen worden wat de stappen zijn die achtereenvolgens gezet zouden moeten worden. Het opsporen van het gewenste uitvoeringspatroon vereist enige durf van een evaluator. Maar deze kan een expertmeeting organiseren en interviews hebben met de beleidsontwerpers om dit ideaaltypisch beeld of model op te bouwen? Dat lijkt voor de hand te liggen. Op die manier kan achterhaald worden wat de schakels zijn, wat de cruciale momenten zijn in de uitvoering waarop het beleid naar de consistente uitvoering kan doorlopen dan wel naar de afgrond kan gaan. Ook komen kritische onderdelen of fasen in beeld. 3. De gegevensverzameling. De evaluator gaat gegevens verzamelen. Hoe hij of zij hier moet opereren hangt grotendeels af van de wetsinhoud, kennis van het uitvoeringsprogramma en de verschillende actoren die een rol spelen. Het multi actor perspectief kan aan de orde zijn. Kunnen bepaalde actoren elkaar tegenwerken. Welke belangen spelen? Hoe zijn de machtsverhoudingen? Dreigen perverse effecten? 4. De vergelijking tussen gegevens en het referentiekader. Hierbij gaat het om de verzamelde gegeven langs het ideaaltypisch patroon te leggen en te zien of sprake is van congruentie en consistentie. Conclusie De early warning evaluation is een interessante oplossing voor als een evaluatiemoment eigenlijk te vroeg is gekozen. 43

44 9 DE VEELHEID AAN MAATSTAVEN: DE NORMENBANK ALS OPLOSSING Geen evaluatie zonder maatstaven. Dit onderwerp verdient dus nader aandacht. Ik ga in op de vraag welke maatstaven zoal in evaluatiestudies en daarbuiten voorkomen. Het resultaat van die exercitie zal u verrassen. Maatstaven: verschillend in de beleidscyclus? Welke maatstaven zijn zoal te kiezen zijn in een beleidsevaluatie hangt grotendeels af van het onderwerp van evaluatie. Bij een evaluatie van een totstandkoming van beleid zijn andere criteria aan de orde dan bij het nagaan van de beleidsimplementatie of beleidseffectiviteit. Ik werk dat kort uit. Bij de totstandkoming van beleid is aan de orde wat eigenlijk de aanleiding tot overheidsactie is. Wat is precies het probleem of de uitdaging? Gaat het om een probleem op het vlak van energie, volkshuisvesting, arbeidsmarkt, winkelvoorzieningen, parkeren, migratie, milieu, integratie, onderwijs, straat of uitgaanscriminaliteit, cohesie, cultuur, recreatie of sport, pedofilie, cybercrime, emancipatie? Hoe wordt het probleem gepercipieerd en gedefinieerd? Is dit iets voor overheidshandelen of moet de overheid hier buiten blijven? En als de overheid zich ermee inlaat, wat wordt dan het beleidsvoorstel? Het is mogelijk dat hier volkomen verschillend naar gekeken. Neem de in 2012 nabij Den Helder aangespoelde bultrug. Topexperts meldden zich om te bezien wat nog te doen viel. Deze walvis was volgens sommigen ten dode opgeschreven; niet veel aan doen; laat de natuur zijn werk doen. Anderen meenden dat de walvis humaan behandeld moest worden. Ze gaven het dier ook een naam: Johanna. Daardoor kwam het dier als het ware dichterbij. Er kwam nog net geen condoleanceregister. De vraag was voor de sceptici van zoveel gedoe : wat heeft de reddingsoperatie gekost en wie betaald dat? En, de dierverdedigers (Kamerlid Dion Graus e.a.) vroegen zich af: moet er een protocol komen voor het omgaan met aangespoelde grote vissen? De Tweede Kamer besloot uiteindelijk niet tot specifieke beleidsmaatregelen. Daarmee was in de ogen van veel burgers een absurditeit, namelijk een protocol, voorkomen. Bij het nagaan van wat van de beleidsuitvoering terechtkomt is beleidseffectiviteit aan de orde en daarmee ook de doelbereiking. Maar in het algemeen is te denken aan de volgende criteria bij beleidsevaluatie: responsiviteit: signaleert het overheidsbestuur de serieuze maatschappelijke voorkeuren en eisen en verwerkt het die?; doelgerichtheid van het beleid: welke doelstellingen en subdoelstellingen moeten worden gerealiseerd volgens het officieel democratisch vastgesteld document?, legitimiteit: zijn burgers betrokken bij de beleidsvorming?; proportionaliteit: wordt de lichte en goedkopere beleidsinstrumenten gekozen of zware en dure zware?, consistentie: is tegenspraak in het beleid zelf vermeden?, effectiviteit: worden gewenste doelstellingen bereikt? Maatstavenvloed Om welke criteria gaat het nu in beleidsevaluatie, als we de ontwikkeling in de tijd plaatsen en daarbij ook crietria van visitatiecommissies en uit jurisprudentie betrekken? 44

45 Figuur 2: Beoordelingscriteria in decentraal overheidshandelen, Criterium in overheidshandelen Rechtstatelijk bestuur Rechtmatig bestuur Integriteit van bestuur(ders)/voorbeeldrol Autonomie van lokaal bestuur Beginselen van behoorlijk bestuur Betrouwbaar bestuur Sober bestuur Haalbaarheid van bestuurlijke aanpak Toegankelijk bestuur Openbaarheid van bestuur (besluiten) Transparantie van handelen (benchmarks) Initiatiefrijk bestuur Planmatig bestuur Probleemgericht bestuur Responsief bestuur t.o.v. samenleving Handhaafbaarheid/kwaliteit handhaving Kwaliteit van dienstverlening Cohesiegericht bestuur Doelgerichtheid van bestuur Consistent beleid Prioriteiten bepalen Effectiviteit van beleid Legitimiteit/steun/draagvlak van beleid Uitvoerbaarheid van beleid Verzelfstandiging/privatisering Doelmatig bestuur Bedrijfsmatig bestuur Behoud privacy Slagvaardig bestuur (i.c. doorpakken) Interactief bestuur/inspraak Beginselen van behoorlijke regelgeving Eenvoudige regels/deregulering Gelijkheid nastreven Beginselen van behoorlijke behandeling Kwaliteit rechtsbescherming Klantgerichtheid van bestuur Vraaggestuurd bestuur/maatwerk Inspanningsverplichtend Prestatiegerichtheid/resultaatgerichtheid Overzichtelijkheid van bestuur en beleid Programmasturing/begroting Proportionaliteit in handelen (ook politie) Voorzorg/preventie Controle op dagelijks bestuur/evaluatie Effectrapportages (milieu ; etc.) Monitoring van voortgang Meer (horizontale) verantwoording Administratieve lasten verlagen Bestuurskrachtig bestuur Strategische beleidskwaliteit Gemeentelijke regiekwaliteit Governance, netwerkproductiviteit Kwaliteit van (keten)samenwerking Lerende overheid/ zelfreinigend vermogen Integraal bestuur Aantal criteria met minimaal één plus Aantal criteria met minimaal twee plus Legenda: 0=afwezig; + = enigszins ++= sterk aanwezig; +++= zeer sterk 45

46 In de jaren zestig van de vorige eeuw was nog slechts sprake van een beperkt aantal criteria om beleid mee te beoordelen, zoals rechtstatelijkheid, rechtmatigheid, betrouwbaarheid van bestuur, soberheid, haalbaarheid. Denken in termen van effectiviteit, legitimiteit en doelmatigheid was nog nauwelijks aan de orde. Logisch want in de jaren zestig was de overheid nog betrekkelijk klein in termen van begrotingsomvang en aantallen ambtenaren en was spreken over beleid nog nauwelijks aan de orde, laat staan en vogue. Maar in de decennia daarna is er een ware vloedgolf aan nieuwe maatstaven of criteria gekomen, zoals bij voorbeeld maatstaven op het vlak van planmatig bestuur (de commissie Vonhoff sprak van de carnavalsoptocht van planprocedures), beginselen van behoorlijke regelgeving (zie de dissertatie van Inge van der Vlies), beginselen van behoorlijke behandeling (ombudsmancriteria), slagvaardigheid, proportionaliteit, openbaarheid en tegenwoordig transparantie, netwerkproductiviteit, verantwoording, zelfreinigend vermogen (denk aan de beginselen voor goed bestuur, zoals opgesteld onder minister Ter Horst). Werden in 1958 pakweg een stuk of tien criteria waargenomen, in 2010 waren dat er al meer dan 40: een verviervoudiging (Korsten, 2005b; 2010). Die maatstavenvloed is het gevolg van disciplinaire studies van wetenschappers, parlementaire debatten en jurisprudentie en van visitatiecommissies die gemeenten, politiekorpsen, woningcorporaties, ziekenhuizen en omroepen doorlichtten (Korsten, 2005b, 2010). De maatstaven zijn de gewoonste zaak van de wereld geworden maar het overzicht ging bij evaluatoren, beleidsvoerders en velen daarbuiten ontbreken. Figuur 3: Code voor goed bestuur 1. Openheid en integriteit Het bestuur is open en integer en maakt duidelijk wat het daaronder verstaat. Het bestuur geeft in zijn gedrag het goede voorbeeld, zowel binnen de organisatie als daarbuiten. 2. Participatie Het bestuur weet wat er leeft in de maatschappij en laat zien wat het daarmee doet. 3. Behoorlijke contacten met burgers Het bestuur zorgt ervoor dat hijzelf en de organisatie zich behoorlijk gedragen in contacten met burgers. 4. Doelgerichtheid en doelmatigheid Het bestuur maakt de doelen van de organisatie bekend en neemt de beslissingen en maatregelen die nodig zijn om de gestelde doelen te behalen. 5. Legitimiteit Het bestuur neemt de beslissingen en maatregelen die het mag nemen en die in overeenstemming zijn met geldende wet en regelgeving. De beslissingen zijn te rechtvaardigen. 6. Lerend en zelfreinigend vermogen Het bestuur verbetert zijn prestaties en die van de organisatie, en richt de organisatie hier op in. 7. Verantwoording Het bestuur is bereid zich regelmatig en ruimhartig jegens de omgeving te verantwoorden. Min. van BZK (2009) Twee gevolgen: normenbank en code 46

47 De maatstavenvloed heeft twee gevolgen gehad. Ten eerste, de Algemene Rekenkamer, die ook te maken kreeg met beleidsevaluatie, ging rond 1990 en later een normenbank aanleggen om te voorkomen dat men na verloop van tijd bijvoorbeeld in een derde of vierde onderzoek naar overheidssubsidies, van jaren later, andere criteria zou aanleggen dan eerder geschied was. En om de kennis te benutten van eerder onderzoek naar hetzelfde thema. Ten tweede, vanwege de maatstavenvloed is getracht tot een korter abstract lijstje van essentiële maatstaven te komen: de code voor goed bestuur, die enkele jaren geleden is opgesteld onder verantwoordelijkheid van de bewindslieden Guusje ter Horst (PvdA) en Ank Bijleveld (CDA) van Binnenlandse Zaken en Koninkrijksrelaties. Figuur 3 geeft dit overzicht. Tot de essentiële criteria voor beoordeling van overheidshandelen behoort de noodzaak om beleid te evalueren op effectiviteit. Immers, beleid dat niet beantwoordt aan wat een overheidsbestuur wil bereiken en ervan verwacht, is ongewenst. Onderdeel van de code zijn ook criteria als doelgerichtheid, interactiviteit met burgers en steun voor beleid, alsmede zelfreinigend vermogen. De code voor goed bestuur zit helemaal op de golflengte van een lerende overheid die poogt steeds beter te handelen en aan verbetermanagement doet (verg. ook Van der Knaap, 1997). Daan van Beek spreekt van gerichtheid op een intelligente overheid en voormalig gemeentesecretaris van Amsterdam Erik Gerritsen (2011) spreekt van de wenselijkheid van een slimme overheid. Maatstaven in een netwerkcontext Beoordelen is niet alleen een zaak van maatstaven kiezen maar ook van geschikte maatstaven kiezen al naar gelang sprake is van een netwerkcontext of niet. NUBL is een voorbeeld van een netwerkcontext. Wat betekent NUBL? Casus De Nadere Uitwerking Brabant/Limburg (NUBL) was een samenwerkingsproject van de provincies Noord Brabant en Limburg en de ministeries van LNV, V&W en VROM. Het samenwerkingsproject NUBL, waarin de ROM projecten De Peel en Midden Brabant zijn opgenomen, is uitgewerkt in een startconvenant dat deze partijen in 1992 hebben getekend. Hierin geven partijen aan dat om de bestaande milieukwaliteiten in stand te houden dan wel te verbeteren en de gewenste ruimtelijke ontwikkelingen mogelijk te maken een Plan van Aanpak moet worden opgesteld. Tevens wordt afgesproken dat dit plan gericht is op uitvoering van projecten in het kader van de geïntegreerde aanpak voor het ruimtelijk beleid en milieubeleid. De uitvoeringsprojecten zullen in nauwe samenwerking met regionale belangenorganisaties, bestuurlijke organisaties, maatschappelijke groeperingen en het bedrijfsleven worden ontwikkeld. Het Plan van Aanpak NUBL is dus een uiting van gezamenlijk concreet aan de slag willen en gaan. De reden voor de samenwerking ligt in de stagnatie van de regionale economische ontwikkeling en de cumulatie van problemen in een omvang die groter is dan veelal elders in Nederland. NUBL was een kans om verbetering te brengen op het raakvlak van landbouw, economie, recreatie en toerisme, milieu, water, ruimtelijke ordening en natuur. Er was ruime financiering voor de projecten mogelijk. De plannen zouden in de periode tot en met 1997 van start moeten gaan. 47

48 NUBL had onder meer betrekking op De Peel. De Peel ligt op de grens van Brabant en Limburg, tussen de kernen Asten, Deurne, Horst en Panningen. Binnen dit gebied liggen plaatsen als Griendtsveen en Helenaveen. Dagblad De Limburger hierover begin 1997: De Streekcommissie Peelvenen organiseert twee voorlichtingsbijeenkomsten. De eerste op (...) 1997 in (..) Nederweert en de tweede op (..) in (..) te Helenaveen. (..). De voorzitter en enkele leden van de Streekcommissie zullen vertellen over het werk van de Streekcommissie en hoe zij de streek bij hun werk willen betrekken. Medio 1996 heeft de Streekcommissie Peelvenen het heft in handen genomen om samenhang in de uitvoering van beleid te brengen. Het Peelvenenproject is met name bedoeld om de samenwerking tussen de overheden, doelgroepen en bewoners in de Peelregio te versterken. De leden van de verschillende belangengroepen hebben afgesproken samen met de streek de problemen aan te pakken. Het gaat hierbij om problemen op het gebied van natuur, landbouw, recreatie, water, milieu, landschap en economie. Inmiddels zijn door initiatieven uit de streek ongeveer 20 projecten in uitvoering genomen. De Streekcommissie wil u graag informeren over haar werkzaamheden, de stand van zaken van de projecten en hoe zij u in het vervolgtraject wil betrekken. Want de Streekcommissie wil graag met de streek in gesprek gaan over de toekomst van de Peelvenen. Het ROM gebiedenbeleid bleek in 1998 alleen nog maar een bestuurlijk plansucces. Er was sprake van plannen maar niet van veel meer, zoals blijkt uit de ministeriële evaluatie en het boek De proef op de ROM. NUBL bleek geen goed beleidsmanagement gehad te hebben. Het had beter gekund, aldus de hoogleraar P. Glasbergen in een audit van de zelfevaluatie door het programmabureau NUBL. Netwerkmanagement is blijkbaar niet makkelijk. Maar hoe een provinciebestuur in den brede te beoordelen? Voor het begrijpen van de kwaliteit van een provinciaal bestuur is het niet alleen nuttig maar ook noodzakelijk het wetenschappelijk werk over beleidsnetwerken te kennen. Dat dreigde bij twee recente visitaties van de provinciale bestuurskracht, die van de provincies Limburg en van Zeeland, even vergeten te worden ondanks de aanwezigheid van drie voormalige commissarissen der koningin in de commissies. Maar er trad na discussie in de visitatiecommissies en het beraad met de adviseurs tijdig een herstel in denken op. Waar ging het om? Er dreigde bij de beoordeling van elk provinciebestuur, haar organisatie en bestuurlijke opgaven en bestuurskracht een en hetzelfde beoordelingskader te ontstaan voor alle provinciale taken. Dat zou bij nader inzien een blunder geweest zijn. Er bestaan namelijk grofweg twee soorten provinciale taken of taakclusters: taken waarbij het provinciebestuur (vrijwel) alle doorzettingsmacht in eigen hand heeft en taken waarbij sprake is van afhankelijkheid van andere organisaties. Ik licht dit toe. Doorzettingsmacht. Ten eerste zijn dat de bestuurlijke taken (opdrachten en andere opgaven) waarbij een provinciebestuur zelf over vele aan die taken gerelateerde bevoegdheden beschikt en over middelen beschikt. In dat geval, dus als gedeputeerde staten aan alle knoppen zitten, is het provinciebestuur nauwelijks afhankelijk van andere actores in een beleidsnetwerk en kan het zelf in principe veel macht doorzetten in de vorm van besluiten en beleidsrealisaties. Denk aan het onderhoud van provinciewegen. Wie veel taken, bevoegdheden en middelen in eigen handen heeft, kan beoordeeld worden in termen van doeleinden, voortgang maken en dus beoordeeld worden in termen van slagvaardigheid. Van bestuurlijke drukte heeft een dergelijk bestuur in dat geval geen last. Netwerkvorming is hier niet aan de orde want er is geen 48

49 (beleids)netwerk. Regiekwaliteit is dit geval een onzinnig criterium want het provinciebestuur is hier zowel sturingsactor als belangrijkste of enige uitvoerder van provinciaal beleid. Gespreide macht. Daarnaast komt het veelvuldig voor dat een provinciebestuur beschikt over een zekere wettelijke taak maar juist nauwelijks over bevoegdheden en middelen, zeker niet over alle bevoegdheden. Dat is het tweede taakcluster. Gebiedsgericht beleid behoort hiertoe. Dan is een provinciebestuur als het iets wil bereiken juist buitengewoon afhankelijk van andere actores en moet samenwerking en onderhandeling verder brengen. In die tweede context van taakvervulling in een netwerk van mede overheden beschikt een provinciebestuur dus niet alleen over doorzettingsmacht. Een provinciebestuur krijgt hier alléén niets voor elkaar. Als provinciebestuur heb je de andere actores nodig want ze beschikken positief gezien over middelen ( resources ) die nodig zijn voor het realiseren van een gemeenschappelijk doel en negatief gezien over rem of vetomacht ( blokkademacht ). Bij dit twee taakcluster moet je beoordelen: op adequaatheid van de netwerkconstitutie ( alle partners aan tafel? ), op netwerk of ketenproductiviteit (sporen doelstellingen van van elkaar afhankelijke partners?; is sprake van schakeling tussen organisaties of elkaar hinderen?; kunnen financiële middelen gebundeld worden?) en op regie (o.a. initiatiefname; afstemming). In netwerkcontexten is slagvaardigheid van een actor alleen, een provinciebestuur, op zich iets dat als een tang op een varken slaat. In een netwerkcontext is slagvaardigheid van een provinciebestuur immers een niets zeggend iets omdat het gaat om de slagvaardigheid van het totaal aan netwerkpartners, die van elkaar afhankelijk zijn en elkaar dus nodig hebben. Het gehéél moet slagvaardig worden en het moet niet zo zijn dat sprake is van free riders (meeliften zonder inspanningen en een aandeel te leveren). Een netwerk komt in actie als partners zich willen verdiepen in de perceptie van de ander van een probleemoplossingsrichting, en als er een klimaat ontstaat om de bestaande belangenconfiguraties te overstijgen. Een dialoog van doven moet worden voorkomen. Het gaat hier om het leerstuk van procesmanagement (De Bruijn, Ten Heuvelhof en In t Veld, 2002). Bij het tweetal taakclusters gaat het dus om gedeeltelijk verschillende criteria ter beoordeling. Uiteindelijk is wel gemeenschappelijk of het beleid democratisch gefundeerd is, rechtvaardig is, rechtmatig, doelmatig en legitiem maar bepaalde criteria zijn gerelateerd aan een taakcluster, zoals met deze tweedeling duidelijk is gemaakt. Ik zal de betekenis van gedifferentieerde criteriatoepassing verder toelichten aan de hand van eigen ervaringen met het visiteren van twee provinciebesturen op bestuurskracht, die van Limburg en die van Zeeland. Bestuurskrachtmeting in Limburg en Zeeland We maken nu een sprongetje in de tijd en naar een andere context, en bezien of netwerkdenken voor de visitatie van provinciebesturen van belang is. Enkele jaren terug werd ik gevraagd om lid te worden van een visitatiecommissie die de bestuurskracht van de provinciebestuur Limburg tegen het licht moest houden. Ik zou dat werk aanvatten met een minister van staat en voormalige minister, CdK (van Noord Holland) en burgemeester, te weten Jos van Kemenade en met als derde visitatiecommissielid een oudcommissaris der koningin (van Overijssel) en voormalig directeur generaal openbaar bestuur van het ministerie van BZK Jan Hendriks. Dit ervaren trio liet zich bijstaan door een gerenommeerd adviesbureau, Berenschot. De commissie zou de bestuurskracht bekijken door uit te gaan van een selectie van bestuurlijke opgaven van het provinciebestuur en daarvan te 49

50 bezien wat er in de uitvoering van terecht kwam. Daaruit zouden dan wel enkele wijze lessen te trekken zijn die het provinciebestuur kon benutten voor de toekomst. Het visitatietrio kwam met de fractieleiders en gedeputeerde staten overeen dat een aantal geselecteerde opgaven geschikt was. Deze opgaven, die ambities bevatten, gaven de essentie van het provinciebestuur weer, omvatten meer dan de helft van het provinciebudget en werden ook anderszins als een redelijke afspiegeling gezien van de provinciale taken (en daarmee verbonden bevoegdheden). De aanpak van de bestuurskrachtmeting kon zo op steun van alle politieke kanten rekenen en was daarmee onomstreden. Beoordelingscriteria De visitatiecommissie had zich in haar planopzet nadrukkelijk ingelaten met de beoordelingscriteria van het provinciebestuurlijk handelen (Berndsen, Fraanje, Korsten en Kort, 2007). Spiegelen is nuttig maar je moet wel brillen hebben om te kijken en normen ter beoordeling van wat je ziet. Waarop het provinciebestuur te beoordelen? De bestuurskunde doet ons hier een handreiking. Vanuit het perspectief van doelgerichtheid, systeemlegitimiteit en specifieke beleidssteun, doeltreffendheid, doelmatigheid, rechtmatigheid, slagkracht, vermijding van bestuurlijke drukte? Deze keuze van criteria moest recht doen aan het provinciebestuur, dus aan het middenbestuur. Dat betekende dat de keuze van dergelijke criteria niet voldoende was. Het provinciebestuur moet als middenbestuur immers ook op diverse terreinen coördineren en afstemmen. Denk maar eens aan de rol op het gebied van waterbeleid. Waterschappen voeren uit maar provinciebesturen sturen de waterschappen op hoofdlijnen, rekening houdend met het nationale beleid. De visitatiecommissie formuleerde met de adviseurs een aantal criteria ter beoordeling van de bestuurskracht. So far, so good! Verliep het proces van beoordeling in de uitvoering van de visitatie ook soepel? Een van de meest opvallende punten uit het visitatieproces was, achteraf, dat er bij de formulering van provinciale taken door de commissie aanvankelijk geen onderscheid was gemaakt in taken waarvoor de provincie zelf volledig verantwoordelijk is en waarbij dit bestuur ook over alle bevoegdheden en middelen beschikt, versus een situatie waarbij taken, bevoegdheden en middelen die gespreid waren over actores, zoals veelal bij gebiedsgericht beleid het geval was en is. Er was door de visitatiecommissie en de ondersteuners dus geen rekening gehouden met het feit dat een provinciebestuur ten aanzien van bepaalde opgaven over veel doorzettingsmacht beschikte en over tal van andere in het geheel niet omdat het afhankelijk was. Dat betekende dat het trio visitatoren zich moest bezinnen op de beoordelingscriteria bij beleid waarbij het provinciebestuur beschikte over veel doorzettingsmacht versus beleid dat in een netwerkcontext tot stand komt en/of wordt uitgevoerd en het provinciebestuur dus over weinig doorzettingsmacht beschikt. Waarom niet gezien? Hoe kon het gebeuren dat dit onderscheid aanvankelijk niet gezien werd terwijl toch twee van de drie visitatoren nota bene zelf provinciebestuurder waren geweest? Dat kwam omdat de ondersteunende adviseurs sterk op de private sector waren gericht (geweest) en omdat er geen actuele, toegankelijke en dus handzame catalogus bestaat van provincietaken die in netwerkvorm worden opgepakt. De ondersteunende adviseurs veronderstelden dat criteria als initiatief en slagvaardigheid ongedifferentieerd naar taken en bevoegdheden volledig van toepassing zou kunnen zijn op alles wat een provinciebestuur doet. Dat was en is echter een misverstand. Een provinciebestuur heeft op diverse beleidsterreinen helemaal niet de mogelijkheid om een proces naar haar hand te zetten. Ze is als middenbestuur slechts mede overheid. Een provinciebestuur heeft bijna geen enkel direct 50

51 contact met burgers. Haar partners, subsidieontvangers of klanten zijn tussengeschakelde organisaties. Afhankelijkheid Overheidsorganisaties kunnen in het algemeen een wettelijk voorgeschreven taak hebben en ook over de (beslis)bevoegdheden en middelen beschikken om opgaven op een taakgebied te realiseren. Als dat het geval is, heeft een overheidsorganisatie doorzettingsmacht, tenminste als er voldoende steun is voor besluiten en geen partij besluiten dwarsboomt. Op tal van gebieden heeft een overheidsorganisatie wel een wettelijke taak maar slechts beperkte bevoegdheden en middelen. In die situatie is sprake van afhankelijkheden van andere overheidsorganisaties en actoren daarbuiten. Dan zijn interbestuurlijke relaties aan de orde. Een bekend voorbeeld daarvan is de wenselijke vernatting van De Peel en het tegengaan van verdroging. Het bevorderen van vernatting is alleen mogelijk als van elkaar afhankelijke partijen samenwerken. In geval van De Peel ging het om enkele ministeries, enkele provinciebesturen, waterschappen, gemeenten en grondeigenaren. Samenwerking is nodig omdat geen partij zijn wil (of macht) kan opleggen aan een andere. Geen enkele partij kan de vernatting alleen realiseren. Er is geen bestuurlijke hiërarchie gewenst maar wat men in Duitsland noemt: Politikverflechtung. Als andere partijen niet gezamenlijk meedoen, komt er niks van de grond. In een situatie van afhankelijkheid gelden niet zonder meer dezelfde beoordelingscriteria als in een situatie waarin voor een provinciebestuur geen afhankelijkheid bestaat. Indien organisaties van elkaar afhankelijk zijn, is het gewenst om te komen tot netwerkconstitutie (goede partijen aan tafel) en netwerkproductiviteit. Die productiviteit kan intentioneel blijken uit goede bedoelingen maar belangrijker is dat sprake is van (een zekere) doelcongruentie en ook een middelenbundeling. Doelcongruentie is nodig om te vermijden dat de strijd voortduurt over waarheen een gebied zich ontwikkelt. Middelenvervlechting is nodig omdat geen enkele partij genoeg middelen heeft om te realiseren wat nodig is. Cofinanciering dient zich als een mogelijkheid aan. Regie In een beleidsnetwerk zitten niet zo maar de goede partijen aan tafel en ze zijn niet als vanzelf productief. Het is nodig dat er regie ontstaat door een procesarchitect en dat blokkades vermeden worden en doorbraken ontstaan. Een provinciebestuur kan een rol in deze vervullen als ze een relatief machtige positie vervuld, hetzij qua bevoegdheden, hetzij financiële middelen, hetzij beide. Provinciebestuurders die zelf krachtdadig zijn in de ene context waarin het provinciebestuur doorzettingsmacht heeft, moeten in een netwerkcontext juist behoedzaam opereren. Dat is wat de visitatoren in Limburg geleerd hebben. Zij en de adviseurs moesten niet zo maar overal slagvaardigheid, doelgerichtheid en beleidseffectiviteit van handelen eisen (criteria die makkelijk zijn te hanteren als een overheid de volledige doorzettingsmacht heeft) maar daar waar een netwerkcontext aan de orde is ook de netwerkconstitutie, de netwerkproductiviteit, de eventuele fixaties of blokkades en de regie bezien. Deze belangrijke les van onderscheid maken naar taakclusters is ook geleerd in het proces van visitatie van de provincie Zeeland. Deze in 2010 uitgevoerde visitatiecommissie bestond uit oud gedeputeerde van Groningen Marc Calon, oud CdK van Noord Brabant Hanja Maij Weggen, voormalig CZ voorzitter Mike Leers en hoogleraar Arno Korsten. Ook tijdens deze visitatie moest bij nader inzien het onderscheid in taaksoorten gemaakt worden. 51

52 Figuur 4: Matrix van provinciale taken Geheel van bevoegdheden en middelen van het provinciebestuur Veel Weinig of geen Opgaven van het provinciebestuur Wettelijke opgaven Autonome opgaven a. Weinig afhankelijkheid van andere overheidsactores: grote doorzettingsmacht voor provinciebestuur b. Weinig afhankelijkheid van andere actores. Middelen als lokaas. c. Veel afhankelijkheid: weinig doorzettingsmacht van provinciebestuur; netwerkproductiviteit gewenst d. Veel afhankelijkheid als gevolg van beperkte bevoegdheden en/of middelen: weinig doorzettingsmacht. Netwerkconstitutie en netwerkproductiviteit gewenst Figuur 5 verschaft daarbij nog aanvullend inzicht doordat een onderscheid gemaakt wordt in wettelijke en autonome taken. Bij autonome taken die een provinciebestuur oppakt, kan ook weer sprake zijn van een context van veel afhankelijkheid van andere organisaties of weinig. Figuur 5: Voorbeelden van enige taken van het provinciebestuur van Zeeland vlg. B&A Groep Opgaven van het provinciebestuur Wettelijke opgaven Geheel van bevoegdheden en middelen van het provinciebestuur Veel Weinig of geen a. Weinig afhankelijkheid van c. Veel afhankelijkheid: weinig andere overheidsactores: doorzettingsmacht van grote doorzettingsmacht voor provinciebestuur; netwerkproductiviteit provinciebestuur. gewenst. Voorbeelden: Ecologische Voorbeelden: nieuwe Wet hoofdstructuur; steunfunctie ruimtelijke ordening. Wmo voor gemeenten; vergunningverlening Autonome opgaven b. Weinig afhankelijkheid van andere actores. Middelen als lokaas. Voorbeelden: Instandhouding van mbo, hbo en wo in Zeeland (OAZ) d. Veel afhankelijkheid als gevolg van beperkte bevoegdheden en/of middelen: weinig doorzettingsmacht. Netwerkconstitutie en netwerkproductiviteit gewenst. Voorbeelden: provinciaal toeristisch beleid; havenontwikkeling; waterveiligheid; verkeersveiligheid. Reflectie: nieuwe criteria Wie als visitatiecommissie de bestuurskracht van een provinciebestuur beoordeelt, uitgaande van taakgerelateerde opgaven en ambities en de uitvoering daarvan, zal altijd beoordelingscriteria hanteren. De keuze daarvan is nog niet zo eenvoudig omdat historisch gezien sprake is geweest van een grote toename van criteria ter beoordeling van overheidshandelen (Korsten, 2010). Het gaat al lang niet meer alleen om bekende referentiecriteria (wenselijkheden, eisen) als rechtmatigheid, doelgerichtheid, doeltreffendheid, doelmatigheid, behoorlijk bestuur, legitimiteit van overheidshandelen, integriteit. De overheid is zich namelijk in toenemende mate gaan inlaten met andere besturen en de samenleving en delen daarvan, en ze doet dat op tal van manieren. Dat leidde tot nieuwe criteria om beleid te realiseren zoals bij voorbeeld het vermijden van bestuurlijke drukte (filevorming houdt immers op), regiekwaliteit (bij elkaar brengen), proportioneel handelen (lichte middelen gebruiken waar dat kan), transparantie. De historische groei in criteria verhindert niet om een lijst van criteria op te stellen voor het beoordelen van een middenbestuur (Berndsen, Fraanje, Korsten en Kort, 2007). 52

53 Kan men deze criteria nu onverkort toepassen op alle taken van een provinciebestuur: op taken die wel of niet in een netwerkcontext worden opgepakt en uitgevoerd? Dat was de kernvraag van dit betoog. Het antwoord luidt negatief. Er bestaan namelijk taken waarover een provinciebestuur (nagenoeg) alleen kan besluiten en taken waarbij dat niet het geval is. Besluit een provinciebestuur alleen dan is beoordeling eenvoudig. Immers, alle taken, bevoegdheden en middelen komen dan uit het provinciebestuur zelf. Dan is bestuurlijke drukte géén issue en dus geen beoordelingspunt want je doet zelf wat je besluit. Dan opereert een provinciebestuur sterk hiërarchisch. Dan is netwerkproductiviteit geen criterium want er bestaat geen netwerk op dat gebied. In geval een provinciebestuur daarentegen niet alleen kan besluiten en dat komt vaak voor bij een middenbestuur, zeker bij ruimtelijke ordening en gebiedsgerichte issues is sprake van een verstrengeling tussen van elkaar afhankelijke overheden. Denk maar eens aan de ontwikkeling van een bedrijventerrein, dat moet passen in de provinciale en gemeentelijke ruimtelijke ordening en grondpolitiek. Denk ook aan het bestrijden van verdroging in een beekachtig, moerassig of drassig gebied. Dan is het nodig te kijken of de van elkaar afhankelijke overheden met elk eigen taak, bevoegdheden en middelen elkaar ontmoeten en overleggen om het eens te worden over doeleinden en over het in een pot doen van middelen (doelcongruentie en cofinanciering). En dan is inzet van blokkademacht ongewenst. Regie is hier juist wel een criterium als een provinciebestuur voor de taakaanpak afhankelijk is van andere actores (zoals waterschappen, gemeenten, samenwerkingsverbanden, grondeigenaren, etc.) die ook over eigen verantwoordelijkheden en daarmee eigen taken en bevoegdheden beschikken en middelen kunnen inzetten. Het provinciebestuur kan de regierol vervullen maar die rol kan ook bij andere overheden liggen, wat mede afhankelijk is van wettelijke kaders en/of (financiële) macht en/of afspraken. Oude reflex Opmerkelijk nu is dat in de praktijk de neiging tot een oude reflex bestaat bij visitatiecommissies en ondersteunende adviseurs, namelijk om criteria die horen bij een zelf besluitende en uitvoerende provincie ook los te laten op contexten waarin een provincie juist maar weinig te zeggen heeft, namelijk in een netwerkcontext (van van elkaar afhankelijke overheden). Met andere woorden, van een provinciebestuur wordt in die oude reflex verwacht dat ze hiërarchisch optreedt denk aan woorden als: stevig, stoer, beslissend, slagvaardig in een netwerkcontext. Welnu, dat kan niet. Dat leidt tot weinig of niets. Als een provinciebestuur in een netwerk opereert van van elkaar afhankelijke overheden dan moeten provinciebestuurders partners bij elkaar brengen, bestaande tegenstellingen overstijgen in een nieuw concept met een focus en verbinden, verzoenen, verknopen. Daarvoor kan een provinciebestuur bij voorbeeld ook met de geldbuidel rammelen. De wettelijk vastgelegde afhankelijkheid lees het vervlochten bestuur dwingt daartoe. Daarmee betreden we het gebied van het faciliteren van interactieprocessen, van co creatie en van vitaliseren van gestagneerde organiseerprocessen, allemaal onderdelen uit het leerstuk van netwerkmanagement (Glasbergen, 1989; Van Eeten en Termeer, 1996; Van Eeten, 1999; De Bruijn, Ten Heuvelhof en In t Veld, 2002; Termeer, 2006). De ervaringen met visitatieprocessen leert dat goede provinciebestuurders in de gaten hebben wat het ene taakgebied en het andere vereist. Zelfs krachtige bestuurders met visie zoals de Limburgse gedeputeerden Vestjens (VVD) en Driessen (CDA) bleken in een netwerkcontext behoedzaam, faciliterend en interacterend te opereren terwijl ze juist de leiding nemen waar het provinciebestuur over een wettelijke taak en juist veel eigen bevoegdheden en middelen beschikt. 53

54 DEEL III: DE KEUZE VAN EEN EVALUATIE OPZET EN DE EVALUATIELADDER 54

55 10 ER IS MEER DAN DE KLASSIEKE EVALUATIE: TYPEN BELEIDSEVALUATIE OP EEN RIJ Eerst weer even terug naar de klassieke beleidsevaluatie. Vandaar bouw ik het verhaal op om zichtbaar te maken dat er meer typen beleidsevaluatie bestaan en er keuzen te maken zijn in concrete gevallen van odnerzoek. Het effectiviteitonderzoek wordt ex post uitgevoerd. Kern daarvan is, aldus Carol Weiss (1972, 1976) de doelbereikingsanalyse ( goal achievement approach ) (Bekkers, 2007: 299). Daarin wordt een antwoord gegeven op de vraag: bereik ik met beleid wat ik wil bereiken? Maar de effectiviteitanalyse kent een tweede onderdeel: bereik ik de doelstellingen juist door het beleid zelf of door andere factoren of omstandigheden?dat noemen we wel de oorzakelijkheidsanalyse. Bij dergelijk onderzoek kan men veronderstellingen naar boven halen en bezien of ze juist blijken. Bij voorbeeld: er wordt een verkeersveiligheidsbeleid opgetuigd. Doel is: minder slachtoffers door verkeersincidenten in wijken. Middelen: verkeersdrempels en andere verkeerssnelheidremmers. Resultaat: het aantal incidenten en ongelukken met letselschade neemt in twee jaar in stad X af in wijken met drempels versus wijken waar geen maatregelen zijn getroffen. Komt dat door de aanleg van drempels en andere remmers? Stel het blijkt ook dat de politie auto s meer is gaan controleren op rijsnelheid en stel dat die controles meer in de wijken met minder slachtoffers plaatsvonden, zonder dat van bewuste politiek van de politie sprake was. Dan is de beleidsmix nuttig, inclusief de controles. Misschien moet na de evaluatie die dit aan het licht brengt het beleid worden aangepast met blijvend meer controles of de plaatsing van snelheidattenderingspalen, vanuit de veronderstelling dat die eenzelfde werking op verkeersdeelnemers hebben als politiecontroles. Immers snelheidscontroles zullen niet structureel in de betreffende wijken plaatsvinden. Direct is nu ook duidelijk dat de gebruiksgerichte evaluatie niet voor de Bühne plaatsvindt maar ook van nut is voor de bezinning op beleid. Dat kon in geval van de beoordeling van beleid alleen door een intelligente onderzoeksopzet met een interventiegebied en wijken die niet (frequent) aan de prikkel met verkeerscontroles blootgesteld waren. Met het noemen van de klassieke evaluatie die uitgaat van doelstellingen of breder beleidsveronderstellingen is, is het klassieke type evaluatie genoemd. Een variant is de goal free evaluation.wat houdt die in? Doelstellingsvrije beleidsevaluatie ex post Evaluatie van beleid kan een effectiviteitsanalyse impliceren, die vertrekt vanuit achterliggende doelstellingen en veronderstellingen maar ook een doelstellingsvrije evaluatie (goal free evaluation) zijn. Wie op zoek gaat naar neveneffecten van beleid, dus naar effecten die wel optreden maar nooit bedoeld waren, moet niet uitgaan van de officiële doelstellingen maar moet juist op zoek gaan naar bezwaren die vóór de besluitvorming over het beleid of direct daarna zijn geuit. En de evaluator kan in het veld vragen naar veronderstelde of al gebleken neveneffecten. Critici en anderen kunnen aanwijzingen geven waar die neveneffecten te vinden zijn. Indelingen 55

56 Er bestaan in werkelijkheid echter meer typen evaluatie. Het is als met Eskimo s. Eskimo s kunnen veel soorten sneeuw onderscheiden. Wie geen Eskimo is zal misschien alleen een onderscheid kunnen maken tussen natte en droge sneeuw, poeder en korrelsneeuw. Zo is het ook met evaluatie. Kenners kunnen veel soorten onderscheiden en niet kenners niet. Ik geef enkele onderscheidingen en noem de volgende typen: 1. Verplichte evaluatie of vrijwillige evaluatie: evaluatie als gevolg van een beleid met een eindtermijn ( sunset legislation ), een evaluatiebepaling in een wet of verordening, of ad hoc te starten. 2. Een onderscheid naar evaluatie vóór de besluitvorming over een beleidsprogramma erna: ex ante evaluatie versus ex post evaluatie. De klassieke aanpak van effectiviteitsanalyse is een ex post aanpak; 3. Een evaluatiemoment snel na besluitvorming, dat wil zeggen als er nog wat aan beleid te veranderen is: early warning evaluatie; 4. Evaluatie in de vorm van alleen terugkijken of ook vooruit kijken: retrospectieve en prospectieve evaluatie. De meeste beleidsevaluaties op rijksniveau zijn terugblikkende evaluaties. Die hebben het nadeel dat ze over het algemeen weinig handreikingen geven voor de toekomst. Daarom wordt wel gezegd: kom met een prospectieve evaluatie. Dan is de bedoeling om terug te blikken op de manier waarop beleid is toegepast en zich ontwikkeld heeft maar ook op zoek te gaan naar de doorontwikkeling en de mogelijkheid van toepassing van best practices die elders voorkomen; 5. Evaluatie van een beleidsprogramma of evaluatie van een organisatie met een geheel van beleidsprogramma s. Deze gaan vaak onder de vlag van een visitatie van gemeenten, ziekenhuizen, politiekorpsen, woningcorporaties, een omroep; Ik zal nog eens aangeven wat de ex antye en ex post aanpak is om langs die weg enkele andere typen te verduidelijken. Het stil staan bij de klassieke aanpak is tevens bedoeld om deze aanpak er bij de lezer in te hameren als een ankerpunt, als een punt van waaruit steeds te vertrekken is. Toelichting: ex ante en ex post evaluaties Ex ante evaluaties impliceren dat voorafgaand aan besluitvorming over een beleid nagegaan wordt wat gewenste of ongewenste gevolgen zijn van een of meer beleidsalternatieven. Bij ex post evaluaties gaat het om de beoordeling van beleid nadat het beleid is vastgesteld en volop in uitvoering is. De meeste studies die je tegenkomt zijn ex post studies. Het oogmerk verantwoording brengt vaak al ex post evaluaties met zich. Maar ook wie beleid wil ombuigen laat vaak eerst een evaluatie verrichten. Immers, er moeten argumenten op tafel komen waarom tot ombuigingen wordt overgegaan en welke kant die opmoet. Ex ante evaluatie is evenwel ook belangrijk. Ik ben er altijd een warm voorstander van geweest wat onder meer bleek uit beschouwingen over uitvoeringsgericht ontwerpen van beleid (Elmore spreekt van forward & backward mapping ). Een voorbeeld: Stel er zijn alternatieven voor een beleid om de achterstand van autochtone jongeren in het Friese onderwijs te corrigeren. De volgende alternatieve beleidsroutes zijn in de fase van beleidsvoorbereiding genoemd: 56

57 a) een programma mogelijk maken dat gericht is op meer individuele begeleiding van jongeren ( remedial teaching ) in het Friese basisonderwijs: extra gelden voor het aantrekken van begeleidende leerkrachten; b) een programma gerichte op klassenverkleining in alle leerjaren van het Friese basisonderwijs, waardoor er ook meer aandacht van onderwijskrachten naar leerlingen kan uitgaan; c) een programma om op vrijwillige basis tegen betaling van een zekere bijdrage door ouders gedurende drie dagen per week driekwartier extra scholing te geven in alle leerjaren van het Friese basisonderwijs; d) een combinatie van a en b. Stel dat dit de alternatieven zijn waar na allerlei afwegingen de voorkeur naar kan uitgaan maar er moet nog wel een keuze gemaakt worden. Dan kan een ex ante evaluatie gericht zijn op het inschatten van de effecten per alternatief en een vergelijking daarvan. Alternatief a en b kan duurder zijn dan c. Stel. Misschien dat een tweetal panelbijeenkomsten van onderwijskundigen en onderwijssociologen, een Nederlands panel en een internationaal panel, uitwijst dat de maatregelen a en b het beste samen kunnen gaan maar slechts een beperkt effect sorteren omdat de genetische factor veel meer de onderwijsprestaties in alle leerjaren van het basisonderwijs verklaart. Stel. En, stel, alternatief c stuit op weerstand bij Friese burgers en leerkrachten die niet willen worden opgezadeld met inning. Dan zou een uitkomst kunnen zijn dat een bewindspersoon geen enkele van deze maatregelen doorzet. Ex ante evaluatie kan zo gezien ertoe bijdragen om helemaal niet te beginnen aan beleid dat onvoldoende effect sorteert. Of om nog eens goed na te denken over de kosten en baten van beleid. Ex ante evaluatie maakt dus kritisch over bedoelde effecten (zie Hellendoorn, 2001; Hanemaayer, 2012). Ex ante evaluatie is vooral nuttig bij die doorgaans controversiële beleidsissues waarvan veel onbekend is (wat zijn de oorzaken?) en waarover betrokkenen het maar moeilijk eens kunnen worden over de probleemanalyse en de oplossing? Het was Ad Geelhoed, de topambtenaar die in de jaren tachtig van de vorige eeuw op nationaal niveau de dereguleringsoperatie leidde, die na het bekijken van tal van wetsontwerpen en wetten ook een krachtig pleitbezorger werd van structureel ingebedde ex ante evaluaties. Horen we die geluiden meer recent nog? Ook Frans Leeuw (2008), directeur van het Wetenschappelijk Onderzoeks en Documentatie Centrum (WODC) op het gebied van justitie en veiligheid, laat zich kritisch uit over de vele sprongen in het donker, die gemaakt worden, bij voorbeeld op het terrein van het beleidsmatig omgaan met justitiabelen. Sommig beleid ontstijgt de status van charlatanerie en fictie niet, stelt hij. Dick Hanemaayer (2012), die 25 jaar beleidsevaluator was, geeft als hartenkreet dat overheidsbeleid vaak niet goed wordt voorbereid, en dat bij overheidsbeleid minimaal gebruik wordt gemaakt van ex ante evaluatie. 57

58 Er moet dus veel meer gedaan worden aan ex ante evaluatie, menen de ervaringsdeskundigen Leeuw en Hanemaayer. Dat geldt voor alle overheidsniveaus. Niet blind meer, maar vooral bij weerbarstig en dus complexe problemen en daaraan gerelateerd beleid. Veelal zal dat beleid zijn in een netwerkcontext. Denk maar aan preventie tegen voetbalvandalisme. Zijn ex ante evaluaties meer dan koffiedik kijken? Er zijn methoden denkbaar die impliceren dat met een redelijke grote waarschijnlijkheid kunnen aangeven wat er wel of niet van veronderstellingen terecht komt. Simulatie van de uitvoering van een wetsontwerp is zo een middel (verder Hellendoorn, 2001; Hanemaayer, 2012). William Dunn geeft in zijn boek Public Policy Analysis (5 e editie) een overzicht van deze methoden voor wat hij noemt forecasting expected policy outcomes. Daartoe behoren onder meer haalbaarheidstudies ( feasibility assessments ), trendanalyses, toekomstverkenningen, de Delphi methode en cross impact analysis (Dunn, 2012: ). Inputevaluatie als vorm van ex ante evaluatie Deze beschouwing gaat over typen evaluaties. Ex ante evaluaties zijn er in soorten. Effectrapportages zijn als ex ante evaluatie te zien. Deze zijn aspectmatig en doorgaans niet integraal gericht. Ik geef nog een bijzonder type: inputevaluatie. Inputevaluatie is gericht op de inspanningen die moeten worden verricht om bepaalde doelstellingen te realiseren. Dan zal het gaan om de kwantitatieve en kwalitatieve hulpbronnen, zoals mensen en middelen, die nodig zijn om beleid op te tuigen en uit te voeren (Bekkers, 2007: 299). Procesevaluatie als vorm van ex ante of ex post evaluatie Een iets ander type evaluatie is de procesevaluatie (Bekkers, 2007: 299). Deze kan voorafgaande aan de belangrijkste besluitvorming over een beleid worden uitgevoerd of naderhand. Met procesevaluaties wordt beoogd om te inventariseren wat nodig is aan processen om bepaalde doelstellingen te bereiken. De focus is dan gericht op de organisatie van het beleid en de beleidsuitvoering in het bijzonder, ook in interbestuurlijk perspectief. Bij voorbeeld, welke invoeringsaanpak van het beleid op het vlak van de Wet maatschappelijke ontwikkeling (wmo) is nodig? Welke condities zijn gewenst om te bereiken dat gemeenten na decentralisatie van taken en bevoegdheden deze wmo taken op zich nemen? (Peters, 2006). Moeten voorbeeldprojecten ( pilots ) worden gestart, zoals het geval was bij de Wet dualisering gemeentebestuur, zoals gemeenten van elkaar kunnen leren? Efficiency evaluatie als ex post of ex ante evaluatie Een efficiency evaluatie betreft een evaluatie van de verwachte of feitelijke kosten die de uitvoering van beleid met zich brengt. De vraag kan zijn hoe de kosten zich verhouden tot de verwachte of feitelijke baten (Bekkers, 2007: 300). Vragen op dit vlak zijn bij voorbeeld: Maakt vergrijzing de AOW onbetaalbaar? Naleving en handhaving: loont het de moeite? (Prinsen en Vossen, 2003); Opsluiten of sleutelen?: kosten en baten van detentie en resocialisatie? (Slotboom en Wiebrens, 2003); Alcoholcontroles in het verkeer: wat leveren ze op? (Wesemann, 2003); Brandveiligheid in de horeca: wat zijn de kosten en baten van additionele maatregelen? (Suurmond en Van Velthoven, 2003). 58

59 Deze evaluatie is daarmee een ex post evaluatie. Het kan echter ook gaan om een ex ante evaluatie. Vaak zal aan de decentralisatie van een bepaalde taak naar gemeenten een taxatie van de kosten vooraf gaan. Responsieve evaluatie De beleidsevaluaties, zoals de klassieke aanpak van de effectiviteitsanalyse en de goal free evaluation worden wel rationele evaluaties genoemd. Hiertegenover staan responsieve evaluaties. Tineke Abma (2000, 2001) is vooral een verdediger hiervan. Ze wil vooral de kijk van verschillende actores op beleid verduidelijken en niet alleen uitgaan van de overheidsblik. Haar analyses richten zich vooral op de gezondheidszorg. Met haar pleidooi heeft ze nog niet veel voeten aan de grond gekregen omdat haar aanpak teveel een beleidsontwerp aanpak is, waarbij ze alle partijen en zeker ook zwakkere, wier belang doorgaans slecht vertegenwoordigd is, aan bod wil laten komen. Retrospectieve en prospectieve evaluatie ex post Ik kom bijeen volgend onderscheid. Veel evaluaties zijn ex post en retrospectief en niet expliciet prospectief gericht. Beleidsvoerders zijn daarover wel eens ontevreden omdat deze evaluatie weliswaar aangeven wat bereikt is, maar niets zeggen over wat te doen om alsnog doelstellingen te bereiken of het doel doelmatiger te bereiken of iets anders. Ze zijn anders gesteld te weinig toekomstgericht. Een voorbeeld. Toen de Vlaamse overheid in haar grotestedenbeleid wilde laten beoordelen door een visitatiecommissie Reynaert/Korsten wilde ze juist niet zozeer een beoordeling in cijfers maar een prospectieve evaluatie. De Vlaamse overheid wilde handreikingen krijgen voor een bepaling van toekomstige afspraken met de grote steden Brussel, Antwerpen, Gent, Mechelen, Leuven, Brugge, etc.. Ze wilde met andere woorden niet alleen een terugblik zien van wat met de afspraken de afgelopen jaren terecht gekomen was in termen van prestaties en effecten maar ook een vooruitblik. Advies: Aan deze casus is een advies te ontlenen. Een dergelijke gerichtheid van de evaluatie, retrospectief of meer prospectief, kon alleen aan het licht komen in de fase van de opstelling van een offerte en door een intensieve interactie van de visitatiecommissie met de opdrachtgever. De fase van opdrachtverlening is dus van zeer groot gewicht om verwachtingen af te stemmen over wat mogelijk is en feitelijk gedaan kan worden. Van welke aard is het meeste beleidsevaluatieonderzoek? Een WODC onderzoek geeft daar meer informatie over. Sinds 1995 zijn 75 wetsevaluaties verricht. Klein Haarhuis en Niemeijer (2008) stelden vast dat 60 procent van de onderzochte wetsevaluaties doelbereikingsstudies waren. De vraag in welke mate wettelijke doelstellingen geheel of gedeeltelijk bereikt worden staat daarin centraal. In tweederde van deze studies wordt ook aandacht besteed aan processen van uitvoering en/of houdings en/of gedragsverandering bij de doelgroep. We zien dus dat doelbereikingsevaluatie vaak samengaat met (partiële) procesevaluatie. Tien procent van de evaluaties is een zuivere procesevaluatie. Onder de wetsevaluaties bevinden zich geen effectiviteitsevaluaties in strikte zin. Dat betekent dat of effecten bereikt worden door beleid of omstandigheden of gebeurtenissen buiten de wet niet is nagegaan. 59

60 11 DE EVALUATIELADDER: KIEZEN VOOR EEN LICHTE OF ZWARE EVALUATIE? Geen enkel bestuur van een organisatie laat alle beleidsprocessen evalueren; geen enkel provinciebestuur, geen enkel gemeentebestuur. Dat betekent dat er vermoedelijk beleid is dat zich ook minder voor evaluatie leent en dat het kiezen van speerpunten in de afweging van wat een bestuur aan evaluatie onderwerpt nuttig is. En inderdaad, het ene beleid is zinvoller te evalueren dan het andere. Routinematige beleidsprocessen behoeven vermoedelijk geen evaluatie. Het opstellen van een straatnamenplan is daartoe te rekenen. Ook beleid waarvan de betekenis al snel zichtbaar is, hoef je niet nog eens te gaan doorlichten. Dat is overdone. Als een gemeentebestuur van een plattelandsgemeente een dorpentocht heeft gehouden om voorgenomen beleid per plaats uit te leggen en de indrukken zijn overal dat dit een succes was (hoge opkomst, goede sfeer, helderheid in presentaties, levendige discussie, etc.) dan kan een schriftelijke rapportage over een evaluatie eigenlijk kort zijn en misschien is die wel overbodig. Maar we kennen ook defensiebeleid: moet een JSF of Saab JAS 39 Gripen (twee vliegtuigtypen die genoemd zijn als opvolger van de F16) aangekocht worden of niet? Deze vraag is te plaatsen in enkele scenario s over de toekomst van de Nederlandse krijgsmacht. Daarvan kan een ex post evaluatie deel uit maken van troepenuitzendingen naar crisishaarden. We kennen klimaatbeleid en wat al niet. Er valt veel te evalueren. Het laat zich op basis van het voorgaande aanzien dat er een evaluatieladder te maken is. Die ladder loopt vanaf het ene einde beleid niet of heel licht evalueren naar het andere einde beleid zeker stevig aan evaluatie onderwerpen. Geen evaluatie nodig Welk beleid behoeft geen evaluatie? 1. Beleid dat eerst recent aan evaluatie is onderworpen en waarover dus al veel bekend is. Dan is een evaluatie een beetje dubbelop. 2. Beleid dat volledig in medebewind wordt uitgevoerd en waarbij de invloed om te komen tot beleidsverandering in enigerlei vorm nagenoeg nihil is. Veelal is het dan aan de Rijksoverheid om een evaluatie te starten. Wie aan de knoppen ziet, moet laten evalueren, niet wie alleen naar de knoppen kan kijken. 3. In geval van een beleid dat geen speerpunt is van een overheidsbestuur maar dat secundair of tertiair is. 4. Beleid dat toch afloopt omdat het eenmalig en dus tijdelijk is. 5. Dat beleid waarmee niet veel budget gemoeid is. De evaluatie zou al snel duurder zijn dan het beleid zelf. 6. Dat beleid waarover geen of weinig verantwoording nodig is. Een straatnamenplan behoeft geen evaluatie tenzij het bestuur overal straatnamen heeft gekozen van dictators en fascistoïde figuren. Weinigen willen wonen in de Hitlerlaan of de Avenue Mussolini. 60

61 7. Dat beleid waarvoor al een ander verantwoordingsinstrument is voorzien, zoals een jaarverslag. 8. Beleid dat evident onderdeel is van een bredere evaluatie, zoals een visitatie van de gehele organisatie. 9. Beleid dat evident een succes is en waarvan niemand wil weten waarom. Zware evaluatie Wat behoeft naar verwachting juist een zware evaluatie? 1. Beleid dat behoort tot de autonome beleidsruimte voor een overheidsbestuur en te beschouwen is als een reactie op een wicked problem, dus een weerbarstig of controversieel probleem. Deze moeilijke problemen impliceren dat de kennis over beleid beperkt is en consensus over het beleidsprogramma moeilijk bereikt wordt. De aanpak wordt vaak ook later gevolgd door een aanpassing omdat bepaalde doelmiddelcombinaties niet werken. Denk aan de bestrijding van voetbalvandalisme of aan provinciaal beleid tot uitplaatsing van agrarische bedrijven uit gebieden met te veel ammoniakuitstoot (problematiek van een landbouwontwikkelingsgebied, een LOG). 2. Beleid dat past in de programmabegroting en waarvoor de drie W s van toepassing zijn. Dan is evaluatie een voortzetting van een ingezette lijn. 3. Beleid dat behoort tot de speerpunten van een bestuur. 4. Beleid waarmee veel budget gemoeid is en/of een aanzienlijke ombuiging (in casus bezuiniging) overwogen is of kan worden. 5. Dat beleid waarbij evaluatie verplicht is ingevolge een wetsartikel of verordening of evaluatie ad hoc afgesproken is (bijv als gevolg van ene motie in een raads of statenvergadering). 6. Dat beleid dat betrekking heeft op sterke gedragsveranderingen van burgers. Omdat niet aannemelijk is dat burgers eenvoudig tot gedragsveranderingen komen. Anders gesteld, er zullen veronderstellingen achter het beleid schuil gaan, die discutabel zijn. 7. Dat belangrijke beleid waarvoor geen andere verantwoordingsinstrumenten bestaan. 8. Dat belangrijke beleid dat al enige tijd niet aan evaluatie is onderworpen. 9. Complex beleid dat een pilot is voor vele andere overheden; waarvoor elders dus ruime belangstelling bestaat. In de praktijk kom ik nog geen ladder tegen. De provincie Noord Brabant heeft wel een evaluatieprogramma gemaakt. Dat programma is door gedeputeerde staten besproken met provinciale staten. Deze discussie over een ladder roept onmiddellijk vragen of over of bij voorbeeld monitoring wel evaluatie is en benchmarking ook. Echter eerst iets over een lichte vorm van evaluatie. Pseudo evaluatie 61

62 Pseudo evaluatie impliceert het op basis van beschrijving weergeven van geldige en betrouwbare informatie over beleidseffecten, zonder het ondernemen van een poging om effecten te waarderen in relatie tot personen, groepen of de samenleving. De achtergrond van dergelijke evaluatie is dat maatregelen onomstreden en evident worden geacht waardoor er helemaal geen maatstaven op het materiaal gelegd hoeven te worden (Dunn, 2012: 323). Stel dat een parlementsmeerderheid jaar na jaar heeft aangegeven dat beken, sloten en vaarten elk jaar schoner moeten worden dan zal een studie die uitwijst dat in deze vormen van waterafvoer al vier jaar op rij het water schoner is geworden niet direct de vraag oproepen naar een duurzaamheidsmaatstaf of andere maatstaf. 62

63 DEEL IV: EX POST EVALUATIE NADER BEZIEN 63

64 12 MONITORING: LAAG OP DE EVALUATIELADER Wat het is Beleidsevaluatie kan dan wel breed worden opgevat als het beoordelen van beleidsprocessen, zoals het ontwerpen van beleid, de organisatie van het beleid, de besluitvorming of de uitvoering en effecten van beleid, William Dunn (2012) stelt dat beleidsevaluatie zich hoofdzakelijk richt op het vaststellen van waardeoordelen over effecten van beleid. Monitoring moet daarbij onderscheiden worden. Monitoring richt zich op de productie van feitelijke informatie over beleidsprocessen, met name van prestaties en (slechts) soms van effecten. Vaak is een monitor interbestuurlijk ingebed. Een voorbeeld betreft de 19 febr door minister Plasterk voorgesteld monitoring van de decentralisaties op het vlak van jeug, werk en zorg. Citaat: Het Rijk blijft na de decentralisaties verantwoordelijk voor de werking van het stelsel. Hiertoe zal het Rijk met gemeenten afspraken maken over een intensieve monitoring van de bereikte resultaten en de gemeentelijke uitgaven over het geheel van het brede sociaal domein (en dus niet per onderdeel) door te meten en te benchmarken. Doel van deze monitor is drieledig: Ten eerste biedt de monitor het kabinet inzicht in het functioneren van het stelsel zodat het kan worden aangepast indien het stelsel niet tot de juiste resultaten leidt. De uitkomsten zijn input voor bestuurlijk overleg tussen Rijk en gemeenten. Ten tweede biedt de monitor inzicht aan gemeenten in hun eigen prestaties ten opzichte van andere gemeenten om van elkaar te leren en het horizontaal verantwoordingsproces te ondersteunen. Ten derde biedt de monitor de informatie voor de Tweede Kamer over de behaalde resultaten in het sociaal domein. Gegevens voor de monitor worden in samenhang verzameld, verwerkt en gepresenteerd en zal onder regie van BZK worden ontwikkeld. Monitoring registreert vaak wat gebeurde, soms hoe het gebeurde en zelden waarom het gebeurde. Dat is dus magere evaluatie in een klein jasje. Beleidsevaluatie in een ruimer jasje laat zien of beleid daarbij verschil maakt(e). Bongers en Den Hertog (2007: 32) plaatsen monitoring in de eerste generatie beleidsevaluaties. Ook de methodoloog Peter Swanborn (2002) laat zien dat monitoring laag op de evaluatieladder staat. Hij stelt monitoring bij veel organisaties gebruikelijk is zonder dat er een specifieke interventie aan verbonden is of aan gerelateerd kan worden. Stel dat een monitor aangeeft hoeveel inbraken in een jaar plaatsvonden in een bepaalde gemeente. Monitoring wordt dan scannen en staat zo volkomen los van overheidshandelen. Monitoring wordt nogal eens gebruikt als het nagaan van de voortgang in beleid. Zo is er ooit een monitor geweest van het grotestedenbeleid (GSB). Ik signaleer ook een Netwerk Ecologische Monitoring (NEM) en een Monitoring Waterbeleid (WIB) (De Kool, 2007). Aan monitoring toegekende functies zijn volgens Dennis de Kool signaleren, sturen, verantwoorden, leren en communiceren. 64

65 In de praktijk gaan er dilemma s achter de keuze van monitoring schuil. De volgende komen aan bod. Soberheid of volledigheid: Moet een monitor gericht zijn op details of op hoofdlijnen van beleid? Documenten die over hoofdlijnen gaan kunnen tot ongenuanceerde uitspraken leiden? Wie de details gaat opzoeken, kan wellicht de hoofdlijn niet meer vinden. Oplossing: stel een basisdocument op en een verdiepingsdocument. Beschrijven versus beoordelen: Beleidsvoerders hebben doorgaans niet alleen behoefte aan beleidssignalen ( cijfers ) maar ook aan verklaringen, interpretaties en oordelen (wel aangeduid als verhalen achter de cijfers ). Daarom wordt ook wel een onderscheid gemaakt tussen kale monitoring en evaluatie. Evalueren betreft zeker het beoordelen van ontwikkeling en oplossing: dus is het advies om monitoring van verdere stappen op de evaluatieladder gescheiden te houden (De Kool, 2007). Monitors zijn in feite niet geschikt om te evalueren maar kunnen wel een opstap vormen voor evaluatie. Daarbij is het in het algemeen nuttig, ook bij evaluatiestudies, om feiten en oordelen te scheiden. Flexibiliteit versus stabiliteit: Bij monitoring is continuïteit in het signaleren van groot belang. Hoe ontwikkelt iets zich in de tijd? Daar staat tegenover dat beleid dynamisch is, niet stil staat, en informatiebehoeften in de loop van de tijd veranderen. Steeds weer naar nieuwe cijfers vragen in monitoring is echter niet goed. Het kan de vergelijkbaarheid in de tijd aantasten. Oplossing: neem een ruggengraat van vaste informatie op in een monitor en laat toe dat elk jaar een bepaalde hoeveelheid nieuwe informatie meegenomen mag worden, dus toegevoegd kan worden. Concrete doelen versus vage ambities: In de praktijk is sprake van een neiging om te komen tot SMART geformuleerde doelstellingen (specifiek, meetbaar, acceptabel, realistisch en tijdgebonden) maar daar staat tegenover dat de praktijk steeds weer uitwijst dat er behoefte is aan een zekere vaagheid in de ambities (deuren open houden) om naderhand wendbaar te zijn en met doelstellingen te kunnen schuiven. Beleid is bovendien een compromis tussen politieke fracties die vaak verschillend aankijken tegen zaken. Dat leidt eerder tot meer dan tot midner vaagheid. Oplossing: Geven en nemen. Vertrouwen hebben in een monitor. Conclusies 1) Monitoring registreert vaak wat gebeurde, hoe dat wat gebeurde of gebeurt zich in de tijd ontwikkelde, soms hoe het gebeurde en hoogst zelden waarom het gebeurde. Dat is dus heel magere evaluatie in een klein jasje. Beleidsevaluatie in een ruimer jasje laat zien of beleid daarbij verschil maakt(e). Monitors zijn in feite niet geschikt om echt met maatstaven overheidsactie te evalueren maar kunnen wel een opstap vormen voor evaluatie. 2) Monitoring is een instrument om te inventariseren, te signaleren, over bevindingen te communiceren en zich te verantwoorden. Maar monitoring is geen echte vorm van evaluatie. 3) Meestal zitten in monitors geen oordeel of maar beperkt. Monitoring staat dus heel laag op de evaluatielader. Waar staat benchmarking? 65

66 13 BENCHMARKING: HOGER OP DE EVALUATIELADDER Benchmarking, wat het is Het gaat bij benchmarking om cijfermatige vergelijking, om vergelijking van organisaties of eenheden en om verbetering. Beter gesteld, benchmarking betekent dat organisaties of delen van organisaties hun prestaties (laten) vergelijken met die van andere organisaties, om zo aanknopingspunten voor verbetering van het eigen functioneren te krijgen (Nelissen en De Goede, 1999; Bowerman, Ball & Francis, 2001; De Groot e.a., 2004; Hakvoort en Klaassen, 2004; Van Helden, Tillema en Van Esch, 2005; De Bruijn, 2001, 2007). Zo lieten regionale opleidingscentra zich jaarlijks benchmarken. Vergelijking vindt plaats op één manier zodat een vergelijking makkelijk mogelijk is. Dan gaat het om vergelijking van kwantitatieve gegevens in de vorm van prestaties (output), zelden van effecten (outcomes). Er is dus meestal géén sprake van een vergelijking van effecten (outcomes). In die zin is geen sprake van ex post beleidsevaluatie, zoals we die kennen in de vorm van een doelbereikingsanalyse en effectiviteitsaanpak (Weiss, 1972). Er wordt in benchmarks ook minder diep gegraven. Plaats op de evaluatieladder Benchmarking startte ooit in het Nederlandse bedrijfsleven, vóór de tweede wereldoorlog. Het was toen en daarna iets dat veel weg had van bedrijfsvergelijkende statistiek om productieprocessen te verbeteren. Nadien heeft het concept benchmarking een evolutie doorgemaakt naar prestatieverbetering in meer algemene zin: systematisch opgezet, meer continu toegepast, gericht op verbetering (Hakvoort en Klaassen, 2004: ). Benchmarking is in mijn ogen echter, evenals monitoring, een heel lichte vorm van evaluatie en die vorm staat dus ook laag op mijn evaluatieladder. Ik ga hier nader op benchmarking in omdat ik zelf als toezichthouder bij een Riagg en Roc ervaring heb gehad met de inhoud en gebruik van benchmarks en er onder mijn leiding onderzoek is gedaan naar benchmarking bij sociale diensten. Ik verrichtte ook zelf benchmarkonderzoek. Zie: Gemeenten in rapportcijfers (Abma en Korsten, 2009a, b). We rekenen benchmarking tot het domein van deze beschouwing over beleidsevaluatie omdat sprake is van een beoordeling aan de hand van maatstaven. Beoordeling, daar draait het bij evaluatie immers bijna altijd om. Toch is benchmarking anders dan veel beleidsevaluaties. Waarom? Vier redenen: 1) Van een benchmarking van bij voorbeeld landbouwbeleid, emancipatiebeleid of personeelsbeleid is geen sprake. Bijzonder aan benchmarking is namelijk dat géén sprake is van beoordeling van afzonderlijke beleidsprogramma s maar van instituties als geheel, dus van organisaties (met al hun beleid) of organisatiedelen of productiecomplexen. Denk aan een benchmarking van waterschappen, ziekenhuizen, onderwijsinstellingen of studierichtingen, gemeenten. Een voorbeeld van een benchmark is De Staat van de Gemeente. Dit is een met de Vereniging van Gemeentesecretarissen (VGS) ontwikkeld instrument dat is gebruikt om gemeentelijke organisaties met elkaar te vergelijken op basis van onder meer enquêtes onder burgers. Daarbij werden per gemeente gegeven over burgers in vijf rollen bij elkaar gebracht: de burger als kiezer, wijkbewoner, belastingbetaler, onderdaan, participant (Abma en Korsten, 2009a, b). De manier van rapporteren door 66

67 het rapporterend instituut was dan dat een rapport gemaakt werd met kwantitatieve gegevens van vijftien vergelijkbare gemeenten. 2) Meestal wordt geen eigenstandig beoordelingskader gebruikt maar worden indicatoren, in de vorm van een aspect van een verschijnsel, toegepast die in een cijfer zijn te vatten. 3) De analyse is kwantitatief, niet kwalitatief. 4) Er verschijnt een totaalrapport, vaak geen afzonderlijk rapport per bestudeerde en deelnemende organisatie. Benchmarking is altijd achteraf (ex post), nooit ex ante. Beoordelingskader Een referentiepunt voor het eigen functioneren wordt gevonden in een aantal andere organisaties (vaak meer dan 10) maar stel nu dat de andere organisaties ronduit slecht functioneren, wat dan? Dan zegt een vergelijking niet veel. Daarom is bij benchmarking een referentiekader nodig. Dat kader wordt doorgaans gevormd door de best presterende organisatie. Dan kan een echt bestaande organisatie zijn maar dat kan ook een denkbeeldige organisatie zijn die geconstrueerd wordt door alle beste scores op vergelijkingspunten bij elkaar te zetten. In het laatste geval wordt de beste organisaties, opgebouwd uit best practices, een fictieve creatie van de beste organisatie door de onderzoeker. Wellicht bestaat een dergelijke beste organisatie in werkelijkheid niet. Het is ook mogelijk om de gemiddelde organisatie uit een vergelijking op een aantal criteria als ijkpunt te laten functioneren, waarna bij een vergelijking het behoren tot de beste helft van de organisaties als goed geldt. Functies van benchmarking Welke functies vervult benchmarking? 1) Leren. Bij veel overheidsorganisaties ontbreekt de tucht van de markt om goed te presteren. Benchmarking kan dan een instrument zijn om toch te prikkelen tot prestatieverbetering. Het gaat bij benchmarking om vergelijking gericht op prestatieverbetering met als referentie de goede of beste praktijken die uit het onderzoek zelf komen. Zo gezien, is benchmarking dus bedoeld om een organisatie tot leren (uitmondend in verbeteren) te brengen. Deze functie geldt algemeen als de belangrijkste functie (Van Helden, Tillema en Van Esch, 2005) 2) Verantwoording. Het is ook mogelijk dat het doel is transparante verantwoording. Dat was bij voorbeeld het geval bij bedrijfsvergelijking van het zuiveringsbeheer van waterschappen (Van Helden, Tillema en Van Esch, 2005). 3) Bekostiging. Benchmarking wordt ook wel gebruikt voor de normering van externe bekostiging. Bij voorbeeld: de rijksoverheid vergoedt voor die en die hoeveelheid en kwaliteit van prestaties. 4) Bezinning op ambities. Uitkomsten van benchmarking worden hier en daar wel gebruikt om de bestuurlijke ambities te stabiliseren of op te schroeven, iets wat men in de literatuur weinig leest. Benchmarking kan een opstap naar discussie vormen en om vragen te stellen als waarom scoort onze organisatie op dat punt nou beter of slechter? 67

68 Een directeur van een regionaal instituut voor geestelijke gezondheidszorg waar ik toezichthouder was, zei ooit tegen mij: Deze Riagg wil tot de vijf beste in het land behoren. Eens zien of dat ook uit de benchmark komt. 5) Bezweringsformule. Een benchmark kan ook als bezweringsformule dienst doen in de conversatie tussen een toezichthoudend orgaan en een directie of college van bestuur. Een benchmark kan voor rust zorgen. Als lid van een Raad van Toezicht van een regionaal opleidingscentrum voor mboonderwijs zag ik sinds 2000 elk jaar benchmarks langs komen waaraan alle Roc s in het land hadden deelgenomen. De waarneming dat onze Roc in de beste helft zat, werd altijd gemeld. Die mededeling had iets geruststellend in zich, waar iedereen zich ook bewust van was. Maar soms was een benchmark in combinatie met verklaringen over wat achter de cijfers schuil ging een aanzet om een bepaald onderwerp of beleidsvraagstuk nader te bekijken. Voorwaarden Benchmarking kan gedijen als aan bepaalde condities wordt voldaan. Ik noem er enkele. 1 Een vergelijking moet zinvol zijn. Een benchmark is vaak een vergelijking van alle academische ziekenhuizen in Nederland of een vergelijking van vijftien sociale diensten van ongeveer een gelijk aantal personeelsleden of cliënten. Daaruit blijkt dat een vergelijking zinvol moet zijn. Het is vaak zinloos om een groot academisch ziekenhuis te vergelijken met een heel klein ziekenhuis, of om de sociale dienst van een grote gemeente als Amsterdam met die van pakweg Barneveld te vergelijken. 2 De indicatoren moeten relevant zijn. De indicatoren voor de organisatievergelijking moeten zo relevant zijn dat ze ook echt iets zeggen over de kern van de organisatie en of te meten deel daarvan. Hier gaat het wel eens fout omdat alleen het kwantificeerbare en makkelijk meetbare meegenomen wordt in een vergelijking, of dat nu de essentie is of niet. 3 Een breed palet van indicatoren is gewenst. Een breed palet aan prestatiemaatstaven blijkt bevorderlijk voor het krijgen van draagvlak bij bestuurders, managers en andere gebruikers om benchmarking te starten of aan een initiatief van anderen mee te doen (Van Helden, Tillema en Van Esch, 2005: 15). Beperkingen en grenzen van vergelijking Benchmarking kent beperkingen. Ik noem er enkele. 1) Vooral kwantitatieve vergelijking, geen kwalitatieve. Benchmarking is sinds 1990 in toenemende mate toegepast in het openbaar bestuur maar vooral in sectoren waar het mogelijk is te tellen en te turven bij voorbeeld in de vorm van bedden, beddenbezetting, de ratio (verhouding) tussen verzorg(st)ers en verzorgden enz.. Zo zijn benchmarkingoperaties toegepast bij thuiszorgorganisaties, regionale instituten voor geestelijke gezondheidszorg, waterschappen, waterleidingbedrijven, sociale diensten. Daarmee wordt al duidelijk dat benchmarking zich leent voor het opstarten van discussies over doelmatigheid. Een benchmark van geheime diensten of inlichtingendienstenen als de AIVD zal men vergeefs zoeken. Overigens is de AIVD wel eens tegen het licht gehouden (Commissie Havermans, 2004). 68

69 2) Een tweede beperking van benchmarking houdt in dat ze vooral beschrijvend, niet verklarend zijn. Wie een benchmarking start en deelneemt aan een vergelijking moet ook beseffen dat de vergelijking vaak vragen oproept over de duiding en over wat er achter de cijfers schuilgaat. De gebruiker moet dus de grenzen van een benchmark kennen. 3) Beperkte gebruikswaarde. De bereidheid, naar aanleiding van benchmarking van waterschappen op het punt van bedrijfsvoering zuiveringsbeheer (bzv), om echt met verbeteringsacties in de vorm van plannen te komen is bij waterschappen wisselend gebleken (Van Helden, Tillema, Kuppens en Dekking, 2005:38). Een tegenvallend resultaat. Een op elke vier waterschappen (27 procent) ondernam geen enkele actie op basis van de benchmarking en 36 procent laat slechts een bescheiden actiebereidheid zien. Dat is samen 63 procent. De link tussen bedrijfsvergelijking en actiebereidheid is vrij zwak concluderen Van Helden c.s. dan ook. De auteurs zeggen dat benchmarking wel werkt omdat waterschappen over het algemeen een positief oordeel hebben over de bedrijfsvergelijking maar benchmarking werkt nog niet goed genoeg. De voortzetting van de bedrijfsvergelijking heeft volgens de auteurs alleen zin als deze aanzet tot prestatieverbetering. De link moet worden versterkt, zeggen ze. Zeker omdat ook blijkt dat het niet vanzelfsprekend de zwakke waterschappen zijn of de waterschappen die echt prestaties moeten verbeteren, die ook aan het verbeteren slaan. Een urgentie leidt nog niet zo maar tot bestuurlijk en ambtelijk urgentiebesef. Remmend op gebruik van uitkomsten uit rapportages van benchmarking is dat een organisatie altijd wel ergens minder goed en ergens anders juist wel goed in is. Dat leidt tot een ach, ja houding. Een tweede factor die remmend werkt op gebruik van benchmarkuitkomsten luidt: vaak is in rapportages over benchmarking wel sprake van beschrijvende vergelijking maar niet van verklaring waarom iets is zoals het is of bepaalde tendenties blijken. Terwijl die verklaring van prestatieverschillen nogal eens juist nodig is om de gebruikswaarde te vergroten, zoals Van Helden, Tillema en Van Esch (2005: 15) stellen. Bij de bedrijfsvergelijking zuiveringsbeheer (bvz) werd slechts in beperkte mate aan deze voorwaarde voldaan, aldus de genoemde onderzoekers. Wat heeft verder dan wel positieve invloed op de gebruikswaarde? Wat werkt accelererend? Uit het bvz onderzoek onder waterschappen blijkt: grote externe druk, soms ook concurrentie, om cijfers te gebruiken, leidt tot meer gebruik van uitkomsten van benchmarking. Daaraan is een krachtige aanbeveling te ontlenen: zorg ervoor dat bezinning op evaluatieuitkomsten verplicht is, dat er druk op de ketel is van de waterschapsbesturen zelf. De Unie van Waterschappen zou dus kunnen proberen te werken aan het bereiken van een betere benchmarkcultuur. De auteurs zeggen dat het introduceren van visitaties om per waterschap met verbeterpunten te komen te overwegen is. Dit zou voor de sector als geheel ook kunnen gebeuren. Visiteren geeft meer druk. Het zijn immers deskundigen en andere kenners van de waterschapsorganisaties die visiteren. Verder werkt positief op gebruik van uitkomsten van benchmarking in: dat de rijksoverheid in de rijksvisie op de waterketen uit 2003 voor benchmarking in de waterketen pleit; een stimulans helpt; 69

70 de rapportage moet duidelijk zijn en de hoeveelheid huiswerk om de uitkomsten naar de eigen organisatie toe te trekken of vertalen moet beperkt zijn; er moet aandacht georganiseerd worden, in de vorm van agendering in werkgroepen en/of organen, zodat er ook gesproken kan worden over uitkomsten; het delen van informatie uit benchmarks in een netwerk en erover overleggen, is positief omdat zo vakgenoten met elkaar overleggen; de aanwezigheid van bestuurlijke ambitie (de lat hoog leggen); het vrijmaken van middelen voor vernieuwing gericht op prestatieverbeteringen; positieve interactie tussen bestuur en ambtenaren die stimulerend werkt op kijken naar uitkomsten en zich erop bezinnen; ambtenaren enige speelruimte laten om verbeteringen te doordenken en/of aan te brengen; het anderen doen het ook effect of wij moeten mee effect. 3) De kracht van de indicatoren. Raken de indicatoren, als sleutelindicatoren, de kern van de kwaliteit van de belangrijke taken van organisaties of schieten ze er langs heen? Indicatoren die de kern vatten zijn lang niet altijd opgenomen in benchmarking. 4) De oordelen zijn dun. De rapportages over benchmarks zijn doorgaans sober. Dat betekent dat benchmarking verre van uitmunt in de kwaliteit van de oordelen. Ik refereer hier aan benchmarking van mbo s en rioleringen. Figuur 6: Vergelijking van drie op kwaliteit gerichte methoden van gegevensverzameling Monitoring Benchmarking Zelfevaluatie. visitatiecommissies Functie: Interbestuurlijke Vaak Meestal niet Soms signalering Functie: Verantwoording Ja Ja Ja Functie: Gericht op Niet zeker Ja, expliciet Ja leren/verbeteren Openbaarheid van verstrekte Meestal niet actief Ja Ja, tenzij. gegevens Gegevensverzameling over Beleidsprogramma Beleid/ sector Organisatie beleid of. Uitvoering Extern, met verstrekking Extern, met verstrekking Extern, met zelfevaluatie gegevens gegevens Referentiekader Geen beoordelingskader Van waaruit gegevens worden verzamelend Geen referentiebeeld. Vergelijking met totaal of gemiddelde Vrijwel altijd een beoordelingskader met normering (= governance beeld) Kwantitatief en kwalitatief Kwantitatief, beperkt Nadrukkelijk kwantitatief Kwantitatief en kwalitatief gericht kwalitatief Oordelen over gegevens Rangorde Beoordeling op basis van normen. Rapport per beoordeelde eenheid Waardering van benchmarking Wat houdt de waardering voor benchmarking in? Er zijn ervaringen opgedaan met een benchmarkingproject van de Nederlandse waterschappen, de zogenaamde bedrijfsvergelijking zuiveringsbeheer (bvz). Waterschappen zijn overheidsorganisaties met een specifieke taak. Waterschappen houden zich met name bezig met waterkwantiteitsbeheer (dijkbeheer, waterpeilbeheer) en met een deel van het waterkwaliteitsbeheer (met name de zuivering van afvalwater). Wordt het instrument gewaardeerd door de besturen van waterschappen en zijn concreet ook verbeteracties waargenomen? 70

71 Waterschappen waarderen in het algemeen het instrument benchmarking (bzv) in hun sector. Het geeft een goed inzicht in de prestaties en geeft redelijke aanknopingspunten voor prestatieverbetering (Van Helden, Tillema, Kuppens en Dekking, 2005: 38). Waterschappen oordelen over het algemeen gematigd positief over hun prestaties op bepaalde gebieden en minder op andere. Conclusie De algemene conclusie van deze beschouwing luidt dat benchmarking betrekkelijk laag op de evaluatieladder staat. De analyses zijn sterk kwantitatief, een rapportage met duiding van de cijfers ontbreekt vaak en een rapportage voor tien of meer deelnemende organisaties is voorzien waardoor een individuele organisatie nog een eigen vertaalslag moet maken (wat dan niet of niet grondig gebeurt). In beginsel is benchmarking een bruikbaar instrument is om overheidsorganisaties aan te zetten tot het verbeteren van prestaties maar tevens bleek dat aanvullende instrumenten nodig zijn om tot prestatieverbetering te komen, zoals druk op de ketel zetten en visitaties starten. Visitatiecommissies spreken indringend met bestuurders, ambtenaren en doelgroepen en benutten zelfevaluaties. Bij benchmarking is doorgaans zoiets als een benchmarkcommissie afwezig. Veel onderzoek wijst in de richting dat benchmarking lang niet altijd brengt wat ervan verwacht wordt. Uitkomsten van benchmarking wordt vaak wel aan gebruikszijde bekeken maar makkelijk ter zijde gelegd. De doorwerking is hier en daar betrekkelijk gering. Symbolisch gebruik komt voor. Dan wordt gesteld: we waren toch al van plan de kant op de gaan die het onderzoek opwijst!, een niet zelden gratuite mededeling. Advies: Wie aan benchmarking gaat doen, moet daarom nadrukkelijk bij de inrichtingsbeslissingen aandacht besteden aan inrichtingsbeslissingen en gebruikswaarde. 71

72 14 ZELFEVALUATIE EN VISITATIECOMMISSIES: HOOG OP DE EVALUATIELADDER Evalueren met behulpvan visitatiecommissies en zelfevaluatie, hoe gaat dat en hoe kunnen we die aanpak waarderen? Ik kom nu bij zelfevaluatie ten behoeve van een visitatieproces en visitatieprocessen die geen zelfevaluatie kennen. Ik heb daarmee zelf ruime ervaring opgedaan door onderwijsvisitaties in het wetenschappelijk onderwijs te ondergaan, aan onderzoeksvisitaties deel te nemen en ik heb zelf een visitatie in het hbo geleid en een midtermevaluatie van een opleiding aan de Erasmus Universiteit. Bovendien was ik lid van twee visitatiecommissies ter beoordeling van twee provinciebesturen en hun organisatie (Zeeland, Limburg) en lid van een commissie die zich bezig hield met de bestuurlijke toekomst van Groningen. Plaats op de evaluatieladder Visiteren met toepassing van zelfevaluaties kan als vorm van gebruiksgerichte evaluatie kan hoog op de evaluatieladder worden geplaatst. Niet omdat deze visitatie wetenschappelijk gericht zou zijn, want dat is niet zonder meer het geval. Maar wel omdat er sprake is van zorgvuldig zoeken naar relevante, geldige, precieze en betrouwbare gegevens, het visitatieproces iteratief is en de gevisiteerden betrokken zijn (het gaat niet over hen en zonder hen maar juist met hen), en er sprake van onafhankelijke beoordeling door vakgenoten op basis van een beoordelingskader dat door de gevisiteerden in de sector bekeken en aanvaard is. Meestal is deze visitatie ex post en retrospectief (Korsten, 2004 a,b en c; Schillemans, 2009). Populariteit Visitaties kennen sinds een aantal jaren een grote populariteit. Die danken ze voor een groot deel aan de bijdrage die ze kunnen leveren aan leren in de publieke sector. Visitatierapporten bevatten immers een brede feedback op het handelen of niet handelen van overheden als gemeenten of provincies, corporaties of politiekorpsen. Bezinning op de organisatie kan tot verbetering leiden. Ze zijn in potentie dus duidelijk meer dan loze manier van verantwoording over geleverde prestaties (Korsten, 2004a,b en c; Schillemans, 2009: 162; Grooteman, 2004). Condities en inrichtingsbeslissingen Sinds ongeveer 1985 komen in Nederland visitaties voor. Aanvankelijk werden ze vooral gestart in het academische onderwijs en hoger beroepsonderwijs, omdat de colleges van bestuur daartoe het initiatief namen. Er viel in het academisch onderwijs niet te ontkomen aan meer verantwoording en leervermogen dan de onderwijsinspectie kon oproepen. De staf van de Vereniging van Samenwerkende Universiteiten werkte daarom ten behoeve van de CvB s een plan uit. In dat aanvaarde plan stond dat alle opleidingen eens per vijf jaar zouden worden doorgelicht op kwaliteit in de vorm van een combinatie van zelfevaluatie op basis van een protocol en een onafhankelijke visitatiecommissie van vakgenoten en onderwijskundigen zonder banden met afzonderlijke opleidingen. Deze praktijk ging van start en is over het algemeen een succes gebleken. Recent is deze visitatievorm overgegaan in een accreditatieproces. De visitatiecommissies voor academisch onderwijs genoten in de eerste twee gehouden onderwijsvisitatierondes legitimiteit, hun oordelen werden als gezaghebbend ervaren en de bij opleidingen betrokken bestuurders, docenten, studenten en ondersteuners herkenden zich in het geschetste beeld van de afzonderlijke opleiding en het geheel van opleidingen. De bevindingen werden ook erkend. Van bezwaar maken was nauwelijks sprake. Logisch, want elke opleiding had de kans gehad om informatie in te brengen over tal van onderwijsaspecten, 72

73 zoals rendementen en doorstroming. En men had de kans gehad op een conceptrapport commentaar te geven. Rond visitaties zijn dus tal van inrichtingsbeslissingen genomen (Schillemans, 2009). Op basis van deze geijkte praktijk zijn beginselen van behoorlijke visitatie te formuleren (Korsten, 2003a, 2004a,2004b, 2004c). Beginselen van behoorlijk visiteren Op grond van evaluaties zijn de volgende beginselen van behoorlijke visitatie geformuleerd: 1) Er is een initiatiefnemer tot visitatie. 2) Er wordt een protocol vastgesteld met de opzet, procedure, het kwaliteitskader, de inhoud van de zelfevaluatie of zelfstudie etc. 3) De visitatie vindt plaats onder leiding van een visitatiecommissie. 4) De commissie is onafhankelijk. 5) De commissie hanteert een kader ter beoordeling van het onderwerp van beoordeling en procesplan. 6) De visitatie ontvangt een zelfevaluatie dat voldoet aan eisen uit een protocol. 7) De visitatiecommissie brengt een bezoek ter plaatse om de zelfevaluatie te checken en aanvullende gegevens te verwerven. 8) Er is een iteratief proces: betrokkenen (gevisiteerden) worden gehoord en krijgen een conceptrapport voor commentaar voorgelegd. 9) De commissie brengt een rapport uit per gevisiteerde opleiding. 10) Het visitatierapport is openbaar. Als aan deze beginselen is voldaan is de kans zeer groot dat de gevisiteerden tevreden zullen zijn over het proces en de uitkomsten. Ze zullen zich herkennen in de foto en de foto erkennen. Geijkte praktijk Visitatieprocessen hebben ook plaats gevonden in de wereld van grotestedenbeleid, gemeenten, politiekorpsen, woningcorporaties, ziekenhuizen, media, interdepartementale beleidsprojecten. De praktijk van visiteren in het grotestedenbeleid vertoonde veel gelijkenis met die in het hoger onderwijs. De commissie, odner leiding van Elco Brinkman, was samengesteld uit exbestuurders op rijks, provincie en gemeenteniveau. De commissie Brinkman ontving op basis van een protocol een zelfevaluatie per gemeente, ging ter plaatse kijken en in gesprek en stelde een conceptrapport op waarop reactie van het gemeentebestuur mogelijk was. Dat leverde een openbaar rapport op. Zie daar de gelijkenis. Deze ervaringen bevestigen het belang van de beginselen van behoorlijk visiteren. Dat betekent dat de kans groot is als een visitatieproces volledig gebaseerd is op deze beginselen het visitatieproces ook positief gewaardeerd wordt in de sector en bij de gevisiteerden. Deze bevestiging bleek opnieuw uit analyse van de gang van zaken bij de Limburgse bestuurskrachtmeting in meer dan 30 gemeenten. Ook hier acceptatie van het normenkader en de procesgang, herkenning van de foto uit het visitatierapport en erkenning van de uitkomsten. Bij politiek korpsen en ziekenhuizen was sprake van een zekere afwijking van deze beginselen. Ook politiekorpsen stelden wel een zelfevaluatie op maar deze werd doorgaans niet openbaar. De ziekenhuisvisitaties zijn zo gevoelig dat het rapport zeker niet openbaar is. 73

74 Het laten uitvoeren van visitaties door adviesbureaus zonder visitatiecommissie is in het algemeen ongewenst omdat besturen nogal eens de neiging vertonen om adviesbureaus te sturen. Dit bleek mij als lid van een begeleidingscommissie bij voorbeeld uit de opstelling van het provinciebestuur van Zuid Holland bij een bestuurskrachtonderzoek uitgevoerd door het bureau Van Naem en Partners. Retrospectief en ook prospectief? Doorgaans zijn visitaties retrospectief. Er wordt dus gekeken naar de performance, de gebleken prestaties. In eerste onderwijsvisitaties van universitaire opleidingen zijn geen vooruitblikken te lezen of aanbevelingen. Maar bij latere veranderde dat. Onderwijsvisitatiecommissies houden wel degelijk een spiegel voor. Dus komen zaken naar voren die moeten verbeteren. De onderwijsinspectie zit daarop ook toe en daarmee verkrijg je dus de externe druk die van positieve invloed is op gebruik of benutting van uitkomsten, iets dat rond benchmarking bij waterschappen al van belang bleek. De visitatie van Limburgse gemeenten was in de eerste ronde ook retrospectief en qua toekomstoriëntatie kaal ; zonder aanbevelingen. In de tweede ronde is deze commissie Rutten opgeschoven. Ze bleef wel oordelen maar ging ook meer meedenken met gemeentebesturen. Dat werd gewaardeerd. Soms is een visitatie niet retrospectief maar meer nadrukkelijk prospectief. Een voorbeeld hiervan is de visitatie van het grotestedenbeleid van de Vlaamse steden die in 2011 in opdracht van de Vlaamse overheid is uitgevoerd. Deze visitatiecommissie Reynaert/Korsten was retrospectief maar ook prospectief omdat de commissie geacht werd met de Vlaamse overheid en de stadsbesturen mee te denken over verdere mogelijkheden en door best practices aan te reiken. In de voorbereidingsfase op de visitatie bleek dat volstaan met louter retrospectie ongewenst was. Conclusie Visiteren is een nuttige vorm van evalueren. Vooral de bijzondere organisatiewijze valt op en het feit dat de organisatie in het hele proces van het begin tot het einde meegenomen wordt. De zelfevaluatie dwingt organisaties al snel tot het verwerven van overzicht en het zich vormen van een beeld over waarin de organisatie en het bestuur sterk en zwak is. Inmiddels zijn over visiteren inzichten verworven, zoals de beginselen van behoorlijk visiteren. Succes is bij visiteren niet altijd gegarandeerd. De samenstelling van de commissie, de teamhomogeniteit en de aanwezige competenties bleken van belang. Een commissie dient namelijk gevoel te hebben voor het zorgvuldig verloop van een procedure, voor onderzoek, voor goede interactie met gevisiteerden en voor wijze beoordeling. 74

75 DEEL V: EX ANTE EVALUATIE NADER BEZIEN 75

76 15 EX ANTE EVALUATIE Ex ante evaluatie en het ontwerpen van beleid Ex ante evaluaties (EAE) strekken ertoe om in te schatten of het wel lukt om te bereiken wat je als overheid wilt bereiken als je tot een bepaald beleid zou besluiten, of helemaal niet en waar je dan strandt. Ex ante evaluatie gaat in feite over de zinvolheid van een beleidsvoornemen, een beleidsalternatief, aldus Hakvoort en Klaassen (2004: 53; ook: Hellendoorn, 2001; Hanemaayer, 2012). De overheid streeft na om met ex ante evaluatie (EAE) voorafgaand aan de (centrale) besluitvorming over beleid de beleidsinhoud, het proces en het bereiken van resultaat van beleid te verbeteren. Ex ante evaluatie kan zo een onderdeel worden van de fase van beleidsvoorbereiding en het ontwerpen van beleid. Ze zijn bij uitstek prospectief gericht. Getracht wordt een eerste klas enkele reis Titanic te voorkomen, dus een deceptie of beleidsfiasco. Ex ante evaluatie: enkele typen Aan welke evaluaties valt te denken? Aan de volgende: kosten batenanalyse en kosten effectiviteitsanalyse (Suurmond en Van Velthoven, 2003; Slotboom en Wiebrens, 2003; Wesemann, 2003); multicriteria analyses (Voogd, 1988; De Vries, 1992, 1994; consequentie analyses (Becker, 1987); ex ante schatten van de uitvoerbaarheid van beleid; effectrapportages (Koppenjan, 1995; Korsten, 1997). Van deze typen zijn de eerste drie genoemde in principe integrale evaluaties, die in principe gericht is op het nagaan of alle effecten bereikt kunnen worden, en is de effectrapportage een partiële evaluatie omdat deze slechts gericht is op bepaalde belangen of bepaalde effecten. Denk aan de milieu effectrapportage waarin de verwachte gevolgen voor het milieu van een bepaald beleid wordt nagegaan. Dat is een partiële evaluatie. Op deze types ga ik kort in. Integrale monetaire methoden: kosten batenanalyse als voorbeeld De kosten batenanalyse (kba) wordt wel een monetaire methode genoemd. Kenmerkend hiervoor is om alle kosten en baten in geld uit te drukken (Hellendoorn, 2001). Het is dan ook begrijpelijk dat het ministerie van Financiën de toepassing hiervan stimuleerde. De minister van Financiën heeft in verband de begrotingsverantwoordelijkheid een belang bij meer baten dan kosten en in het algemeen bij lage(re) kosten. Er wordt ook wel gesproken over een maatschappelijke kosten batenanalyse (mkba). Hierbij gaat het om de vraag of de maatschappij in haar totaliteit een nettovoordeel heeft van het uitvoeren van een project, zoals bij voorbeeld de inpoldering van de Markerwaard of de aanleg van de Tweede Maasvlakte. Bij toepassing van dit soort methoden wordt soms een referentiesituatie gebruikt. Dat is meestal de situatie die naar voren komt als het project niet zou doorgaan (ook wel nulsituatie genoemd). 76

77 Alle kosten batenanalyses hebben als probleem dat sommige aspecten of elementen van beleid niet in geld uit te drukken zijn (Hakvoort en Klaassen, 2004: 60). Daarnaast bestaan er kosten effectiviteitsanalyses, kea s. Deze zijn verwant aan kostenbatenanalyses, ook wel kba s genoemd. De overeenkomst bestaat hierin dat gepoogd wordt om een zoveel mogelijk gekwantificeerd overzicht te krijgen van voor en nadelen van beleidsalternatieven. Zo kan een vergelijking tussen de alternatieven ontstaan en rangorde van alternatieven (Hakvoort en Klaassen, 2004: 61). Een voorbeeld van een kosteneffectiviteitsanalyse betreft de analyse van alternatieve aanlandingsplaatsen voor vloeibaar aardgas (LNG). Integrale niet monetaire methode: multicriteria analyse als voorbeeld Multicriteria analyse (mca) is een evaluatiemethode om tussen diverse alternatieven een rationele keuze te maken op basis van meer dan één onderscheidingscriterium. Dat is het eerste bijzondere: er is nadrukkelijk sprake van meerdere beoordelingscriteria. Bijvoorbeeld: met mca kunnen scores op economische, ecologische en sociale criteria bij elkaar worden opgeteld, om alternatieve trajecten voor bij voorbeeld een nieuwe weg te rangschikken. Het kan bij mca gaan om uitdrukking in diverse eenheden: meters, oppervlaktes, tijd, euro s. Er is dus niet uitsluitend sprake van een uitdrukking in geld (euro s). Het is bovendien mogelijk dat er een verschil in zwaarten bestaat tussen de beoordelingscriteria; het vraagstuk van de gewichten. Zowel kwantitatieve als kwalitatieve gegevens worden in de analyse meegenomen. De doelen van een multicriteria analyse zijn het ordenen van gegevens, het transparant maken van beslissingsprocessen en het ondersteunen van beslissers. De methode lijkt op maatschappelijke kosten batenanalyse (mkba), maar bij mca hoeven niet alle criteria te worden uitgedrukt in monetaire eenheden. Een multicriteria analyse is bij voorbeeld toe te passen bij besluitvorming over een nieuwe huisvestingslocatie van een schoolgebouw (Voogd, 1988; De Vries, 1992). Maar er zijn ook adere toepassingen mogelijk. Denk aan de keuze voor een maaltijdvoorziening in Tytsjerkstradiel, over het sociaal leefklimaat in Roermond, de inrichting van het Lauwersmeer, de vestigingsplaatskeuze voor een kerncentrale (De Vries, 1994). Consequentie analyse Bij consequentie analyse gaat het erom om voorafgaand aan een beleidsactiviteit zo veel mogelijk na te gaan welke effecten en neveneffecten van deze activiteit verwacht mogen worden (Becker, 1987: 117). Een dergelijke analyse kan volgens Henk Becker worden toegepast als een overheid bij voorbeeld deregulering overweegt. Wat gebeurt er als je die en die regels gaat schrappen? Volgens Becker (1987: 117) moet je zo een analyse starten met een probleemanalyse: verken welke actoren betrokken zijn, welke hun onderlinge relatie en interacties zijn en welke knelpunten ze ervaren? Daarna maak je een basisanalyse: wat is de (voor)geschiedenis van een probleem en oplossing, en wat zijn de in dit verband relevante oorzaken en gevolgen. Vervolgens bezie je wat beïnvloedbaar is door een overheid en wat niet? Tegen dit decor kan een onderzoeker vervolgens nagaan welke beleidsalternatieven zich aandienen. De consequentie analyse houdt in dat nagegaan wordt van elk alternatief wat de bijdrage kan zijn 77

78 aan de oplossing of reductie van een probleem. De kern vormt het aftasten van de te verwachten effecten en neveneffecten voor de belangrijkste alternatieven. Daarna is aan de alternatieven een rangorde toe te kennen, een volgorde van wenselijkheid. Volgens Becker zijn effectrapportages, zoals een milieu effectrapportage een vorm van consequentie analyse. Overzicht van de omvang van ex ante evaluatie Dean Steenbeek (1997) heeft in de jaren negentig 28 EAE s op tien departementen aangetroffen. Hiervan zijn er medio 1997 (vermoedelijk) veertien in ontwikkeling en veertien in gebruik. De afzonderlijk opgevoerde MDW toetsen worden als een toets geteld. MDW staat voor marktwerking en deregulering, een operatie die liep tijdens het kabinet Kok ( ). Bij personen die EAE s laten uitvoeren is sprake van drie uitgangspunten, namelijk dat beleidsvoerders: 1. in zekere mate in staat zijn om doelgerichte beïnvloeding van sociale systemen voor te bereiden en ook uit te voeren; 2. van te voren kennis kunnen verwerven over te verwachten effecten en neveneffecten van deze beïnvloedingsactiviteiten, welke kennis binnen zekere grenzen betrouwbaar is. Blijkbaar bestaat er vertrouwen in de mogelijkheden tot voorspelling; 3. bereid zijn om van de resultaten van (..) analyses kennis te nemen om de uitkomsten van deze analyses te betrekken bij de besluitvorming (zie Becker, 1987: 125). Beleid wordt blijkbaar niet lastig doorkruist door machtspolitiek. Informatie is belangrijk. Van de veertien waargenomen operationele toetsen zijn er drie als zeer bekend in de rijksdienst te kwalificeren: de wetgevingstoets, de MDW toets en de ketenbenadering. Redelijk bekend zijn de Tafel van Elf, de emancipatie effectrapportage en uitvoeringsgericht werken (Steenbeek, 1997: 36). De Tafel van Elf is beschreven in het tijdschrift Beleidsanalyse. Bepaalde toetsen worden vaak gebruikt, andere veel minder. Hoe is de stand van zaken per medio 1997? Meer dan 100 maal per jaar worden gebruikt: de wetgevingstoets; uitvoeringsanalyse en toetsing; RO toets. De frequentie maal scoort: MDW toets; Tafel van Elf; tarieven toets; handboek subsidies; checklist coördinatie bestuursbeleid; ketenbenadering. Een frequentie van minder dan 20 maal per medio 1997 kent: handleiding subsidie instrument; de emancipatie effectrapportage; gezondheidseffectrapportage; uitvoeringsgericht werken; economische effectrapportage infrastructuur. Het gebruik is hoog als een toets ook formeel is vastgelegd. Medewerkers die met toetsen werkten, vonden een toets over het algemeen nuttig (1997: 38). Men is vrij eensgezind over het nut. Waarom kwam de toets er? Onderzoek toont dat beleidsambtenaren wel gewend zijn om beleid te maken maar minder benul hebben van de implementatie. Een toets moet de uitvoerbaarheid, handhaafbaarheid, doeleffecten of neveneffecten in beeld brengen. Het uiteindelijke doel van EAE s is om de kwaliteit van beleid te verbeteren. Kraan Jetten, Brand en De Valk (1998) publiceerden in het tijdschrift Beleidsanalyse een checklist van kwaliteitsnormen bij ex ante evaluaties. 78

79 Figuur 7: Ex ante evaluatie toetsen op rijksniveau per medio 1997 Rubriek Toets Departement / In ontw. / in context gebruik 1 handleiding subsidie instrument LN&V operationeel A invloed op doeleffecten 2 checklist tarieven V&W operationeel 3 checklist certificatie en normalisatie V&W;relatie met marktwerking project 4 handboek subsidies V&W operationeel 5 checklist voor uitvoeren en beoordelen van ex ante Financiën evaluaties 6 handboek advisering en implementatie wetgeving Financiën B de proceskwaliteit: a uitvoerbaarheid beleid b handhaafbaarheid van beleid 7 wetgevingstoets Justitie operationeel 8 handleiding effectmeting uitvoerbaarheid en handhaafbaarheid (MDW toets) Justitie operationeel MDW toets 9 de tafel van elf: toets op mate van naleving door gedragswetenschappelijke analyse op 11 dimensies Justitie operationeel 10 uitvoeringstoets rechterlijke organisatie Justitie operationeel 11 ex ante uitvoeringstoets (EAUT) Justitie 12 checklist handhaafbaar Justitie heid 13 EU checklist Justitie 14 uitvoeringsanalyse en toetsing OC&W operationeel 15 gegroeide toetsingsprak OC&W tijk beleidsontwikkeling 16 tienstappenplan beleid en wetgevingskwaliteit SZW C inhoud van het beleidsinstrument en neveneffecten Bron: Steenbeek, ketenbenadering V&W operationeel (checklist voor resultaatgericht beleid) 18 checklist bestuursbeleid BiZa operationeel 19 veiligheidseffectrapportage BiZa 20 bedrijfseffectentoets (MDW toets) EZ operationeel MDW toets 21 emancipatie effect SZW operationeel rapportage 22 economische effec rapportage infrastructuur V&W operationeel 23 verkeers veiligheids effectrapportage (VVER) V&W 24 milieutoets (MDW toets) VROM operationeel MDW toets 25 uitvoeringsgericht werken in vijf stappen VROM operationeel (U&H toets) 26 gezondheidseffectrap portage (GER) VWS operationeel 27 ramingsmodel zorgsector VWS 28 gehandicapten informatie doordenksysteem VWS 79

80 16 EEN SUBTYPE VAN EX ANTE EVALUATIE: EFFECTRAPPORTAGES Integrale ex ante evaluatie Ex ante evaluaties impliceren het voorafgaand aan besluitvorming over een beleidsprogramma analyseren van de vraag of de beleidsdoelstellingen en middelen tot de gewenste uitvoering kunnen leiden, doelstellingen (dus beoogde effecten) wel bereikt kunnen worden en ongewenste neveneffecten uitblijven. Dat betekent dat de gehele beleidstheorie, dus het geheel van veronderstellingen, achter een beleidsvoornemen doorgelicht kan worden. Dergelijke evaluaties worden verricht in geval van grote twijfel over de vraag of het beleid wel beantwoord aan het doel en/of de baten wel opwegen tegen de kosten en/of de kosten niet te groot worden en/of wel voldoende rekening is gehouden met reële knelpunten in de uitvoering. Is er reden voor dergelijke twijfel? De literatuur geeft aan dat veel beleid anders uitpakt dan voorzien wordt en dat er dus reden kan zijn om vooraf al na te denken of het beleid wel gewenst is of vooraf nog aanpassing vergt. Er zijn dus heel vaak serieuze argumenten te geven voor de vraag of dit beleid wel tot uitvoering moet komen. Effectrapportages vormen een subtype: het zijn partiële beleidsevaluatie ex ante. Willen we het verschijnsel effectrapportage doorgronden, dan is het nodig enige begrippen te gebruiken. Bij beleid kunnen we spreken van input, output en outcomes. Bij input gaat het om de middelen, bij output om de prestaties, en bij outcomes om de effecten van een beleid. Als we een tunnel onder een weg aanleggen om de verkeersveiligheid te verbeteren, is de tunnel de (beleids)prestatie en de verbeterde verkeersveiligheid het beoogde doel. Is er daadwerkelijk sprake van een verbeterde verkeersveiligheid door de tunnelaanleg dan treedt de gewenste outcome op, het effect waar het allemaal om begonnen is. Een effectrapportage is in dit voorbeeld goed voorstelbaar. Een verkeersveiligheidseffectrapportage kan, vóór een besluitvormend orgaan besluit tot een tunnel of twee tunnels of tot een andere oplossing, of wellicht tot niets, in kaart brengen wat we mogen verwachten van het alternatief, of het neveneffecten heeft, bijvoorbeeld sociale onveiligheid, en of een alternatief eigenlijk wel gewenst is. Effectrapportage, wat het is Een effectrapportage is een manier van ex ante evaluatie (verder: Korsten, 1997). In een effectrapportage wordt vooraf, vóór de besluitvorming plaatsvindt, gekeken naar effecten van een voorgenomen beleidsmaatregel of naar effecten van enkele alternatieve maatregelen. Dat gebeurt niet zonder reden natuurlijk. De ervaring leert dat het bereiken van wat een overheid wenst, lang niet altijd plaatsvindt. Omdat gewenste effecten niet altijd volledig of in voldoende mate bereikt worden, wordt niet volstaan met evaluatie achteraf, maar proberen overheden al vooraf te kijken of effecten te bereiken zijn. Ex ante evaluatie lijkt dus voor de hand liggend als effecten twijfelachtig zijn. Effectrapportages zijn weliswaar goed voorstelbaar maar niet eenvoudig uit te voeren, zoals nog zal blijken. Ze komen ook daadwerkelijk in allerlei gedaanten bij de Nederlandse overheid voor. Tot een van de bekendste effectrapportages behoort de milieu effectrapportage, de mer. Bij de mer is het niet gebleven. Er zijn sinds pakweg 1980 steeds vaker effectrapportages voorgesteld. Ze intrigeren blijkbaar. Volgens sommigen roept de ene rapportage zelfs de andere op, waardoor men van een wedloop kan spreken. 80

81 Vragen rond effectrapportages Aan effectrapportages zijn allerlei andere aspecten te onderscheiden (Korsten, 1997). Dat bleek al uit het voorgaande. We noemen er nog enkele: effectrapportages, wat zijn het eigenlijk en welke typen bestaan?; waarom komen ze voor?; waar komen ze voor, op welk overheidsniveau?; komen ze alle tot wasdom?; hoe verrichten we effectstudies?; waar loopt de wapenwedloop van steeds meer rapportages op uit?; welke gevolgen hebben de rapportages op zich? Op enkele aspecten gaan we kort nader in. Er bestaan meer soorten effectrapportages dan de mer. Zo komen er hier en daar wel jeugdeffectrapportages en emancipatie effectrapportages voor. Effectrapportages zijn om allerlei redenen een intrigerend verschijnsel. Waarom? Belangengroepen zien er een manier in om de reflectie op hun belang te verankeren en hun belang dus steeds weer op de agenda te krijgen. Milieugroepen bepleiten mede om die reden een milieu effectrapportage. Hoewel het uitvoeren van dergelijke effectrapportages lastig is, worden er sinds 1980 steeds nieuwe effectrapportages bepleit. Een van de kabinetten Lubbers pleitte voor een bedrijventoets en later viel zelfs het woord Europa toets. Het al wat oudere Draaiboek voor de wetgeving laat zien dat bij wetgeving in het bijzonder gelet wordt op effecten voor het particuliere bedrijfsleven, de sociaal economische ontwikkeling en de marktwerking. Dat is grotendeels het gevolg van een bezinning op marktwerking, deregulering en wetgevingskwaliteit. Volgens het draaiboek moet ook gelet worden op de gevolgen voor het milieu, en op de uitvoerbaarheid en handhaafbaarheid. Oog voor effecten niet vanzelfsprekend? Als we speciale effectrapportages verrichten, is het blijkbaar niet vanzelfsprekend om bij reguliere beleidsontwikkeling naar effecten te kijken. Dat is bij nader inzien ook zo. Jaren terug werd bij overheidsbeleid zeker niet zo op effecten gelet. We waren in Nederland optimistischer over het halen van effecten. In een tijd van wederopbouw was woningbouw belangrijk, en uiteraard ook het halen van de bouwvolumes. De vorderingen in de bouw waren eenvoudig te berekenen. Het budget voor beleid was in die tijd in het algemeen meestal wel beschikbaar en als een beleid niet direct het beoogde effect had, werden er meer middelen in gepompt. Het beleid was in de periode ook nog niet zo breed en pretentievol modificerend, dus niet zo op sociale gedragsverandering gericht. Er waren nog niet op brede schaal oproepen om zuiniger te stoken, het milieu niet te schaden door vervuiling, een mestboekhouding te voeren, auto s verplicht te laten keuren, enz. Het beleid was eerder codificerend. Maar intussen is beleid verbreed naar vele terreinen, is de modificerende pretentie verbreed en is afweging meer gewenst vanwege de beperking van de financiële middelen, die we menen te zien of die overheidsbestuurders zich opleggen of opgelegd krijgen. De door toenemende opleiding mondiger wordende samenleving gelooft intussen ook minder in ficties, in beleidsmatig bellen blazen rond werkgelegenheid scheppende plannen die aan veel te hoog gegrepen ambitie ten gronde gaan, bijvoorbeeld. Dat wil zeggen, dat meer gevraagd wordt (en 81

82 soms moet worden) naar beleid dat ook daadwerkelijk het beoogde effect heeft, anders kan het beter achterwege blijven. In zo n verschuivende context kan gevraagd worden naar milieu effectrapportages en de effecten van beleid voor emancipatie. Er kan een roep om effectrapportages ontstaan. Vraagstelling in een effectrapportage Effectrapportages zijn een vorm van ex ante evaluatie: het vooraf, vóór de besluitvorming plaatsvindt, bekijken van bepaalde effecten van een beleidsvoorstel of enkele voorstellen. We schreven dit al. Effectrapportages zijn gericht op vragen als: welke zijn de doelstellingen achter een maatregel en wat de gewenste of ongewenste effecten van een eventuele maatregel?; is een maatregel uitvoerbaar, wat kost het en draagt die bij aan het realiseren van de doelstellingen?; sporen uitvoering, kosten en baten, en effecten en neveneffecten met de verwachtingen?; Bij een effectrapportage wordt gerapporteerd over beoogde en soms over niet beoogde effecten, dus neveneffecten. Sommige effectrapportages zijn geïnstitutionaliseerd in regelgeving, andere niet. Zo zijn er voor de milieu effectrapportage spelregels in wetgeving opgenomen, maar voor de economische effectrapportage niet. De meeste effectrapportages zijn sectoraal. Eén effectrapportage is integraal. Die staat in de Aanwijzingen voor de regelgeving. Deze is het gevolg van werk van de commissie Geelhoed, over deregulering. Volgens die aanwijzingen moet het bereiken van effecten van regelgeving tevoren in kaart zijn gebracht en moet nagegaan worden of wetgeving wel het geëigende middel is om de doelstellingen te bereiken. Onder integraal versta ik bij effectrapportages dat alle sectoren die ermee te maken hebben evenwichtig behandeld worden. In een integrale effectrapportage worden de verschillende belangen die door de voorgenomen activiteit beïnvloed kunnen worden, in één rapportage betrokken. In verband met effectrapportages wordt ook wel eens het woord consequentie analyse gebruikt (Becker, 1983). Is dat terecht? Niet helemaal want een consequentie analyse is een inventarisatie van effecten terwijl een effectrapportage nadrukkelijk ook een beoordeling of waardering van de gevolgen van een maatregel inhoudt. Historie van effectrapportages Effectrapportages komen voor in het buitenland, bijvoorbeeld in de Verenigde Staten. Ook in Duitsland komt dit fenomeen voor, bijvoorbeeld in de vorm van Der Praxistest von Gesetzentwürfen. In Nederland kennen we effectrapportages ook al langer. Denk onder meer aan de milieu effectrapportage (mer), de bestuurseffectrapportage (ber), de emancipatie effectrapportage (eer), de veiligheidseffectrapportage (ver), de economische effectrapportage, de gezondheidseffectrapportage (ger), de criminaliteitseffectrapportage (cer). 82

83 Opvallend is dat op deze lijst van voor 2000 een generatie effectrapportage nog ontbreekt. blijkbaar wordt er niet nagegaan welke problemen, bijvoorbeeld de schuldenlast, doorgeschoven worden naar toekomstige generaties. Een aantal jaren terug werd door een raadslid uit de gemeente Venlo gepleit voor een jeugdeffectrapportage. Een ander nieuw idee is een archeologie effectrapportage. Bij de aanleg van industrieterreinen en grote andere infrastructurele ingrepen kan men een dergelijke effectrapportage verplicht stellen. Nuttig of niet? Waar? Onder welke condities? Welke argumenten voor en welke tegen? Sommige effectrapportages zijn bekender dan andere. Sectorale effectrapportages zijn veel bekender dan integrale. Het meest bekend is de (sectorale) milieu effectrapportage geworden. Wie heeft er in 1978 gedacht aan een verkeerseffectrapportage? Toch kwam die toen ook al voor. Zo ik zelf als medewerker van het Nijmeegse Instituut voor Toegepaste Sociologie in opdracht van de Directie Gelderland van Rijkswaterstaat een onderzoek uitgevoerd naar de vraag welk effect de aanleg van de A73 had op de recreatiedruk van het Hatertse en Overasseltse Vennengebied bij Nijmegen. Dat was, hoewel het nooit officieel werd uitgesproken, een onderzoek om milieu en recreatiemensen die zich verzetten tegen de weg en bepaalde kunstwerken daarin, tunnels, wind uit de zeilen te halen. Niet alle typen effectrapportages zijn geïnstitutionaliseerd maar de bekendste wel. Met de mer is dat het geval. Bij de ber is het niet zover gekomen. Met de ber, de bestuurseffectrapportage, is het nooit wat geworden. Of nieuwe effectrapportages zullen doorbreken moet worden afgewacht. Oorsprong van effectrapportages in macroperspectief Waar komen rapportages uit voort? Een eerste reden is ongetwijfeld bezorgdheid dat gewenste effecten van beleid niet gehaald worden of er neveneffecten optreden. Dat blijkt bijvoorbeeld naar voren te komen uit effectrapportages over de uitbreiding van vliegvelden. Wat de werkgelegenheidseffecten van een uitbreiding zijn, blijkt tot veel verschil van mening te leiden (zie ook de dissertatie van Kramer). Wilt u meer voorbeelden lees dan C. Schuyt s boekje Tegendraadse werkingen. Een tweede reden voor effectrapportages is de noodzaak van nauwgezettere afweging van belangen en het dreigend in de knel komen van bepaalde belangen. Als het milieubelang verwaarloosd dreigt te worden, wordt een effectrapportage vooraf bepleit. Als bij voorbeeld de benzineprijs in Nederland sterk stijgt ten opzichte van het buitenland is dit voor pomphouders in de grensgebieden goed voelbaar en wordt gepleit voor een grenslandeffectrapportage. De bedoeling is te bereiken dat de rijksoverheid zich voorafgaand aan het nemen van maatregelen meer bewust wordt van wat die maatregelen voor een grensgebied kunnen betekenen. Minister van Buitenlandse Zaken Frans Timmermans (woonplaats Heerlen) besloot in 2013 om zo een toepassing te verkennen. Dan zijn er ten derde de belangengroepen die pleiten voor een rapportage. De emancipatieraad bepleitte een emancipatie effectrapportage. Effectrapportages zijn in de belangengroependemocratie verzeild geraakt. Er zijn intussen allerlei rapportages. Elk belang heeft zijn rapportage: ber, mer, ver, eer, enz.. De ene rapportage lokt ook de andere uit. Er lijkt sprake van een soort wapenwedloop aan de gang. We zagen dit bij bij de discussie over de uitbreiding van Schiphol in

84 d Ook vanuit de catacomben van de rijksdienst komen we geestdriftige pleidooien tegen voor nieuwe effectrapportages. Blijkbaar is een effectrapportage een momenteel in de tijdgeest passend instrument dat aanspreekt omdat het nader zicht kan bieden op gewenste richtingen die met beleid worden ingeslagen. Wat leert ons een wapenbeheersingseffectrapportage? Welke kant gaat het op als een onderdeel van het gezondheidszorgbeleid die en die effecten heeft? Effectrapportages vertegenwoordigen, zo lijkt het, elk een belang. De bestuurseffectrapportage komt voort uit de Raad voor het Binnenlands Bestuur (Rbb), die, ik vertaal vrij, vóór de besluitvorming en invoering van maatregelen plaatsvond, uitgezocht wilde zien wat de consequenties van rijksmaatregelen zijn voor medeoverheden. De emancipatieeffectrapportage is bijvoorbeeld bedacht door de Emancipatieraad, ook een adviesraad. En de MER wordt geassocieerd met milieugroepen. Effectrapportages in meso en micro perspectief Dat effectrapportages nodig zijn, kan men beoordelen vanuit macro perspectief door te kijken naar verschuivingen in overheidsbeleid. Daarop gingen we reeds in. Men kan ook kijken naar de meso en micro verklaringen, dus bij de vraag naar een effectrapportage door belangengroepen en bij een concrete roep om een rapportage. Dat brengt ons bij vier factoren, vier verklaringen. a. Meer willen weten door meten Het bepleiten van effectrapportages kan te maken hebben met kenmerken van het beleid. De effecten van bepaald beleid worden eerst na jaren zichtbaar. Doel van de effectrapportage is dan om een bepaald effect van beleid eerder in beeld te krijgen om te zien wat de kans op het bereiken van een gewenst of ongewenst effect is. Een voorbeeld vormen emancipatiebevorderende maatregelen. Effecten van emancipatiebeleid zijn meestal inderdaad niet binnen een twee jaar zichtbaar. Het is begrijpelijk dat daarom zo n rapportage wordt gevraagd. De Emancipatieraad heeft daarbij ongetwijfeld ook de versterking van de eigen positie op het oog gehad. Daarin zijn diverse kabinetten echter niet meegegaan. Vandaar dat er niet zoveel van de emancipatie effectrapportage terecht gekomen is. b. Nieuw belang zien Een tweede verklaring voor het ontstaan van effectrapportages is dat in de belangenafweging nieuwe belangen naar voren gebracht worden, die men preciezer in beeld wil krijgen. Een toenemend belang voor veiligheidsaspecten lokt zo een veiligheidseffectrapportage uit. c. Reactie op eerder weggedrukt belang Een derde reden voor de opmars kan zijn: het tegengaan van het wegdrukken van een bepaald belang. De mer is daar een voorbeeld van. Milieugroepen wilden een middel tegen het wegdrukken van het milieu in de belangenafweging. Om effectrapportages wordt natuurlijk gevraagd als mensen denken dat een gewenst belang verwaarloosd wordt in de belangenafweging bij een beleidsvoornemen, in de ontwerpfase van beleid. Verdedigers van de effectrapportage denken dat de effecten van het realiseren van het beleidsvoornemen negatief, of te negatief, of niet positief genoeg zullen zijn. Ze rekenen erop dat een effectrapportage dit tijdig, voor het nemen van beslissingen aan het licht brengt. Een effectrapportage is een (quasi ) neutraal instrument, een instrument dat het belang als het ware uit de hoek van de belangengroep tilt. Verdedigers verwachten van een effectrapportage x over een mogelijk beleidsvoornemen a dat als blijkt dat het belang x in de knel komt, alsnog een aanpassing van het voornemen a plaatsvindt. 84

85 d. De ene rapportage lokt de andere uit Een vierde reden is dat de ene effectrapportage de andere uitlokt, als een soort tegengas. Een voorbeeld is de economische effectrapportage rond een vliegveld, die het gemeentebestuur van Rotterdam eind jaren tachtig vroeg bij de discussie over vliegveld Zestienhoven. Effectrapportages uitvoeren Effectrapportages kennen methodologische aspecten. Effecten vooraf in kaart brengen is betrekkelijk lastig want het voorspellen van effecten, zeker als ze betrekking hebben op menselijk gedrag of gedrag van organisaties, is niet eenvoudig. Uit wetsevaluatie onderzoek blijkt dat ook. Gezondheidseffectscreening Vanuit het Ministerie van Volksgezondheid, Welzijn en Sport is in 1996 een inventarisatie gemaakt van bestaande methoden en instrumenten voor effecttoetsing van beleidsvoornemens. In het rapport Gezondheidseffectscreening is een overzicht te vinden. Daarin worden genoemd: de milieu effectrapportage, de emancipatie effectrapportage, de bestuurs effectrapportage, de veiligheidseffectrapportage, de criminaliteitseffectrapportage, de wetgevingstoets en de MDW operatie (marktwerking, deregulering en wetgevingskwaliteit). De vergelijking wijst uit dat er twee typen bestaan. De eerste soort is gebaseerd op de veronderstelling dat oorzaak gevolgrelaties bekend en te kwantificeren zijn. Volgens een vast stappenplan kan dan berekend worden wat de gevolgen van alternatieve beleidsopties zijn. Dit heet in het rapport het rationeel model. Op milieugebied blijkt dit frequent aan te treffen. Achter de tweede soort gaat de veronderstelling schuil dat oorzaak gevolgrelaties niet goed bekend en te kwantificeren zijn. Bij dit type wordt via onderhandeling en overleg tussen de betrokken actoren bezien welke beleidsoptie naar verwachting de gunstigste effecten heeft. Omdat de oorzaak gevolgrelaties niet bekend zijn is de procedure met nogal wat onzekerheden omgeven. Maar ze hoeft niet minder effectief te zien. Dit type is meer incrementeel. Een toetsing van beleidsvoorstellen op gezondheidseffecten is volgens de minister van VWS in Volkgezondheidsbeleid mogelijk, ook al zijn veel oorzaak gevolgrelaties niet altijd volledig bekend. Voor beleidsinitiatieven waarbij veel epidemiologische kennis beschikbaar is, kan het rationele model van effectrapportage wel van toepassing zijn. Vraagstellingen waarbij dergelijke kennis afwezig is, zijn via een incrementeel model te benaderen, dus via overleg en onderhandeling. Veel procedures kunnen elementen van beide hebben. De toetsing van gezondheidseffecten is niet geheel nieuw omdat op het gebied van milieu en verkeersveiligheid effecten op de gezondheid al langer in kaart worden gebracht en bij de besluitvorming betrokken worden. Gezondheidseffectscreening heeft als doel om een dergelijke gezondheidstoets op een meer systematische en tegelijkertijd meer selectieve wijze in te zetten (TK , , nr. 14: 2). De minister besluit om het instrumentarium voor deze toets te laten uitwerken en experimenteel te laten toepassen. De minister van VWS, mw. E. Borst Eilers, beschouwt zichzelf als initiatiefnemer van de toets. Europatoets en grenslandtoets Europarlemantariër Ria Oomen (CDA) bepleitte in mei 1998 en ook al daarvoor een Europatoets. Deze zou een nationaal wetsontwerp op het gebied van belastingwijziging, sociale zekerheid en dergelijke moeten vergezellen. De bedoeling was de effecten voor grensoverschrijdende pendelaars (uit het grensgebied) duidelijk te maken. Zo n Europatoets 85

86 zou niet alleen in Nederland door de Nederlandse wetgever maar ook in andere landen uit de Europese Unie moeten worden uitgevoerd. Een variant op de Europatoets is de grenslandtoets. De grenslandtoets beoogt negatieve effecten van voorstellen op het gebied van nationale regelgeving voor grensregio s vóór besluitvorming plaatsvindt op te sporen: een grensland effectrapportage dus. De Grondwet schiet niet tekort met mogelijkheden voor grensregio s voor een eigen buitenlands beleid. Invoering van een grenslandtoets bij nationale wetgeving heeft geen zin, omdat die te vertragend werkt. Dat antwoorden minister Dijkstal en staatssecretaris Van de Vondevoort van Binnenlandse Zaken medio februari 1998 op vragen van de D66 ers Wessels en Scheltema over het nieuwjaarsessay Limburg en de Grondwet van commissaris der koningin Van Voorst tot Voorst. De Limburgse gouverneur schreef daarin dat de huidige staatkundige structuur, zoals vastgesteld in de Grondwet, grensregio s te weinig bevoegdheden geeft om kleine buitenlandse zaken zelf te regelen. Ook meende hij dat los van de Grondwet politiek Den Haag zijn houding ten opzichte van grensregio s moet veranderen, meer in het bijzonder verruimen. Dijkstal c.s. vinden niet dat de Grondwet grensregio s te weinig ruimte biedt. Volgens hen geeft Van Voorst tot Voorst daar ook geen concrete voorbeelden van en bepleit hij ook helemaal geen wijziging van de Grondwet. Volgens Van Voorst tot Voorst is die immers niet nodig wanneer de rijksoverheid voldoende aandacht heeft voor buitenlandse zaken met de directe buren en indien de wetgever voldoende ruimte geeft aan decentrale overheden. De minister en staatssecretaris vinden dat de bepleite grenslandtoets voor nationale wetgeving, die bedoeld is om negatieve effecten in grensregio s te voorkomen, alleen maar vertragend zal werken. Bovendien zijn negatieve effecten pas in de praktijk merkbaar en niet vooraf. De bewindslieden zijn ten slotte niet van plan om eventuele knelpunten bij grensoverschrijdende samenwerking op een rijtje te zetten. Gezien de vele verschillen tussen Nederlandse, Duitse en Belgische wetgeving is dit onbegonnen werk. De meeste klachten betreffen ruimtelijke ordening, milieu, sociale wetgeving en media/telecommunicatie. Afstemming van wetgeving is een proces van lange adem. In de praktijk komt men vaak tot bevredigende oplossingen, aldus de bewindslieden. De bewindslieden overschatten dit wellicht. De Euregio Maas Rijn bijvoorbeeld is rond 2010 een lamme eend. De Euregio Maas Rijn was bedoeld als denktank. Ideeën moest die spuien, zodat de bestuurders worden gevoed door het veld. Het dagelijks bestuur van deze Euregio wordt gevormd door de Limburgse commissaris der koningin en zijn buitenlandse tegenhangers. De grensregio s gijzelen ook zichzelf. De Euregioraad Maas Rijn had te kampen met te weinig aangedragen agendapunten en de opkomst op vergaderingen was bedroevend. De belangstelling voor de raad is gering. De denktankfunctie kon niet waargemaakt worden. Ideeën: rond de nul komma nul. Daar kwam bij dat brainstormen mocht, maar besluiten nemen, ho maar. Bestuurders laten het dan al gauw afweten. Geen wonder dat er geen kip naar een vergadering komt. Zijn er dan geen knelpunten? Die zijn er wel maar wie ze aandraagt, moet er ook rekening mee houden dat hij ze gezamenlijk met anderen moet oplossen en budget moet leveren. Dan durven lokale en provinciebestuurders aan alle zijden van de grens niet. De Euregio had geen (groot) eigen budget. 86

87 De commissaris heeft met zijn nieuwjaarsessay niet alleen het hart gelucht maar ook eens van zich afgebeten, zonder tanden overigens, richting een derde: de nationale boeman. De Europatoets en grenslandtoets komen samen in het volgende. Steunenberg e.a. (2012) hebben de mogelijkheden in kaart gebracht voor het uitvoeren van een grenseffectenanalyse voordat een EU richtlijn wordt omgezet in nationale wet en regelgeving. Zij verkenden ook of het mogelijk is te monitoren of tijdens en na omzetting grenseffecten zich alsnog voordoen en te bezien hoe deze opgelost kunnen worden. Een dergelijke analyse moet helpen voorkomen dat er in de toekomst ongewenste grenseffecten ontstaan. Minister van Buitenlandse Zaken Timmermans gaat er, zoals gesteld, naar kijken. Dat zegde hij in 2013 toe. Waardering van effectrapportages Om tot een waardering van effectrapportages te komen, kan men verschillende aspecten onderscheiden. a De wapenwedloop. Sommigen signaleren een wildgroei van effectrapportages, omdat de ene rapportage de andere uitlokt. De uitbreiding van Schiphol illustreert dit. De mer voor de vijfde landingsbaan kon de toets der kritiek niet doorstaan, en daarom was een aanvullende mer nodig. De aanvullende mer was voor de voorstanders van de baan weer aanleiding om een economische effectrapportage te laten opstellen. We zien een schakeling van effectrapportages, een proliferatie, een soort wapenwedloop. Meer integraliteit in ex ante evaluatie kan de versnippering van effectrapportages wellicht stoppen. b Effectrapportages lokken nadere beoordeling uit. Er is in het geval van Schiphol een zware wissel getrokken op het integratievermogen van de overheid. Maar niet alleen dat. Het parlement heeft in geval van Schiphol zelf een secundaire analyse van de effectrapportages laten uitvoeren. Rond de Betuweroute is er ook al contraexpertise ingeroepen. Er is blijkbaar behoefte aan nadere weging van effectrapportages. Er wordt iemand voorgeschakeld, wat het gevaar geeft van toenemende stroperigheid. c Wat is de technische kwaliteit van effectrapportages? Hierover is een onderzoek gepubliceerd door De Valk en De Vries (1994). Daaruit blijkt dat diverse mer s kwalitatief goed zijn maar hier en daar vallen ook wel steekjes. De Valk (1997) meent dat er soms wel veel teveel alternatieven worden doorgerekend waardoor door de bomen het bos niet meer is te zien. d Hebben effectrapportages invloed? Is het een veelbelovend instrument? De mer is uit het perspectief van beleidsgericht leren positief (Ten Heuvelhof en Nauta, 1997). Veel gebruikers melden dat ze in allerlei opzichten wat gehad hebben aan een mer rapport. Het heeft hun inzicht verruimd, en hun begrip voor diverse bezwaren tegen een alternatief vergroot. De Valk (1997) analyseerde 41 besluiten waarbij een mer werd gemaakt en vergeleek die met 41 besluiten zonder mer. Hij is minder positief dan Ten Heuvelhof en Nauta. Vooral bij overheden zelf, die een mer laten verrichten werkt de MER door. Andere initiatiefnemers laten zich er minder aan gelegen liggen. 87

88 DEEL VI: LEREN VAN EVALUEREN 88

89 17 DE EVALUATOREN: WAT ZE KUNNEN LEREN VAN KRITIEK Is er ook kritiek mogelijk op evaluatieonderzoek waar evaluatoren wat van kunnen leren? Daarop moet worden ingegaan omdat als evaluatoren iets kunnen leren dat weer positief kan inwerken op het leren van evalueren in organisaties. Vooreerst, waarop komt weinig of geen kritiek? Op enkele belangrijke aspecten van evaluatie. 1. Opvallend is dat de onafhankelijkheid van de evaluator zelden kritiek krijgt. Onafhankelijkheid is overigens wel belangrijk, ook als een visitatiecommissie aantreedt of een parlementaire (evaluatie)commissie. Leden van een parlementaire commissie moeten hun lidmaatschap van een bepaalde partij als het ware terzijde schuiven en ze moeten gaande het onderzoek spelregels in acht nemen, zoals niet lekken (Van der Zwan en Noordegraaf, 1998:71). 2. De onderzoeksaanpak moet ten allen tijd helder gestructureerd zijn. De keuze van de opzet is belangrijk omdat dan moet blijken om welk beleid het gaat: om beleid in een een actor situatie of in een multi actorennetwerk? Waarop wel kritiek? 1 Te weinig bezinning op de opdracht De eerste kritische waarneming behelst dat onderzoekers vaak (te) laat bij de evaluatieopdracht betrokken worden. Deze ervaring baseer ik op tal van opdrachten die ik zelf heb uitgevoerd en kennisname van studies van anderen. Waarom? Het proces van opdrachtverlening is vaak sequentieel. Het besluit tot evaluatie is gevallen, er zijn contouren aangegeven over het wat en waarom en hoe van het evaluatieonderzoek en het budget ligt vast. Dan komt de evaluator pas aan bod. Als een externe evaluator gezocht wordt, mag die dan met medestrevers een offerte uitbrengen? Met die offerte gaat hij teruggeven (herformuleren in eigen woorden) aan de opdrachtgever hoe het onderzoek wordt opgevat. Dat is een rem op durf en creativiteit. Juist in de startfase zou eens vrijmoedig gesproken moeten worden, ook aan de kant van de opdrachtverleners over vragen: wat willen we nou echt met het onderzoek?; wat niet?; wat moet het voor soort informatie opleveren? De entreebesprekingen tussen opdrachtgever en onderzoeker(s) en eventueel ook de betrokkenen uit het beleidsnetwerk zijn van groot belang. Dit wordt vaak onderschat. 2 Begrip van doelbereiking schiet tekort Een tweede kritiek raakt de verklaring van output en/of effecten (outcomes). Tal van evaluaties kijken naar de bereikte prestaties of resultaten, zelfs naar effecten en naar de processen ernaar toe. Maar ze leggen geen relatie met de daarvoor verantwoordelijke mechanismen. Ze gaan niet terug naar het waarom van de effecten. De achterliggende beleids en interventietheorie(en) worden niet geproblematiseerd, gereconstrueerd noch getoetst aldus Leeuw en Van Gils (2010: 170) op basis van hun analyse van een steekproef van 30 evaluaties uit een totale populatie van 100 op het terrein van het ministerie van Buitenlandse Zaken. Er ontbreekt iets wat lijkt op streng gesteld een oorzakelijkheidsanalyse. Als beleid effect heeft of geen effect moet duidelijk worden of dat ligt aan de beleidsinhoud, de in of 89

90 uitvoering of aan iets anders. En als beleid de oorzaak is, hoe kan het dan gebeuren dat de doelstellingen niet gehaald worden? Die vraag moet beantwoord worden. De implicatie daarvan is duidelijk. De onderzoekers leren de lezers nogal eens te weinig over het waarom van het wel of niet bereiken van bepaalde resultaten. Wat nog wel gebeurt, is dat aangegeven wordt of de bereikte resultaten en effecten eventueel overeenstemmen met de beleidsintenties en afspraken. Evaluaties volstaan vaak met de doelbereiking. Weinig gebruiksgerichte evaluatiestudies zijn echte effectiviteitsanalyses. Waarom? Omdat de onderzoekers niet gevraagd wordt te zoeken naar de mechanismen, omdat het budget voor de analyse beperkt is en omdat er altijd weer haast is. Onderzoekekrs worden in feite nogal eens te veel opgejaagd. Dat betekent anders gesteld dat de opdrachtgevers niet echt interesse hebben voor effectiviteitsanalyses. Veel analyses zijn bovendien slechts procesevaluaties. Deze aanpak van doelbereikingsgerichtheid heeft gevolgen voor de beleidsrelevantie. Onderzoekers die een bestaande beleidstheorie niet ter discussie kunnen of mogen stellen en ook niet zoeken naar een alternatief of een dynamisering van de beleidstheorie, bereiken dat de beleidvoerders padafhankelijk blijven opereren. Ze blijven denken in termen van het beleid als potentieel succesvol terwijl het beleid misschien rigoreus op de schop moet (zie ook Van Twist, 1993; Heffen, 2008). Een voorbeeld. Een provinciebestuur zette een omgevingsbeleid op dat moest leiden tot het voldoen aan milieunormen door agrarisch ondernemers. De stankoverlast van bedrijven van agrarische ondernemers moest verminderen en de ammoniakcijfers (bij voorbeeld als gevolg van varkenshouderij) moesten omlaag. Dat leidde tot een provinciaal voornemen om voor bepaalde landbouwbedrijven geen bedrijfsuitbreiding toe te staan. En andere bedrijven zouden moeten worden verplaatst. Daarvoor was een bepaald budget beschikbaar. Na enkele jaren bleek dat amper een varkenshouderij verplaatst was naar een gebied waar de ondernemer binnen aanvaardbare stanknormen bleef. Het beleid was dus volkomen vastgelopen. De doelstellingen werden niet bereikt.waarom? De centrale veronderstelling achter het verplaatsingsbeleid bleek niet juist. De oevrgrote meerderheid van agrarische ondernemers was niet bereid om opnieuw fors in een elders gevestigd bedrijf te investeren. De meesten die in aanmerking kwamen, waren al ouder dan 50 jaar en hadden bovendien geen bedrijfsopvolger. Dus zouden de schulden bij een bedrijfsverplaatsing tot ver na hun 65 ste levensjaar om hun nek blijven hangen. Ze redeneerden: we zitten het wel uit op de bestaande lokatie, ook als geen verdere uitbreiding meer mogelijk is. Eigenlijk zou in dit geval het roer fors om moeten: een herziening van de achterliggende beleidstheorie diende zich aan. Kwam die er ook? Nee. De evaluator wachtte af of het provinciebestuur het beleid wil stoppen. 3 De keuze van de centrale maatstaf Een derde kritiekpunt slaat op het ontkennen van een beleidsnetwerk. De keuze voor een effectiviteitsevaluatie of een zwakkere variant daarvan impliceert de keuze van doelstellingen die achter beleid schuil gaan van een centrale overheidsactor. Dat is een gerechtvaardigde aanpak in geval deze overheid volledige doorzettingsmacht heeft. Dan stelt de centrale actor beleid vast en voert ook zelf uit. Bij veel beleid is echter de doorzettingsmacht niet slechts in één hand; er is sprake van afhankelijkheden tussen 90

91 overheden en misschien ook wel in bredere zin (Abma en In t Veld, 2001; Bekkers en Lips, 1998). Neem het landschapsbehoud in Zuid Limburg. Op een conferentie bleek dat heel veel partijen bij elkaar waren met elk eigen taken, bevoegdheden en middelen; de rijksoverheid, het waterschap, de provincie, de dienst landelijk gebied, de gemeenten, landbouwers, recreatieondernemers (pensionhouders, campinghouders, eigenaar van een skipiste, etc.), chemische bedrijven, de regionale VVS, enzovoorts. In dit geval moeten doelen verknoopt worden en middelen gebundeld. We zitten daarmee bij netwerkmanagement. Verdedigers van netwerkmanagement noemen het uitgaan van gerichte doelstellingen van één overheidsactor een eenzijdige en verkeerde top down benadering (Klijn en Koppenjan, 2001: 189). In een netwerkcontext moet juist worden uitgegaan van een benadering van onderop, door de denkwijzen en oriëntaties van alle relevante actoren uit het beleidsnetwerk mee te nemen. Wat levert dat op? Erkend moet worden dat zich in het multi actoren netwerk vaak dynamiek voordoet. Dat doelstellingen stabiel blijven is een misverstand, stellen zij (Klijn en Koppenjan, 2001). Er is sprake van: de onhoudbaarheid van een eenduidig inhoudelijk ijkpunt. Bij een evaluatie van beleid dat in een netwerkcontext van van elkaar afhankelijke actoren tot stand kwam, denk maar eens aan de evaluatie van de vernattingspolitiek van De Peel, moeten de doelstellingen van alle actoren meegenomen worden. Al de actoren moeten in feite bij de opdracht tot evaluatie betrokken worden. Zij moeten immers ook de resultaten relevant vinden en benutten. 4 De reikwijdte van het onderzoek Een vierde kritiekpunt: veel evaluatiestudies hebben een beperkte geldigheid. De bevindingen slaan alleen maar op wat is onderzocht en zijn ook begrensd in de tijd. Dat valt in elk geval op te maken uit een studie naar evaluaties op het terrein van het ministerie van Buitenlandse Zaken (Leeuw en Van Gils, 2010: 170). Deze evaluaties zeggen bij wijze van spreken iets over het beleidsprogramma in jaar 1 en eventueel 1 en 2 in de plaatsen a tot en met h. Maar ze hebben niet veel reikwijdte naar jaar 3 en de plaatsen i, j en k. Van generaliseerbaarheid is niet of nauwelijks sprake. Dat kan te rechtvaardigen zijn omdat gebruiksgerichte evaluatie niet tot doel heeft om de kennis in een wetenschapsgebied uit te breiden maar om bij te dragen aan beter beleid en/of betere besluitvorming. Toch zou meer generaliseerbaarheid hier en daar mogelijk zijn. Denk maar eens aan gebiedsgericht beleid. Het is wel zo nuttig als een analyse van de politiek in De Biesbosch Noordwaard, Kerngebied Vechtplassen en de Gelderse Poort inzichten oplevert die ook elders van nut zijn (zie Cörvers, Glasbergen en Korsten, 2003). Zoeken naar synthese dient zich als opportuniteit aan. Want het is vaak niet zo dat wat overheid x laat onderzoeken zo uniek is dat een andere overheid y dit onderwerp nog nooit bij de kop heeft gepakt. Wie kijkt naar studies van lokale rekenkamers en rekenkamercommissies ontdekt dat veel van deze organisaties in een bestek van een jaar of vijf een aantal zelfde of sterk vergelijkbare studies ondernemen. Blijkbaar kijkt men bij het opvoeren van mogelijke onderzoekthema s naar wat andere rekenkamers onderzochten. 5 Veldkennis te gering? Uit het voorgaande vloeit voort dat veel evaluatieonderzoekers wel wat weten van onderzoek verrichten maar gemiddeld genomen zelf niet uitblinken in kennis van het terrein dat ze onderzoeken (Bongers en Den Hertog, 2007). Veld of sectorkennis zit niet in het 91

92 onderzoeksteam dat evalueert. De evaluatoren kijken naar doelstellingen maar laten zich niet in met de beleidsinhoud. Die wordt als onomstreden vertrekpunt aanvaard. Dat heeft het voordeel dat de onderzoekers enige afstand houden tot de sectorcultuur waarin heilige huisjes en taboes bestaan. Maar daar staat een nadeel tegenover. Dat zou eigenlijk gecorrigeerd moeten worden. Onderzoekers moeten thuis zijn of verder thuis geraken in de materie, zeker als het om een complexe casus gaat, zeggen Van der Zwan en Noordegraaf (1998: 71) die het Gemeentelijk Vervoerbedrijf uit Amsterdam hebben doorgelicht. Een ander nadeel is dat wie zich niet grondig verdiept in de beleidsinhoud ook moeilijk met radicale suggesties kan komen om beleid over een andere boeg te gooien. Hier dreigt dus iets te ontstaan dat eerder padafhankelijkheid is genoemd. Onderzoekers blijven werken binnen het bestaande beleidsparadigma (lees: frame ). Tineke Abma (2001) is een van de evaluatoren die meent dat de onderzoeker een multipele evaluatie kan kiezen. Dat impliceert dat de beleidsinhoud zelf ter discussie kan komen. Dan moet je dus over materiekennis beschikken. 6 Te weinig nieuws? Een zesde kritiekpunt op beleidsevaluaties impliceert dat gebruikers van evaluaties wel eens aangeven dat ze niet veel nieuws geleerd hebben van een evaluatiestudie (Leeuw en Van Gils, 2010: 172). Dat is begrijpelijk als evaluatoren zich niet inlaten met de beleidsinhoud (zie kritiek nr. 5). Evaluatoren die zich niet inlaten met de beleidsinhoud, of die zelfs maar beperkt begrijpen, neigen ertoe om padafhankelijk te blijven denken en dus slechts te komen met suggesties in de vorm van kleine stappen. Hier is wat aan te doen door enkele maatregelen. 1. Voor de start van een evaluatie grondiger nadenken over de evaluatieopzet. Moet de evaluatie een multipele of multiperspectivische evaluatie zijn vanuit meerdere perspectieven in plaats van alleen een doelbereikings of een effectiviteitsevaluatie? Wat worden maatstaven ter beoordeling van beleid: alleen effectiviteit vanuit een overheid gezien? Is de evaluatie een evaluatie van beleid, dat in een netwerkcontext tot stand kwam, waarbij de actores van elkaar afhankelijk zijn omdat geen actor de volledige doorzettingsmacht heeft? 2. Een tweede suggestie houdt in om het prospectieve explicieter onderdeel te laten zijn van de evaluatie. Een evaluator die gevraagd wordt om een wet te evalueren, stel een mestbeperkende wet voor varkenshouders, kan pogen de bevindingen te doordenken vanuit enkele scenario s die in het land de ronde doen, zoals het scenario van radicale deregulering. Die suggestie sluit aan op denken in termen van een multiperspectivische evaluatie (Korsten, 1988; Ringeling, 1993; Abma, 2001: 314). Mijn ervaring bij de (vroegere) Sociale Verzekeringsraad (SVR) is geweest dat als dit niet bij de opdracht al is meegegeven evaluatoren hiertoe niet geneigd zijn. Die weerzin kan gevoed zijn door gebrekkige kennis van het maatschappelijke debat rond een thema. Men is niet in staat om scenario s te formuleren of denkt teveel in politiek vaarwater te belanden. Men heeft de durf van het Rathenau instituut niet. 3. Een derde suggestie is om voor het verschijnen van een definitief rapport een of meer expertmeetings te organiseren waarbij juist betrokkenen uit een sector evaluatieresultaten of stellingen voorgelegd krijgen om op te reageren. Dergelijke meetings kunnen een zeefwerking hebben omdat ze uitfilteren wat in de ogen van 92

93 experts en veldkenners belangrijker of minder belangrijk is. Ze kunnen ook bijdragen aan het begrijpen van resultaten, argumentaties toevoegen of corrigeren, en additionele aanbevelingen opleveren. 7 Evaluaties te weinig prospectief Nog een zevende kritiekpunt, dat aansluit op de twee genoemde. Menige beleidsevaluatie is teveel retrospectief en te weinig prospectief. Evaluaties blijven, anders gesteld, teveel in het verleden hangen, in waarom het ging (doelstellingen) en hoe het gegaan is (uitvoering, prestaties). Ze bieden geen of een te geringe denkact over wat er thans en de komende periode aan knelpunten speelt en wat de oplossingen daarvoor zijn. Het ontbreekt bij evaluatie dus vaak aan beantwoording van de vraag hoe verder? Terwijl bestuurders na een evaluatie juist erop uit zijn om te weten hoe voorkomen we uitwassen. Denk maar aan onderzoek: naar de bankencrisis (commissie onder leiding van Jan de Wit) of naar fouten bij onderwijsinstelling InHolland (commissie Leers), naar het gemeentelijk optreden bij de asbestaffaire in Utrecht (commissie Jansen), naar het echec van schoolorganisatie Amarantis (rapport van de commissie onder leiding van Riet de Wit uit 2012 en van de vervolgcommissie Halsema uit 2013) en naar privatisering en verzelfstandiging van overheidsdiensten (commissie Kuiper). Reguliere evaluaties, dus niet die van commissies welke na een crisis aantreden, zijn dus nogal eens te weinig prospectief. De kans is groot dat visitatiecommissies ontkomen aan dit verwijt omdat daarin vaak exbestuurders naast evaluatoren zitten die weten dat bestuurlijke relevantie van belang is. Het is natuurlijk vaak ook een kwestie van opdrachtformulering. Denk ook aan de suggestie om de bevindingen te plaatsen in multiperspectivisch perspectief. Ex ante evaluatie elementen koppelen aan de ex post evaluatie? Wie een geëvalueerde wet ineffectief acht, kan een nieuw wetsontwerp doordenken of ontwikkelen en via spelsimulaties uittesten (Termeer e.a., 1995). Wat is daar nog als reactie op mogelijk? Er zijn nog diverse suggesties gedaan. Ik noem vier alternatieve typen evaluatie: 1. Responsieve evaluatie (Guba & Lincoln; Abma) en multiple evaluatie (Ringeling); 2. Argumentatieve evaluatie (Fischer, Pröpper); 3. Netwerkgericht evalueren (Klijn, Koppenjan); 4. Lerend evalueren (Edelenbos). Ik licht deze toe en bekijk de eventuele meerwaarde. Alternatief 1 Responsieve evaluatie: rekening houden met belanghebbenden Welk alternatief is er dat enigszins aan de kritiek op bestaande beleidsevaluatie tegemoet komt? In een historische schets van evalueren maken Egon Guba & Yvonna Lincoln (1989: 22 31) duidelijk dat er volgens hen vier generaties evaluatie bestaan hebben (zie ook Abma, 1995, 1997, 2000) en dat de vierde generatie, de responsieve evaluatie, een alternatief is voor de andere drie. Welke generaties zouden er dan zijn? 1. De eerste generatie evalueren is te beschouwen als meten. De beleidsonderzoeker profileert zich als een technicus en richt zich op kwantitatieve gegevens. Tegenwoordig wordt dit wel aangeduid met monitoring (aldus Bongers en Den Hertog, 2007: 32). 93

94 2. De tweede generatie evalueren richt zich op beschrijven. De evaluator analyseert de sterkten en zwakten van beleid en betrekt die op de gestelde doeleinden. De goal achievement komt in beeld. 3. De derde generatie evaluaties richt zich op beoordelen. De evaluator geeft een soort finaal oordeel als een rechter. Guba & Lincoln (1989) zijn van mening dat er in deze generaties beleidsevaluatie enkele gemeenschappelijke tekortkomingen zijn aangetroffen. 1. Ten eerste richten de evaluatoren zich in alle drie de generaties evaluatie op de officiële doelstellingen van het bestuur. Het is het bestuur dat de opdracht verleent tot evaluatie en de resultaten worden ook weer uitgebracht aan de (machtige) bestuurders alsof er geen belanghebbenden (met minder macht) bestaan die interesse zouden hebben in of een belang bij een evaluatie. Waar staat bestuur kan ook worden gelezen de leiding van organisaties. Beleidsevaluaties zijn in feite niet machtsneutraal. 2. Ten tweede gaat er achter de drie generaties evaluatie een gemeenschappelijk geloof schuil, namelijk in maatschappelijke waardenconsensus. Terwijl de maatschappij in de kern pluralistisch is geworden op waardengebied. De vraag is daarom welke waarden domineren in evaluatieonderzoek. Spelen waarden van andere belanghebbenden dan overheidsbestuurders ook een rol in de evaluatie of zijn deze belanghebbenden alleen geschikt om als informant te fungeren? De vraag stellen is deze beantwoorden. Beide auteurs, Guba & Lincoln, pleiten voor een vierde generatie evaluatie ( fourth generation evaluation ). Ze noemen die evaluatie door onderhandelen. Evaluatoren zouden volgens die aanpak moeten kunnen omgaan met divergerende waardeoriëntaties en dus met meerdere maatstaven dan alleen effectiviteit en doelmatigheid. Zeker in omstandigheden dat sprake is van pluriformiteit, en dus van controverses. Tineke Abma (1997, 2000) en Sandra Kensen sluiten hierop in hun werk aan. Tineke Abma betoogt dat sprake is van eenzijdige rationaliteit in de vorm van instrumentaliteit in het denken volgens de klassieke beleidsevaluatie (volgens Hoogerwerf). Er wordt geen rekening gehouden met perspectieven van andere belanghebbenden dan het overheidsbestuur (Abma, 2001: 313). Hoe ziet de gewenste responsieve evaluatie er verder uit? 1. De vierde generatie evaluatie moet een responsieve evaluatie zijn, volgens Guba & Lincoln (1989). Beide auteurs spreken van responsive focusing. De vragen in het evaluatieonderzoek moeten in samenspraak met belanghebbenden ( stakeholders ) tot stand komen. De evaluatiecriteria worden ook ontleend aan de issues waar de belanghebbenden tegen aanlopen, hun concerns en hun claims. 2. De vierde generatie evaluatie wordt ook gekenmerkt door een specifieke methodologie. Die heeft te maken met een bepaalde werkelijkheidsopvatting. Volgens beide auteurs bestaat er geen objectieve werkelijkheid maar is het maar hoe je kijkt naar de werkelijkheid. Er bestaan meerdere werkelijkheden ( sociale constructies genoemd ). Een evaluatie moet aan deze meervoudige wijze van kijken en van de werkelijkheid (de werkelijkheidsconstructies) waarnemen. Hoe dan te werk te gaan? Door te Verstehen : door te proberen om te begrijpen door je in te leven in de positie van belanghebbenden en door met hen in gesprek te gaan. De werkelijkheidsaanspraken 94

95 zouden op elkaar betrokken moeten worden, wat zou kunnen bijdragen aan meer wederzijds begrip en inzicht in waarover overeenstemming bestaat. Het gaat om zoeken naar consensus tussen de deelnemers aan de evaluatie (Nelissen, De Goede en Van Twist, 2004: 219). De Rotterdamse hoogleraar Arthur Ringeling (1993) erkent de zin van wat hij noemt een multiple evaluatie waarmee niet gezegd is dat zijn aanpak geheel overeenkomt met die van Abma. Volgens critici is deze vierde generatie evalueren echter toch teveel een poging om belanghebbenden te laten deelnemen aan beleidsvoorbereiding. Zoals de Twentse hoogleraar Andries Hoogerwerf eens zei: Het is geen op waarneming van effecten gerichte beleidsevaluatie meer maar participatie van een onderzoeker in ontwerpprocessen. Het is een actiegerichte ontwerpaanpak in een context van waardenpluriformiteit. Toch zijn de opmerkingen van Guba & Lincoln nuttig. Want de neiging bestaat om een beleid te ontwerpen dat vervolgens (bijna) mechanisch uitgerold wordt over de samenleving. Dergelijk beleid, waarin een overheid zich als monocentrisch besturend orgaan situeert, werkt in veel gevallen niet; zeker niet in een netwerkcontext waarin van elkaar afhankelijke actores zijn opgenomen. Dus beleidsevaluatie zal soms dood kunnen lopen als de netwerkcontext ontkend wordt. Een waarschuwing is mogelijk? Responsieve evaluatie valt te proberen in een netwerkcontext maar pas op voor rolvermenging. De evaluator dreigt in een rol te komen van zowel procesregisseur, die partijen bij elkaar brengt in een beleidsontwerp of uitvoeringsproces, als evaluator. Deze responsieve evaluatie is daarom niet zonder problemen. Bijgevolg wordt die ook niet vaak toegepast. Op naar een volgend alternatief. Alternatief 2 Evaluatie als argumentatie Frank Fischer (1995) is de man die in Evaluating Public Policy pleitte voor een verbreding van het gangbare evaluatieonderzoek. De oordeelsvorming moet zijn inziens in evaluatiestudies breder zijn dan dat het alleen zou gaan om effectiviteit of doelmatigheid van beleid. Evalueren moeten zich ook richten op de betekenis van beleid voor de maatschappij als geheel. Fischer pleit voor een waardengerichte evaluatie. Evaluatoren moeten minder technocratisch te werk gaan voornamelijk of alleen door te letten op gegeven beleidsdoelstellingen en daarop aansluitende middelen. Ze evalueren niet of de goede dingen gedaan worden maar meer of de dingen goed worden uitgevoerd. Evaluatoren moeten zijns inzien echter het fundamentele debat bevorderen en daarbij kan horen dat ter discussie wordt gesteld of de goede dingen gedaan worden. Dat betekent dat de beleidswetenschap meer moet zijn dan een rationeel instrumentalistische wetenschap. Hij bepleit een argumentatieve wending ( the argumentative turn ). Het zou bij evaluatie niet moeten gaan om het beoordelen van instrumenten en het vinden van de goede instrumenten maar om overtuigende argumentaties. En dienstbaarheid aan de democratie. Dit laatste betekent dat debatanalyse in beeld komt (zie ook Hoppe en Peters, 1998) Is dit alternatief levenskrachtig gebleken, ook ten behoeve van gebruiksgerichte evaluaties? 1. Hoppe en Peters (1998) voelden zich duidelijk geïnspireerd. Zij spreken van de onafwendbaarheid van de argumentatieve wending. Ze menen dat de machthebbers de waarheid verteld moet worden. Hier is weinig tegen in te brengen. Ze stellen ook: Politiek als evenwichtskunst vergt argumentatieve beleidsanalyse en netwerkanalyse. 95

96 2. Het analyseren van politieke en maatschappelijke debatten komt weer in beeld. 3. Igor Mayer en Jacques Geurts benadrukken overigens de instrumentele mogelijkheden van de argumentatieve beleidsanalyse (en responsieve evaluatie). Ze noemen een aantal participatieve methoden, zoals beleidsexercities (Hoppe en Peterse, 1998). 4. Hoe verdedigbaar ook het werk van Fischer is, in de praktijk blijkt het schema van Fischer met de vier niveaus van beoordeling lastig toepasbaar (Hoppe: men gooit de niveaus door elkaar ). Voor een toepassing verwijzen we naar een analyse van Brandenburg (in Hoppe en Peters, 1998). Conclusie: De aanpak van Fischer is te compex voor gewone gebruiksgerichte evaluaties. Hoewel het nagaan van of het beleid het goede beleid is nuttig is en ook of er sprake is van bredere effecten van beleid op samenleving en democratie. Die verbredingsdiscussie kan meegenomen worden in de hier bepleite entree onderhandelingen voor aanvang van het evaluatieonderzoek. Igno Pröpper (2001: ) heeft aan evalueren als argumentatie een eigen uitwerking gegeven. Hij meent dat evalueren zich niet alleen moet richten op effectiviteit. Evalueren moet zich richten op meer dan instrumentele rationaliteit en ook aandacht hebben voor normatieve, interactieve en expressieve zaken. Hij beoogt via inhoudelijke en procedurele analyses besluiten oordeelsvorming te beoordelen met behulp van criteria als overtuigingskracht ( overtuigt het beleid? ) en deugdelijkheid. Alternatief 3 Netwerkgericht evalueren Het hiervoor genoemde alternatief van responsief evalueren en van evalueren als argumentatie is een vorm van verbrede evaluatie ten opzichte van effectiviteitsevaluatie (Abma, 2001: 314). Toch ben ik er hiermee niet. Want is een overheidsbestuur altijd de centrale instantie in de sturing? Een andere brede evaluatie aanpak is de aanpak waarbij de procesgang in en uitkomsten van een beleidsnetwerk (dus in een multi actorensetting) wordt beoordeeld. Anders gesteld, het gaat om evaluatie in een governance setting. Het governance begrip verwijst naar beleidsnetwerken (Hajer e.a., 2004). Iets waarvoor Tineke Abma met de door haar bepleite responsieve evaluatie overigens oog heeft. Ook in dit geval komen weer, net als in de kijk van Fischer en Pröpper, andere beoordelingsmaatstaven naar voren dan effectiviteit of doelmatigheid, namelijk onder meer openheid in het overleg en betrouwbaarheid van overlegpartners (Klijn en Koppenjan, 2001; Cörvers, Glasbergen en Korsten, 2003; De Rynck e.a., 2010). Bestaan beleidsnetwerken? Zeker en vast bestaan beleidsnetwerken want het netwerkperspectief benadrukt de informele, gedecentraliseerde en horizontale verhoudingen die kunnen leiden tot bij voorbeeld milieuconvenanten. Denk ook aan strategische groenprojecten in de Gelderse Poort, het gebiedsgerichte project Kerngebied Vechtplassen, het diagonale project Biesbosch Noordwaard en de diagonale benadering in het beekdalengebied van de Beerze en de Reusel (Cörvers, Glasbergen en Korsten, 2003). Maar niet alle overheidsbeleid voltrekt zich in beleidsnetwerk. Ik noem twee begrenzingen. 1. Bepaalde problemen zijn te groot om in een nationaal, regionaal of lokaal beleidsnetwerk te behandelen, zoals bijvoorbeeld voedselveiligheid of het 96

97 klimaatprobleem (Hajer, e.a., 2004: 34). Voedselveiligheid moet ook Europees bekeken worden. Denk aan de gekke koeienziekte/bse; 2. Of de problemen zijn juist te klein, zoals de keuze van een straatnamenplan. Een straatnamenplan is een routinezaak voor de ambtenaren. Evident is dat beleidsnetwerken bestaan van overheidsactores en andere organisaties die van elkaar afhankelijk zijn. Geen actor beschikt in een netwerk over alle taken, bevoegdheden en middelen en geen enkele actor heeft dus alleen alle doorzettingsmacht (Mayntz, 1999; Hajer, Van Tatenhove en Laurent, 2004). Denk maar eens aan het behoud en de ontwikkeling van een nationaal landschap Zuid Limburg dat kwaliteiten heeft om volgens sommigen op de lijst van werelderfgoederen te staan. Hier bewegen zich een provinciebestuur, waterschap, tal van gemeenten, enkele departementen, woningcorporaties, recreatieondernemers, de land en tuinbouwbond, landbouwers, etc. Actoren zijn om iets voor elkaar te krijgen dus tot elkaar veroordeeld. Ze moeten taken, doelstellingen en middelen vermengen of verknopen. Het provinciebestuur zal het landschap kwalificeren in het kader van een provinciaal omgevingsplan maar daarmee worden er nog geen maatschappelijke of bestuurlijke initiatieven genomen. Willen er projecten komen voor biologische landbouw, voor rondleidingen, voor fiets en wandelroutes, voor wijnbouw en bezoek aan een wijngaard, etc. dan zullen actores elkaar in gemeenschappelijke initiatieven en projecten moeten vinden. De actores in een netwerk, die beschikken over taken en bevoegheden en/of middelen, zullen moeten overleggen en het eens moeten worden over wat het probleem is, of de problemen zijn en hoe die gepercipieerd worden, over een gedeelde probleemaanpak, een kaderstelling en kanalisatie van initiatieven. Meestal zullen dit overheids of semi overheidsactoren zijn maar in het kader van de ontwikkeling van Brainport Eindhoven wordt gesproken van triple helix, een verbinding tussen overheden, onderwijsinstellingen en bedrijfsleven. 97

Nog meer weergeven