Big data: een ontdekkingsreis voor bestuurders en onderzoekers

Big data: een ontdekkingsreis voor bestuurders en onderzoekers Frank Bongers 1 Working paper voor het Politicologenetmaal 2014 Maastricht, 12 en 13 juni 2014 Samenvatting Dit working paper is een verkenning van de (potentiële) impact van big data op beleid en onderzoek. Digitale hulpmiddelen genereren steeds sneller, meer en vluchtiger gegevens (zgn. big data ) die ingezet kunnen worden om beleidsprocessen te ondersteunen en onderzoeksvragen te beantwoorden. Dit is echter nog een ontdekkingsreis. In dit paper gaan we na wat de (potentiële) impact van big data op beleid en beleidsonderzoek is, onder welke voorwaarden big data gebruikt kunnen worden en hoe bestuurders en onderzoekers hier mee om kunnen gaan. Wij pogen hiermee de dialoog over de impact van big data te voeden met een meer beleidswetenschappelijk perspectief naast de informatiekundige en economische perspectieven op big data. Sleutelwoorden Beleid, beleidsonderzoek, evaluatie, big data, overheid en ICT. 1. Inleiding We leven in een wereld waarin het volume, de snelheid en de variatie van data die dagelijks verzameld en bewerkt worden exponentieel groeit. In 2013 was de schatting dat 90% van alle data in de wereld in de twee jaren daarvoor waren gecreëerd. Dagelijks worden 2,5 miljard gigabytes aan data gecreëerd, genoeg om 27.000 ipads per minuut te vullen. Deze enorme hoeveelheid data big data worden continu in onze omgeving gegenereerd, bewerkt en verspreid. Elk digitaal proces en alle sociale media produceren deze data. Systemen, sensoren en mobiele apparaten verspreiden de data. 2 De verwachtingen rondom big data zijn hoog gespannen. De verspreiding van innovaties in informatie- en communicatietechnologieën (ICT), de daaraan gepaarde grootschalige verzameling van gegevens in combinatie met geavanceerde instrumenten voor analyse lijken grote kansen te creëren om beleidsprocessen beter te laten verlopen en beleidsonderzoek efficiënter en effectiever uit te voeren. De piste naar een optimaal gebruik van big data is echter een hobbelige en slingerende weg waarvan de eindbestemming ook nog niet gekend is. Het is dan ook de vraag hoe bestuurders en onderzoekers de kansen die big data bieden, kunnen ontdekken en benutten. De beschikbaarheid over of de toegang tot een grote hoeveelheid data betekenen geenszins dat daarmee beleid ook automatisch impulsen krijgt om maatschappelijke uitdagingen aan te pakken of onderzoekers beter te kunnen laten bepalen of beleid effect heeft. Bovenal zijn er waarborgen nodig om big data niet te laten vervallen in Big Brother. 1 Dr. Frank Bongers is principal consultant bij Dialogic innovatie & interactie te Utrecht. Zijn werkterrein bestrijkt hoofdzakelijk (de evaluatie van) wetenschaps-, technologie- en innovatiebeleid. 2 Bron: www.ibm.com. 1

Big data zijn vaak een toevallig restproduct van informatievergaring die pas meerwaarde gaan genereren wanneer er een koppeling plaatsvindt tussen de eigenaar van deze data, (potentiële) gebruikers, dataspecialisten en maatschappelijke, organisatorische of economische uitdagingen. Het identificeren van deze koppelingen is een onzeker zoekproces dat omgeven wordt met praktische en methodologische uitdagingen. Hoewel big data bijdragen aan de cijfermatige onderbouwing en evaluatie van beleid ( evidence-based policy ) creëren zij voor de beleidswetenschap ook een tegenstrijdige situatie. De stortvloed van gegevens lijkt immers vooral aan te sluiten bij het rationeel lineair model van beleid 3. Juist dit model hebben vele bestuurskundigen en politicologen in de afgelopen jaren achter zich gelaten. Het lineair model helpt misschien wel als analysekader, maar tegelijkertijd sluit het onvoldoende aan bij de praktijk van beleid en beleidsonderzoek. De honger naar data lijkt er nu voor te zorgen dat het rationele model via de achterdeur toch aan belang wint (los van de vraag of dat terecht of onterecht is). In dit working paper bespreken we betekenis van big data voor beleidsonderzoek (en waar relevant ook voor beleid in het algemeen). We beantwoorden daarmee de vraag welke impact big data hebben op beleidsonderzoek. Ten eerste presenteren we een beleidsperspectief op big data. We doen een poging om beide werelden met elkaar te verbinden en aan te geven welke impact big data kunnen hebben. We bespreken vervolgens uitdagingen die een rol spelen bij een effectief gebruik van big data in onderzoek en beleid. We sluiten af met een reflectie op de toekomst van big data in beleidsonderzoek. 2. Beschrijving, agendering en potentieel van big data Een functionele definitie van big data is het vermogen van de samenleving om informatie op nieuwe manieren in te zetten voor het verkrijgen van nuttige inzichten of waardevolle goederen en diensten. 4 Big data hebben drie cruciale eigenschappen, namelijk: het gaat om een zeer grote volume aan data, er sprake van een zeer grote snelheid waarin deze data verzameld en getransporteerd worden, en de data zijn ongestructureerd en gevarieerd (In het Engels duidt men op de 3 V s: volume, velocity en variety ). Big data zijn datasets die te groot, te vluchtig en te complex zijn om met traditionele hands on databasemanagement tools te bewerken. In dit perspectief zijn big data ook een relatief begrip, omdat technische ontwikkelingen de capaciteiten voor opslag, transport en bewerking continu doen verbeteren. Big data van toen verworden dus al snel tot small data van nu. Het relatief karakter van big data impliceert ook dat het geen echt nieuw fenomeen is. Gegevens worden al eeuwenlang verzameld, getransporteerd en bewerkt met de hulpmiddelen die op dat moment beschikbaar waren. Napoleon voerde rond 1800 in de Lage Landen de Burgerlijke Stand in hetgeen tot een voor die tijd explosie van gegevens leidde die gebruikt werden voor doop-, trouw- en overlijdensakten, dienstplicht en belastingheffing. Artikel 1, Lid 2 van de Amerikaanse grondwet bepaalt sinds 1790 dat er iedere tien jaar een United States Census plaatsvindt. Dit is een 3 Dit model verdeelt een beleidsproces in een aantal logisch op elkaar volgende fasen (bijvoorbeeld agendering, voorbereiding, besluitvorming, implementatie en evaluatie) waarbinnen een alleswetende en allesbepalende actor een cruciale rol speelt. Beschrijvingen van dit type modellen zijn te vinden in: Hoogerwerf, A. & M. Herweijer (1998), Een inleiding in de beleidswetenschap, Samsom, Alphen a/d Rijn, 1998. Dunn, W. N. (1994), Public Policy Analysis: An Introduction, Prentice Halls, Englewood Cliffs. John, P. (2005), Analysing Pubic Policy, Continuum, Londen. 4 Mayer-Schönberger, V. en K. Cukier (2013), De Big Data Revolutie. Hoe de data-explosie al onze vragen gaat beantwoorden, Maven Publishing BV, Amsterdam, p 10. 2

volkstelling die bepalend is voor de hoeveelheid belastingen die een staat moet afdragen aan de federale overheid en hoeveel vertegenwoordigers elke staat mag leveren voor het Huis van Afgevaardigden. Dit Grondwettelijk artikel leidde voor die tijd tot big data. Zo zijn er ongetwijfeld meer voorbeelden van (publieke) maatregelen die resulteerden in de big data. Elke tijd dus zijn eigen big data. Het is echter onjuist en onterecht om big data dan maar af te doen als oude wijn in nieuwe zakken. De digitalisering van de afgelopen decennia heeft een revolutie veroorzaakt in opslag, transport en bewerking van data. Computertechnologie wordt steeds kleiner (miniaturisatie), goedkoper, krachtiger, (draadloos) verbonden en steeds meer geïntegreerd in andere producten en diensten. We dragen steeds meer apparaten bij ons die middels sensoren, antennes, netwerken en applicaties continu gegevens verzamelen, opslaan en transporteren. Het gaat dan al lang niet meer om elektronica, maar ook om kleding, meubels, gebouwen, auto s en andere producten en diensten die met elektronica worden uitgerust, ondersteund en gekoppeld aan netwerken (zgn. smart devices ). De grote hoeveelheden veelal ongestructureerde data die deze producten voortbrengen lijken haast onbegrensde mogelijkheden te bieden om nieuwe kennis te ontwikkelen, patronen te detecteren, voorspellingen te doen,. Om met deze nieuwe mogelijkheden om te kunnen gaan, zullen ook nieuwe ICT specialismen nodig zijn en moeten kansen vanuit toepassingsgebieden geïdentificeerd worden. Het is dan ook niet verwonderlijk dat steeds meer overheden en bedrijven big data beschouwen als een te ontginnen goudmijn die economische groei, productiviteit en innovatie kan bevorderen. Internationaal verschenen in afgelopen jaren uiteenlopende plannen gericht op big data. De Australische overheid stelt dat big data offers organisations widespread potential opportunities and benefits. While the magnitude and nature of the value varies depending on industry sector, it is anticipated that government will be able to realise substantial productivity and innovation gains from the use of big data. 5 Voordelen doen zich volgens deze overheid voor op het vlak van publieke dienstverlening, beleidsontwikkeling, statistiek, bedrijfsvoering, economische ontwikkeling, arbeidsmarkt en productiviteit. 6 Ook de Britse overheid wijst op de potentiële voordelen van big data, want [t]he volume, velocity and variety of data being created and analysed globally is rising every day, and using data intelligently has the potential to transform public sector organization, drive research and development, and enable market-changing products and services. The social and economic impact is significant. 7 Deze voordelen worden echter niet vanzelf gerealiseerd. We kunnen technologisch goed omgaan met big data, maar het is nu de uitdaging om big data om te zetten in maatschappelijke en economische meerwaarde en dat binnen de kaders van betrouwbaarheid, veiligheid en bescherming van persoonsgegevens. Dat vraagt om ambitie, samenwerking en een zoekproces om kansen te grijpen. De overheid kan hier een cruciale rol spelen. Enerzijds als aanbieder en gebruiker van big data, anderzijds als partij die derden stimuleert en bewust maakt in dit domein, maar ook regels durft te stellen ten aanzien van het gebruik. Ook zullen beleidsonderzoekers moeten nadenken over de implicaties en meerwaarde van big data in onderzoek. 5 Australian Government (2013), The Australian Public Service Big Data Strategy Improved understanding through enhanced data-analytics capability, Canberra, p. 13. 6 Ibid, p. 14-18. 7 HM Government (2013), Seizing the data opportunity. A strategy for UK data capability, Londen, p. 5. 3

3. Big data en de rol van de overheid In deze paragraaf staan we stil bij de vraag wat de overheid kan doen in het domein van big data. We kunnen daarbij een onderscheid maken tussen drie domeinen. Ten eerste is de overheid als gevolg van haar taakuitoefening verzamelaar, eigenaar en gebruiker van grote databestanden. Dit is niet vanuit de idee dat de overheid grote bestanden wil hebben, maar gewoonweg vanwege de publieke taken die zij uitoefent (belastingheffing, burgerzaken, sociale zekerheid, verkeer en vervoer, onderwijs, ) en de daaraan verbonden grootschalige gegevensverwerking. Een belangrijke ontwikkeling hier betreft de koppeling van gegevensbestanden dat bijvoorbeeld tot uitdrukking komt in vooraf ingevulde belastingaangiften. Ten tweede kan de overheid het maatschappelijke en economisch belang van big data onder de aandacht brengen bij bedrijven, kennisinstellingen en burgers. De overheid doet dan zelfs niks met big data, maar levert wel een bijdrage aan gunstige randvoorwaarden voor het gebruik van big data door derden. Ten derde kan de overheid net als andere organisaties big data gebruiken om de werking en impact van de eigen organisatie en beleid te verbeteren. Denk aan het registreren van tevredenheid over dienstverlening (uitingen in sociale media, terugkerend verkeer op websites, ). De overheid kan dus verschillende rollen vervullen in deze domeinen: - Producent, verzamelaar en verstrekker: De overheid beschikt over duizenden datasets die dagelijks aangevuld worden met nieuwe gegevens. Deze datasets zijn vaak wel gefragmenteerd (in beheer bij honderden verschillende overheidsinstellingen, zoals gemeenten, provincies, ministeries, waterschappen en zelfstandige bestuursorganen). De overheid kan deze datasets intern delen en als onderdeel van open data beschikbaar stellen aan externen (bijvoorbeeld statistische gegevens van het CBS of de Algemene Directie Statistiek en Economische Informatie (ADSEI)). - Gebruiker van big data (intern en extern): De overheid met zijn talloze ministeries, provincies, gemeenten, agentschappen, - zal de big data waarover zij beschikt ook bewerken en gebruiken. De eerder genoemde vooraf ingevulde Belastingaangifte voor miljoenen Nederlanders is daar al een voorbeeld van. Maar ook andere datasets zijn relevant voor beleid en uitvoering. Gegevens over verplaatsingen van personenauto s kunnen helpen bij het bestrijden van fileproblematiek, weergegevens kunnen klimaatmodellen verbeteren, Voorts kunnen overheden big data gebruiken die derden verzamelen en beschikbaar stellen. Denk bijvoorbeeld aan (particuliere) pensioenfondsen of verzekeraars die gegevens over de pensioenopbouw en inkomensverzekeringen van individuele Nederlanders beveiligd ter beschikking stellen. - Kaderstellen en controleren: De overheid kan als voorbereider, uitvoerder en handhaver van wetgeving regels stellen ten aanzien van het gebruik van big data. Dit kan alleen als de wetgever (de volksvertegenwoordiging) duidelijke regels stelt. De verzameling van talloze gegevens over ons gedrag kan een bedreiging vormen voor onze privacy. Zeker wanneer derden deze gegevens over ons opslaan, onderling delen en gebruiken om ons leven aangenamer te maken of voorspellingen te doen over ons gedrag. In veel gevallen kan dit leiden tot betere en op maat gemaakte diensten, maar de keerzijde is dat er ook persoonlijke informatie vrijgegeven wordt die men liever persoonlijk houdt. Een bekend voorbeeld is de zwangere tiener die vanwege haar koopgedrag bij een grote Amerikaanse supermarkt thuis aanbiedingen ontving die direct te herleiden waren tot haar zwangerschap (terwijl de ouders nog niks wisten). Overigens kan hier gelden dat de bestaande wetgeving al voldoende waarborgen biedt. 4

- Aanjager: Los van het verzamelen en gebruiken van big data kan de overheid stimuleringsbeleid ontwikkelen gericht op big data. Dit zal eerder aan de orde zijn wanneer de overheid overtuigd is van de potentiële voordelen die big data kunnen bieden voor economische groei, innovatie, leefbaarheid en productiviteit. Voorbeelden van het aanjagen door de overheid zijn: o o Agenderen van het belang van big data middels het formuleren van ambities over verzamelen en ontsluiten van big data, al dan niet in overleg met derden; Stimuleren van onderzoek en ontwikkeling in het domein van big data; o Actief ontsluiten van eigen big data op basis van een open data strategie ; 8 o Verzamelen en verspreiden van best practices als onderdeel van een bredere strategie die gericht is op het stimuleren van de bewustwording over de kansen (en bedreigingen) die big data bieden. 9 4. Impact op beleid en beleidsonderzoek In de voorgaande paragrafen zijn al enkele voorbeelden gepasseerd hoe big data beleid en beleidsonderzoek kunnen raken. Beleid definiëren we hier als het streven naar het bereiken van bepaalde doeleinden met bepaalde middelen en bepaalde tijdskeuzen. 10 Beleid is het resultante van een beleidsproces waarin allerlei maatschappelijke krachten en het brengt zelf ook weer allerlei maatschappelijke krachten op gang. Dat proces kenmerkt zich door een dynamisch verloop van handelingen en interacties met betrekking tot het beleid (ibid, p. 26). Het gaat daarbij om dynamiek bestaande uit een reeks van onderling samenhangende handelingen, maar ook om wederzijdse beïnvloeding tussen de factoren (macht en informatie) en actoren (beleidsbepalers, begunstigden en slachtoffers van beleid) die tot het proces behoren. En hier zien we dus de term informatie om de hoek komen kijken en dat heeft een raakvlak met big data. Informatie is een belangrijke bron waarop beleidskeuzes berusten (naast macht, intuïtie, ervaring, ). De traditionele kijk op informatie in het beleidsproces veronderstelt dat het beleid gevoed wordt met (beleids)onderzoeken en periodieke statistische analyse door gerenommeerde en door de overheid gefinancierde onderzoeksinstituten (CBS, CPB, ). De bekende voordelen van deze werkwijze zijn: (1) betrouwbare informatie op afroep; (2) overzichtelijk; (3) geïnstitutionaliseerd en periodiek. De bekende nadelen waren: (1) meten wat men kon meten; (2) informatie asymmetrie (degene die toegang had tot informatie had ook het monopolie); (3) vaak verouderde statistieken; (4) maatwerk niet altijd mogelijk, informatie sloot niet altijd aan bij de informatiebehoefte, werken met proxyindicatoren; (5) gebaseerd op steekproeven met altijd een gradatie van onnauwkeurigheid. Noem maar op. Deze werkwijze staat thans veel meer onder druk. Daar hebben enerzijds maatschappelijke 8 Dit impliceert dat de overheid big data waar mogelijk behandelt als open data. Open data zijn (1) uit publieke middelen bekostigd; (2) gegenereerd bij of voor de uitvoering van een publieke taak, (3) openbaar; (4) vrij van auteursrechten of andere rechten van derden; (5) computer-leesbaar; (6) voldoen bij voorkeur aan de open standaarden (geen pdf, wel xml of csv); en zijn voor hergebruik beschikbaar zonder beperkingen, zoals kosten of verplichte registratie (Algemene Rekenkamer (2014), Trendrapport Open Data, Den Haag). 9 Een vergelijkbare strategie is gevolgd in het kader van open data. Zie bijvoorbeeld: Dialogic & The Green Land (2012), Open data, open doel. Verkenning van de kansen van datasets, Utrecht. 10 Hoogerwerf, A, & M. Herweijer (2002), Overheidsbeleid. Een inleiding in de beleidswetenschap, Samsom, Alphen a/d Rijn, 1998, p. 23. 5

ontwikkelingen mee te maken (afnemend vertrouwen van burgers in instituties) en met technologische ontwikkelingen (nieuwe mogelijkheden om relevante beleidsinformatie snel en effectief te ontsluiten voor beleid). We verwachten dat big data en substantiële impact zullen hebben op beleidsprocessen en -onderzoek, want: Steeds meer data die relevant (kunnen) zijn voor het beleid komen in grote getale en real-time beschikbaar. Dit impliceert dat beleidsmakers niet altijd hoeven te wachten op resultaten van beleidsonderzoek waarin eerst informatie verzameld wordt, bewerkt en vervolgens gerapporteerd (denk aan monitorings- en evaluatierapportages). Dit zal vooral indicatoren raken die voortaan real-time gemeten kunnen worden in plaats van periodiek. 11 Steeds meer apparaten in onze omgeving verzamelen en ontsluiten informatie over alles en overal. Dit zal in sommige gevallen traditioneel statistisch onderzoek, dat vanwege methodologische beperkingen en middelen zich vaak beperkte tot steekproeven, overbodig maken. 12 Dit is natuurlijk alleen aan de orde wanneer de beleidsmaker of onderzoeker toegang krijgt tot deze data (en dat is niet vanzelfsprekend, laat staan altijd toegestaan). Een bijkomend gevolg is dat deze apparaten en de gegevens die zij genereren de kans bieden om nieuwe en betere indicatoren te meten, bijvoorbeeld indicatoren die een meer betrouwbaar beeld geven van kennis, gedrag of houding van een doelgroep en bovendien altijd gemeten kunnen worden. Denk bijvoorbeeld aan de schatting van het aantal demonstranten. Verkeersgegevens van mobiele operators kunnen een veel nauwkeuriger beeld geven van het aantal demonstranten dan helikoptervluchten door de politie (die overigens meer doeleinden dienen dan alleen het aantal demonstranten te schatten). Informatie asymmetrie, informatiemonopolie en informatieoverlast krijgen andere betekenissen. De asymmetrie en monopolie van informatie worden kleiner, omdat data steeds meer open zijn, gedeeld worden en zelf gegenereerd kunnen worden. De informatie-overlast kan wel groter worden. De inleiding van het artikel liet al zien dat de datahoeveelheid explodeert en het wordt daardoor steeds lastiger om in deze zee van data die gegevens te vinden die men nodig heeft. Big data vragen evenzeer om tools en competenties die uit de 11 Een voorbeeld betreft de berekening van het inflatiecijfer. Dit cijfer wordt meestal per maand, kwartaal of jaar bepaald aan de hand van het vergelijken van prijzen in de tijd in een groep representatieve producten en diensten. Webtools maken het echter mogelijk om continu de prijzen te verzamelen en te vergelijken of bij wijze van spreken alle producten en diensten die op internet worden aangeboden. Prijsfluctuaties en dus inflatie kunnen real-time gevolgd worden. Uiteraard moet hierbij rekening gehouden worden met welke producten relatief veel of weinig op internet worden verkocht, geografische grenzen die op internet ontbreken, maar voor inflatiecijfers wel relevant zijn, 12 In een eerder aangehaalde publicatie (zie voetnoot 4, p. 32-49) wordt de impact van big data op statistisch onderzoek uitgebreid besproken. De auteurs wijzen op drie verschuivingen (p. 32-33), namelijk: (1) de mogelijkheid om enorme hoeveelheden gegevens over een onderwerp te analyseren in plaats van noodgedwongen te werken met kleinere verzamelingen (denk aan steekproeven); (2) de bereidheid de rommeligheid van gegevens uit de werkelijkheid te accepteren in plaats van de voorkeur te geven aan exactheid; en (3) toenemend respect voor correlaties in plaats van een voortgaande zoektocht naar een ongrijpbare causaliteit. 6

enorme brei van gegevens de relevante gegevens zoeken, vinden en bewerken, maar ook aan kunnen geven hoe betrouwbaar de data zijn. Big data bieden nieuwe en vaak ook betere informatie om bijvoorbeeld beleidsevaluaties uit te voeren. Dit speelt bijvoorbeeld bij het verzamelen van meer gegevens over beleidsprocessen op basis van betere indicatoren. Triangulatie zal echter noodzakelijk blijven, omdat big data niet alle aspecten van een evaluatie zullen afdekken en dat achter de verzamelde cijfers kwalitatieve duidingen en interpretaties nodig blijven. Ook wordt het attributieprobleem niet zo maar opgelost. We kunnen met steeds meer data steeds meer indicatoren beter meten, maar dat beantwoordt niet de vraag of een wijziging in een score op een prestatie-indicator veroorzaakt door het beleid of dat andere factoren een rol spelen. Daarvoor blijven geavanceerde evaluatiemethoden als natuurlijke experimenten met experimentele en controlegroepen noodzakelijk. 13 Een ander gevolg is dat big data bijdraagt aan de verdere automatisering van beleidsonderzoek. 14 Onderzoeksvragen worden steeds meer beantwoord via gedigitaliseerde kanalen (denk aan zogenaamde management dashboard die real-time sturingsinformatie ontsluiten) in plaats van via weer een deel van beleidsonderzoek wordt geautomatiseerd en een deel van de vragen traditioneel beleidsonderzoek (en rapporten). Dan hoeven er geen periodieke rapporten opgeleverd te worden, maar hebben beleidsmakers altijd en overal toegang tot relevante indicatoren. De vraag blijft natuurlijk wel overeind staan hoe fluctuaties in scores op deze indicatoren verklaard kunnen worden. Daar zal beleidsonderzoek voor nodig blijven evenals het duiden van cijfers, etc. De vraag blijft echter of big data ook tot beter onderzoek leiden (en tot betere besluiten). Discussies over betrouwbaarheid van data zullen blijven bestaan. Het gaat daarbij zowel om wat big data weergeven (welke metingen er aan ten grondslag liggen), hoe compleet deze data zijn, op welke wijze zij geïnterpreteerd en bewerkt worden. Het risico op false discoveries blijft bestaan. 15 2. (Nieuwe) uitdagingen voor beleidsonderzoek De genoemde impact van big data stelt het beleidsonderzoek en onderzoekers voor een aantal nieuwe uitdagingen hoe om te gaan met big data. Dit in de context dat we te maken hebben met een 13 Zie bijvoorbeeld: Webbink, H.D. (2006), Causale effecten van beleid. Over gecontroleerde en natuurlijke experimenten, in: Justitiële Verkenningen, jrg. 31, nr. 8, blz. 72-84. Bongers, F.J. (2008), Waar komen deze effecten vandaan?, in: Openbaar Bestuur, jrg. 18, nr. 11, blz. 15-18. 14 Zie over automatisering van het beleidsonderzoek ook: Van Hoesel, P.H.M., F.L. Leeuw & J.W.M. Mevissen (2005), Beleidsonderzoek in Nederland. Kennis voor beleid; ontwikkeling van een professie, Van Gorcum, Assen, p. 163 167. 15 Een voorbeeld betreft de analyse van wachten schuttijden van sluizen voor de beroepsvaart (honderdduizenden records). De gemiddelde schuttijd wordt berekend aan de hand van alle sluizen over een geheel jaar. In de zomer worden sommige sluizen echter vanwege de drukte - ook opengesteld voor de pleziervaart. Het gevolg is dat wachttijden bij sommige sluizen stevig toenemen of dat het aantal schepen dat per schutting passeert flink toeneemt. Deze gegevens (de big data) alleen toewijzen aan de beroepsvaart is niet correct. Tegelijkertijd stellen wij vast dat dit soort knelpunten (die later ook aan de orde komen) niet specifiek samenhangen met big data. Echter, wanneer big data een soort vals vertrouwen opwekken, groeit het risico op dit soort fouten wel. 7

beweeglijke trend waarvan nog niet duidelijk is hoe groot te impact zal zijn. Nu zijn de verwachtingen ten aanzien van big data hoog, maar de vraag of zij echt productief kunnen bijdragen aan beleidsonderzoek kan nog niet helemaal goed beantwoord worden. In dat perspectief is de Gartner Hype Cycle relevant (zie volgend figuur). Figuur 8. Hype Cycle van Gartner (2013) Deze cyclus plaatst een aantal actuele ICT trends / innovaties / producten tegen de achtergrond van verwachtingen (Y-as) en tijd (X-as). In juli 2013 worden big data bijna aan de top van de curve geplaatst, ofwel de verwachtingen over de impact van big data zijn erg hoog. De tijd zal leren of deze verwachtingen ook gerealiseerd gaan worden. Gesteld wordt dat er eerst nog een fase van desillusie zal volgen waarna steeds beter in beeld zal worden gebracht wat big data nou feitelijk zullen bijdragen aan bijvoorbeeld productiviteit. Wanneer we deze curve toepassen op beleid en beleidsonderzoek kunnen we stellen dat de verwachtingen hoog zijn (zoals ook dit artikel schetst), maar dat de lange termijn impact op onderzoek nog onzeker is, zowel wat betreft omvang als welke aspecten van beleidsonderzoek geraakt zullen gaan worden. Deze transformatie (als daarvan sprake zal zijn) van beleidsonderzoek waarin big data een meer prominente rol zal vervullen, zal niet vanzelf verlopen. Big data vragen ook om nieuwe kennis en het verrichten van een zoektocht om kansen van big data te detecteren. Het gaat dus niet allemaal vanzelf. Nieuwe kennis richt zich op dataspecialisten die in staat moeten zijn met (nieuwe) hulpmiddelen meerwaarde te creëren uit de brei van ongestructureerde gegevens. De zoektocht is een iteratief proces waarbij geschakeld moet worden tussen enerzijds de vraag (welke informatiebehoefte bestaat er en in welke mate kunnen big data die wellicht ergens opgesloten zijn maar nog niet gekend inspelen op deze behoefte) en anderzijds het aanbod (er liggen heel veel data op de plank, maar dat leidt niet automatisch tot maatschappelijke meerwaarde, men zou kunnen redeneren vanuit dit aanbod en poging wagen aanbod/technologiegestuurd nieuwe producten/diensten af te dwingen ). 8

Hierbij zit ook onze huidige kijk op beleid en beleidsprocessen in de weg. In de afgelopen decennia is het gangbare model waarbij beleid als een logische reeks van vervolgstappen wordt gepresenteerd en geanalyseerd in onmin geraakt. In dit model leefde de beleidsbepaler in een relatief overzichtelijke wereld en was hij alleswetend en allesbepalend. Rationeel-wetenschappelijk onderzoek voedde het beleidsproces en leidde tot objectief beleid. Inmiddels is duidelijk dat beleid veel meer het resultaat is van een arena waarin verschillende actoren met uiteenlopende belangen strijden om de juiste beleidskeuzes waardoor een beleidsproces minder gestructureerd verloopt en informatie slechts één van de bronnen is die van invloed zijn op de richting van het beleid. Hoewel big data ongetwijfeld het beleidsproces weer beter kunnen gaan voorzien van informatie betekent dat niet automatisch dat big data ook richtinggevend worden. Andere factoren (machten, loyaliteiten, historiek, gewoonten, intuïtie ) zijn ook van invloed. De informatietechnische kijk op beleid gevoed en versterkt door big data zal blijvend concurreren met meer politicologische perspectieven op beleid. Waarbij overigens de aanname blijft bestaan dat deze (en andere) perspectieven kunnen coëxisteren. Voor het effectief maken van big data in beleid zien we ons dus voor een aantal (nieuwe) uitdagingen gesteld, die variëren van meer bestuurlijk/organisatorische tot en met methodologische en praktische aspecten. Deze uitdagingen zijn zowel strategisch als operationeel: Big data hebben een technische connotatie en dat maakt het lastig het belang van deze ontwikkeling in een politiek-bestuurlijke context te agenderen. Ten eerste moet dat belang voor een deel nog ontdenkt en onderbouwd worden. Ten tweede is het nodig om dat belang in de taal van degenen die hiervan kunnen profiteren uit te drukken. Ondanks dat ICT (waar big data mee geassocieerd worden) grote voordelen voor de overheid en het beleidsonderzoek kunnen bieden, gaat het gepaard met tegenslagen en in de politiek met een steeds negatiever imago. Denk aan het lopend parlementair onderzoek naar ICT projecten in de Tweede Kamer. Een andere uitdaging betreft het waarborgen van privacy en veiligheid. We leven in een hoogtechnologische en geconnecteerde digitale wereld waarbij elk apparaat een stukje van een grote puzzel is. Met al deze stukjes aan elkaar krijgt men 16 een zeer gedetailleerd beeld van ons individueel koop-, kijk-, communicatie-, verplaatsingsgedrag (en nog veel meer). Big data veronderstelt dat al deze informatie verzameld en bewerkt wordt, en dat op een centraal punt. Zo ver is het (nog) niet, en zal het naar verwachting ook niet komen. Dan zouden heel veel partijen moeten samenwerken en data onderling uitwisselen. Desondanks zijn er wel voorbeelden hoe big data ook al is het beperkt gekoppeld inbreuk kunnen maken op de leefwereld van individuen. Exploreer en exploiteer big data. Eerder in dit paper hebben we al gewezen op de nood om koppelingen te leggen tussen eigenaars, bewerkers en gebruikers van big data. In sommige gevallen liggen ze allemaal in één hand, maar dat zal heel vaak niet het geval zijn. Ter illustratie: een zoekmachine registreert gebruikte zoektermen (bijv. griep), maar doet daar als eigenaar niets mee. Andere partijen bijvoorbeeld beleidsmakers en epidemiologen kunnen dat juist wel zeer waardevolle informatie vinden, bijvoorbeeld om de geografische 16 We hanteren bewust de term men, om aan te geven dat helemaal niet bekend is of er iemand toegang heeft tot deze stukjes informatie en daarmee een compleet beeld kan creëren van individuen. Dan zouden ten eerste alle systemen gekoppeld moeten worden, ten tweede informatie gedeeld moeten worden en ten derde bewerking vragen (en dat van duizenden of zelf miljoenen individuen). Dit Big Brother beeld vraagt dus om heel wat verbindingen, expertises en nieuwsgierigheid. 9

verspreiding van de griep te bepalen. Zij zijn potentieel gebruiker van data die zij niet bezitten (of bewerken). Een ander voorbeeld betreft prijzen op internet. Statistische bureaus bepalen het jaarlijks inflatiecijfer op basis van een prijsveranderingen in een bepaalde set producten en diensten. Internettechnologieën maken het mogelijk real-time informatie te verzamelen van de prijsstelling van een oneindige hoeveelheid producten en diensten op internet. Het berekenen van de inflatie geschiedt dan niet meer periodiek op basis van een steekproef, maar real-time over alle goederen en diensten. Om kansen te pakken moet er dus een ontdekkingsreis worden ondernomen zodat de meest waardevolle datasets gevonden worden en gekoppeld worden aan specifieke beleidsvraagstukken. Dat is geen sinecure, want eigenaars van datasets weten misschien helemaal niet dat hun data geschikt zijn voor dergelijke vraagstukken, terwijl beleidmakers niet altijd weten waar geschikte datasets aanwezig zijn en waar zij dus moeten zoeken. In dit perspectief kan een analogie met garbage can model worden gemaakt. 17 Dit model leunt op de gedachte dat besluitvorming is opgebouwd uit drie stromen, namelijk problemen, oplossingen en participanten. Deze stromen zijn continu in beweging en aan verandering onderhevig. Voortgang in besluitvorming ontstaat wanneer deze drie stromen elkaar op eenzelfde moment raken, meestal door inzet van een participant. 18 Bij het effectueren van big data geschiedt iets vergelijkbaars, namelijk een koppeling van maatschappelijke uitdagingen ( problemen ) aan big data ( oplossingen ) door interactie tussen verschillende participanten. Big data vraagt ook om nieuwe specialismen en tools die nog niet in de breedte voorhanden zijn. Feitelijk heeft deze ontwikkeling last van een meer breder probleem en dat is een tekort aan ICT specialisten. Dat tekort wordt zowel in Nederland als Vlaanderen gevoeld. Het vraagt enerzijds om investeringen in (her- en bij-) scholing en anderzijds om. Aangeven welke disciplines nodig zijn (data analytics, ) Big data leiden tot de ontwikkeling van een nieuwe vakgebied en doen ook een beroep op nieuwe vaardigheden. Het nieuwe vakgebied betreft big data analytics oftewel the process of examining and interrogating big data assets to derive 19 Eén van de knelpunten in de verdere ontwikkeling van big data is het gebrek aan ICT specialisten. Specifiek is er behoefte aan vaardigheden op het vlak van datamanagement, dataanalyse en bedrijf en beleid (de toepassingsgebieden). Rondom big data kleeft een zweem van objectiviteit. Het zijn immers apparaten (van sensoren tot en met tablets) die informatie verzamelen, technici die de data bewerken maar dat geeft geen garantie dat big data ook objectief zijn. Een klein voorbeeld: Sommige big data tools putten uit informatie die via social media wordt verspreid (Facebook, Twitter, ). Men zou daarmee de stemming van gebruikers over een bepaald onderwerp kunnen meten en volgen. Echter, net als bij enquêtes, is er sprake van zelfselectie en sociaalwenselijk gedrag. Ten eerste is niet iedereen aanwezig op sociale media, en ten tweede stelt men het eigen leven vaak als positiever, spannender en meer inspirerend voor dan het feitelijk is (zeker wanneer 17 March, J.G. & J.P. Olsen (1976), Ambiguity and choice in organizations, Universitetsforlaget, Bergen. 18 Zie voor een meer uitgebreide bespreking van dit model: t Hart, P., M. Metselaar & B. Verbeek (1995), Publieke besluitvorming, VUGA, Den Haag. 19 Yu, C. (2012), The Big Data Opportunity Making government faster, smarter and more personal, Londen, p. 10. 10

men weet dat men geobserveerd wordt, het zgn. Hawthorne effect). We zouden wat dat betreft nog veel kunnen leren of gebruiken van de sociologische studies over hoe de mens zichzelf (graag) presenteert in het publieke en nu dus het digitale domein. 20 Dit doet overigens geen afbreuk aan de waarde die veel big data die wel objectief zijn hebben, zeker wanneer het niet gaat om verzameling en analyse van uitspraken, opvattingen en attitudes. Denk bijvoorbeeld aan verplaatsingsgedrag van individuen op basis van locatiegegevens die mobiele apparaten registreren of de inventarisatie van pagina s waar de meeste lezers van een bepaald e-book op een e-reader afhaken. Er zijn afspraken noodzakelijk tussen eigenaars en gebruikers van big data. Wanneer nieuwe diensten op basis van deze data beschikbaar komen, is het voor de continuïteit van deze diensten van belang dat de stroom van big data blijft bestaan. De overheid zal als verzamelaar van big data deze data onderdeel moeten maken van zijn open data beleid, en dat binnen de juridische kaders. Overheid kan zelf ook gebruiker worden van big data die derden verzamelen en ontsluiten, of verschillende data aan elkaar koppelen met het oog op nieuwe diensten. Een punt van aandacht is dat goed gegevensbeheer bij veel overheidsinstellingen een grote uitdaging is. 5. Tot slot De verzameling en ontsluiting van grote databestanden is een relevante ontwikkeling die vanuit het beleid en het beleidsonderzoek de volle aandacht moeten genieten. Het grijpen van kansen die deze ontwikkelingen bieden, is echter een onzekere ontdekkingsreis. Hoewel technologieën het verzamelen, ontsluiten en bewerken van big data steeds eenvoudiger mogelijk maken, betekent dat geenszins dat vraag en aanbod elkaar weten te vinden. Wellicht doen de beste kansen zich voor op het snijvlak van organisaties en sectoren die thans nog weinig met elkaar te maken hebben. Het is dus niet alleen een ontdekkingsreis naar de mogelijkheden van big data. Het is evenzeer een zoektocht naar de onverwachte combinaties en de maatschappelijke en economische behoeften waar big data potentieel een grote rol kunnen spelen. Het is te vroeg om te voorspellen wat deze ontdekkingsreis op gaat leveren (als dat bekend zou zijn, is het ook geen ontdekkingsreis). Er lijkt thans sprake te zijn van een hype, maar we hebben voldoende redenen aan te nemen dat big data een vaste plek zullen verwerven in het beleid en beleidsonderzoek. De explosie van gegevens lijkt vooralsnog geen grenzen te hebben. Bovendien zullen er steeds meer apparaten en applicaties onderling verbonden raken en steeds meer informatie uitwisselen en genereren. De grote vraag hierbij is hoe we daar verstandig mee omgaan. Dat wil zeggen de gegevens op een effectieve manier bewerken en benutten en dat binnen de kaders die de wetgeving daar voor stelt. De beleidsonderzoek en de beleidsmaker zullen zich dan ook regelmatig de vraag moeten stellen of big data een rol kunnen spelen. Voor de onderzoeker geldt dat big data het nut en de noodzaak van traditionele onderzoeksmethoden onder druk zetten ( waarom een steekproef onder automobilisten wanneer big data het verplaatsingsgedrag van alle automobilisten weergeven ). Zij vormen daarmee een uitdaging voor het eigen vakgebied. 20 Goffman, E. (1959), The Presentation of Self in Everyday Life, Anchor Books. 11