1 Big data: overvloed en onbehagen Kees Aarts SWR conferentie, 16-17 september 2016
2 Inhoud KNAW-Verkenningscommissie Wat is big data? Big data en onderzoeksmethodologie Spanningsvelden Toekomst
3 Commissie Big Data Ingesteld september 2015. De commissie heeft twee taken: uitvoeren van een brede verkenning naar effecten van big data op wetenschappelijk onderzoek met het accent op wetenschapsgebieden die werken met personen voorbereiden van een KNAW-advies over enkele geselecteerde onderwerpen.
4 Gevolgde werkwijze Discussiebijeenkomsten met focusgroepen: Onderzoekers in big data Informatica-specialisten (komt nog) Jongere onderzoekers in big data
5 Dutcher (2014)
6 Een vaag omlijnd begrip Big data: wat is big? De drie v s (volume, velocity, variety) Verwante maar onderscheiden termen Data science E-science (e-humanities) Computational social science Data-driven research Open access, open data, open science
7 Volume, velocity Camerabeelden, GPS gegevens, social media (Twitter; Hosch- Dayican et al. 2014), zoekgedrag op web Electoral campaigning Type of campaigning No electoral campaigning Tweets on Dutch Elections 2012 Persuasive campaigning Figure 1. An overview of the nested structure of the variables. Electoral campaigning Negative campaigning
8 Variety Stelsel van sociaalstatistische bestanden (CBS): virtuele volkstelling (Bakker et al. 2014) Fig. 2. Conceptual model of the SSD register system. [Rectangles: object types; lines: relations between object types; PIN: person identification number; HIN: household identification number; AIN: address identification number; OIN: organization identification number; the indication x:y denotes the type of relation].
9 Paradigmawisseling (Hey et al. 2009)
10 Data is een misleidende term Data zijn nooit gegeven maar worden altijd geconstrueerd (waarnemingstheorie, datatheorie) Iemand maakt de keuze wat wordt waargenomen; die keuze heeft gevolgen voor geldigheid en betrouwbaarheid Een observatie kan worden geïnterpreteerd als uiteenlopende data Dit wordt vaak vergeten als het om big data gaat
11 Toetsen verliezen hun betekenis Conventies bij statistische toetsen zijn ontwikkeld vanuit minimalistisch, experimenteel perspectief (hoe groot moet n zijn om een verdeling te benaderen? Wat is bij die n een acceptabele type-i fout?) Bij grote n wordt volgens deze conventies vrijwel elk verband significant
12 Geldigheid wordt problematisch Externe geldigheid: in hoeverre zijn de data/ relaties generaliseerbaar? Interne geldigheid: in welke mate kun je een correlatie causaal interpreteren?
13 Verificatie en replicatie Data zouden moeten voldoen aan de FAIR principes: findable accessible interoperable re-usable
14 Eigenaarschap (Einav & Levin 2014) 1.0 Share of all published papers with data 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 No exemption Exemption (private data) Exemption (administrative data) 54% 55% 67% 71% 72% 80% 91% 86% 95% 22% 20% 20% 19% 15% 13% 26% 7% 24% 4% 12% 10% 13% 4% 7% 5% 7% 2006 2007 2008 2009 2010 2011 2012 2013 2014 Publication year*
15 AOL searcher No. 4417749 My goodness, it s my whole personal life I had no idea somebody was looking over my shoulder.
16 Persoonsbescherming Mensen zijn zich doorgaans volstrekt onvoldoende bewust van de geïntegreerde kennis die over hun persoon en hun gedrag beschikbaar is Disclaimers worden niet begrepen
17 Infrastructuur nodig! Data infrastructuur: Voor de kwaliteit van metingen Voor methodologische en statistische expertise Voor maximale generaliseerbaarheid Om de FAIR principes operationeel te maken Om eigenaarschap te regelen Om privacy te beschermen
18 Twee stappen gezet NDSW Dataplatform voor de mens- en maatschappijweten schappen Koepelvoorstel nieuwe nationale roadmap Start: 27 oktober M3 Onderdeel van KNAW Agenda Grootschalige Wetenschappelijke Infrastructuur Integreert biologie, medicijnen, genetica, informatica