StatMine StatMine prototype visuele dataexploratie Edwin de Jonge, Jan van der Laan en Jessica Solcer CBS Datavisualisatie in beweging, 24 mei 2013
Wat is StatMine? 2
StatMine Doel: Verbeter gebruik van huidige CBS cijfers Hoe: Analyse-schil op StatLine Werkwijze: Formuleer verbeterhypothese Maak software prototype Test prototype op gebruikers Evalueer test StatMine 3
Missie CBS? 4
Missie CBS Het Centraal Bureau voor de Statistiek heeft als taak het publiceren van betrouwbare en samenhangende statistische informatie, die inspeelt op de behoefte van de samenleving (bron: www.cbs.nl) 5
Missie CBS Het Centraal Bureau voor de Statistiek heeft als taak het publiceren van betrouwbare en samenhangende statistische informatie, die inspeelt op de behoefte van de samenleving 6
Zonder cijfers geen beleid 7
Hoe gaat het met Nederland? StatMine 8
Waarom StatMine? StatLine bevat meer dan één miljard cijfers voor Beleidsmakers Journalisten Burgers Bedrijven Economen Sociale wetenschappers Historici etc 9
Probleem 1 Cijfers Informatie StatMine 10
Missie CBS Het Centraal Bureau voor de Statistiek heeft als taak het publiceren van betrouwbare en samenhangende statistische informatie, die inspeelt op de behoefte van de samenleving 11
1. Cijfers Informatie Een aantal invloedrijke (potentiele) gebruikers van CBS cijfers wordt onvoldoende bediend: Datajournalisten Beleidsmedewerkers Veel interessante informatie in StatLine wordt niet gespot omdat de tabelvorm dit moeilijk maakt 12
H1: Data analyse = Data inzicht StatMine 13
H1. Data inzicht StatMine 0.1 had tot doel om meer inzicht te geven in StatLine cijfers door cijfers StatLine visueel en interactief te presenteren Met StatMine I (2012 Q1) werd deze hypothese succesvol getest op 4 moeilijke StatLine tabellen. 14
Lijngrafiek - ontwikkelingen Staafdiagram - vergelijken Bubble/scatter chart - correlatie/samenhang Mosaic chart - structuur 15
Small multiples? 16
17
StatMine 0.1 Resultaten Periode: 2012 Q1 Testpersonen: 25 CBS-ers Bevindingen - Testpersonen vinden dat visueel maken van data meerwaarde biedt (small multiples) - StatLine-tabeleigenaren zien hun data op een andere wijze - StatLine-tabeleigenaren willen tool als controletool 18
Probleem 2. Verbrokkelde informatie StatMine 19
Missie CBS Het Centraal Bureau voor de Statistiek heeft als taak het publiceren van betrouwbare en samenhangende statistische informatie, die inspeelt op de behoefte van de samenleving 20
2. Verbrokkelde informatie Veel informatie in StatLine is gefragmenteerd: Gebruiker moet in meerdere tabellen kijken en informatie zelf combineren Diabetes Energiegebruik vgl economische groei Veiligheid vgl criminaliteit 21
2. Tabellen koppelen StatMine 22
H2. Tabellen koppelen had tot doel om meer inzicht te geven in StatLine cijfers door: - Gebruikers zelf tabellen te laten combineren. - Voorwaarde is dat ze tenminste één dimensie gemeenschappelijk moeten hebben. Met prototype II (2012 Q4 2013 Q1) is deze hypothese getest. 23
Resultaten Periode: 2012 Q4 2013 Q1 Testpersonen: 20 CBS-ers, 40 externen (beleidsmakers ministeries, journalisten) Bevindingen: - Externen enthousiast over visuele mogelijkheden StatMine - Koppelen van data vervult een externe wens 24
Probleem 3 Statistische cijfers zijn onzeker StatMine 25
Missie CBS Het Centraal Bureau voor de Statistiek heeft als taak het publiceren van betrouwbare en samenhangende statistische informatie, die inspeelt op de behoefte van de samenleving (bron: www.cbs.nl) StatMine 26
H3 Onzekerheidsmarges Alle CBS cijfers hebben een onzekerheidsmarge European Statistics Code of Practice (12.2): sampling and non sampling errors should be systematically documented Doel van StatMine 0.3 (2013 Q2): kijken hoe gebruikers op een begrijpelijke manier attent kunnen maken op onze onzekerheidsmarges. StatMine 27
StatLine & marges Ongeveer 5% van de StatLine tabellen publiceert expliciete marges per tabelcel: Standaardfout (uit steekproef!) Of boven + ondermarge Alle cijfers in StatLine hebben een precisie Aantal cijfers achter komma (1, 1,0, 1,00, 1,000) In duizendtallen/miljoenen 28
StatMine 0.3 Beperkt zich tot: Hoe interpreteren gebruikers de marges? Wat betekent dat voor de interpretatie van de cijfers? Is er behoefte aan marges? Aanname: Voor de testtabellen is een puntschatting met bijbehorend betrouwbaarheidsinterval aanwezig. 29
StatMine 0.3 Testen invloed tonen onzekerheid op antwoorden gebruikers (analyse nog bezig) Inbouwen van onzekerheid in: Lijngrafieken Staafdiagrammen Scatterplots 30