ANWAR OSSEYRAN & WILLEM VERMEEND

Transcriptie

1 EEN VERKENNNG VAN DE NGRJPENDE GEVOLGEN ANWAR OSSEYRAN & WLLEM VERMEEND

2 Razendsnelle ingrijpende ontwikkelingen De komende decennia zal de wereldeconomie razendsnel en ingrijpend veranderen. Het gaat om economische machtsverschuivingen in de wereld tussen westerse industrielanden en opkomende economieën zoals China, ndia, Brazilië en Rusland. Zie voor recente prognose het MF ( Maar de economieën van landen, ook die van Nederland, worden vooral op de kop gezet door de snelle opmars van digitalisering die nu al leidt tot het nieuwe denken, leren, werken en ondernemen, waarbij het internet een centrale plaats inneemt. We zien startups die met een laptop, tablet, smartphone en website succesvol de concurrentieslag aangaan met bestaande traditionele bedrijven. De komende jaren zal de omzet van veel bedrijven steeds meer beïnvloed worden door het wereldwijde web, vooral door het mobiele internet, nu al aangeduid als de tablet en smartphone economie. Daarnaast hebben bedrijven te maken met wereldwijde klanten die mondiger en veeleisender worden en die mede dankzij het internet een toenemende invloed hebben op de dienstverlening en producties van bedrijven en bedrijfsimago s kunnen maken en breken. De afgelopen jaren zijn er wereldwijd talloze traditionele bedrijven ten onder gegaan omdat ze zich niet snel genoeg hebben aangepast aan de trend van digitalisering. Voorbeelden zien we in de muziekindustrie, de reissector, de boeken- en krantenwereld, maar ook in de detailhandel. Technologische ontwikkelingen Landen en bedrijven zullen steeds meer geconfronteerd worden met nieuwe technologische ontwikkelingen. Deze zullen zowel een sterke invloed hebben op economieën als op de bedrijfsresultaten van een toenemend aantal bedrijven. Volgens internationale onderzoeken spelen nieuwe internettoepassingen daarbij een cruciale rol. Deze toepassingen staan in de kopgroep van innovaties met een sterke economische impact. Het gaat daarbij om het mobiele internet en internettoepassingen op allerlei terreinen, zoals e-business, e-government, e-health, e-education, e-towns, e-security, e-entertainment, e-energy. Daarnaast zullen slimme robottechnologie, het zogenoemde nternet of Things, 3D-printen (zie com), nano-technologie, cloud computing en analysetechnologie voor Big Data een sterke invloed gaan uitoefenen op het beleid van politieke beleidsmakers, bedrijfsmanagers en ondernemers. Daarom moeten nieuwe technologische ontwikkelingen hoog op alle beleidsagenda s staan. Verwacht wordt dat de komende decennia de economieën van veel landen meer gaan veranderen dan de afgelopen veertig jaar. Ondernemers die pro-actief op deze ontwikkelingen weten in te spelen, behoren tot de winnaars van morgen. Wie wil weten wat ons te wachten staat, kan bijvoorbeeld terecht bij de publicaties van het McKinsey Global nstitute, Gartner en Daniel Burrus, een bekende Amerikaanse innovatie-expert. Daarbij staat nu al vast dat een toenemend aantal bedrijven hun verdienmodel ingrijpend moeten aanpassen. Ondernemers die dat niet snel genoeg doen, lopen het risico dat hun bedrijf niet zal overleven. Van cruciaal belang daarbij is ook dat bedrijven gebruik gaan maken van alle beschikbare interne- en externe digitale informatie die essentieel is voor hun omzet en winst. nternationaal onderzoek wijst uit dat veel ondernemers met een adequate analyse en de juiste toepassingen van deze Big Data hun concurrentiepositie kunnen versterken en zo hogere omzetten en winsten realiseren. Verkenning n deze publicatie verkennen wij de wereld van Big Data. Daarbij gaan we zowel in op de uitdagingen en kansen, maar ook op schaduwkanten. Dit boekje is bedoeld voor iedereen die belangstelling heeft voor ontwikkelingen op het terrein van Big Data. Dit kan betekenen dat professionals het allemaal al weten, maar lezers zonder enige kennis hier en daar moeite zullen hebben om niet af te haken. Door gebruik te maken van aansprekende praktijkvoorbeelden proberen we dat zoveel mogelijk te voorkomen. april 2014 Anwar Osseyran en Willem Vermeend

3 1 nleiding: De belofte van Big Data 5 2 Wat is Big Data? 7 3 Datatrends en Big Data-drivers 9 4 Antwoord op Big Data 11 5 Potentieel van Big Data voor wetenschap, bedrijfsleven en samenleving 17 6 Tot slot: de juiste verwachtingen scheppen 27 7 Conclusie: Big Data - de weg voor ons 30 Bijlage 31 Over de auteurs 34 Referenties 34 De toekomst is aan wie goed gebruik weet te maken van de overvloed aan informatie om ons heen. Big Data is niet alleen onder computerwetenschappers en datafreaks een veelbesproken onderwerp, maar ook binnen menig bestuur en kabinet. Steeds meer bedrijven en overheden ontdekken het grote potentieel van de schat aan gegevens om ons heen. Op internet is een overweldigende hoeveelheid informatie te vinden, maar deze is verspreid en ongestructureerd, vluchtig en onbetrouwbaar, open maar ook invasief. Het is bepaald niet eenvoudig uit die wirwar van Big Data de ware trends te filteren en er conclusies aan te verbinden. Wie daarin slaagt, heeft de sleutel tot onze op data-gedreven toekomst. De truc is om de beschikbare gegevens in de miljoenen bronnen op internet te beheren, aggregeren, ontdubbelen, opschonen en tot slot te conserveren. Dankzij de snelle ontwikkeling in hardware en software zijn geconserveerde gegevens steeds beter en nauwkeuriger. Besluitvormers en internetgebruikers kunnen met behulp van informatiewetenschap, Big Data en machinaal leren tendensen herkennen, beslissingen nemen en contextuele keuzes maken uit een groot aantal alternatieve producten, diensten en aanbiedingen. Nieuwe Big Databedrijven zoals Factual, NRX, GNP en nfochimps 1 produceren wereldwijde, opgeschoonde en gestructureerde webgegevens voor nieuwe Big Data- applicaties zoals Yelp, Foursquare, Trulia, BlockBeacon en Spindle 2, zodat de consument over nuttige contextuele informatie kan beschikken. eder bedrijf dat wil concurreren op de markt van vandaag, doet er verstandig aan te zorgen voor snelle, gerichte toegang tot zijn internetgegevens. n feite zijn alle modellen verkeerd, maar sommige zijn bruikbaar - deze fundamentele uitspraak van 26 jaar geleden door Georges E.P. Box in het boek over Response Surface Methodology dat hij schreef met Norman R. Draper 3 is veelzeggend over de kracht van gegevens en de onvolkomenheid van de huidige simulatiemodellen. Google s onderzoeksdirecteur Peter Norvig ging tijdens de in 2008 gehouden O Reilly Emerging Technology Conference nog een stap verder toen hij zei dat wetenschappelijke modellen door Big Data achterhaald raken: Alle modellen zijn verkeerd en je kunt het steeds vaker zonder ze af. 4. Met de alom aanwezige sensoren, het universele internet, computerdiensten op verzoek, cloud-opslag en sociale media kunnen we gigantische hoeveelheden wetenschappelijke, commerciële en sociale gegevens vastleggen, opslaan en verwerken om trends te voorspellen en uitspraken te doen over de toekomst, ver voordat het mogelijk is daarover theorieën en modellen te ontwikkelen. 4 5

4 De belofte van Big Data groeit snel en Rick Smolan en Jennifer Erwitt laten in hun onlangs verschenen boek The Human Face of Big Data 5 in foto s zien welk effect Big Data op ons dagelijks leven heeft en hoe Big Data leidt tot nieuwe applicaties op het gebied van wetenschap, handel, zorg, maatschappij en duurzaamheid, van vroegtijdige waarschuwingen voor aardbevingen tot onderbouwing van zakelijke beslissingen en beleidsvorming, en van verbetering van medicijnen en medische protocollen tot het volgen van routes die dieren afleggen, ondersteuning van politie bij misdaadpreventie en efficiënter energieverbruik in gebouwen. Big Data maakt het mogelijk onze wereld real time te meten en een planetair zenuwstelsel aan te leggen met behulp van sensoren, real time data, cloud computing, gegevensanalyses en visualiseringsprogramma s. Maar de vraag is of de verwerking van reusachtige hoeveelheden gegevens met toegepaste wiskunde de plaats zal innemen van de traditionele drie stappen van de wetenschappelijke methode - theorievorming, proefneming en modellering. Volgens ons gaat het niet om vervanging maar om aanvulling. Door Big Data zullen we meer inzicht krijgen in informatie-intensieve verschijnselen, vooral op wetenschappelijk terrein, waar gegevens overvloedig, divers, vluchtig en ongestructureerd zijn. Gegevensanalyse en gegevensdelving vormen dan ook het vierde paradigma 6,7, naast theorievorming, proefneming en computermodellering. Wetenschappelijke informatie die real time in enorme hoeveelheden wordt geproduceerd door sensoren en instrumenten (zoals de SKA-telescoop 8 ) of die wordt vastgelegd in proeven (zoals de LHC-deeltjesversneller 9 ), zal samen met gegevens afkomstig van simulaties van computermodellen worden geconserveerd en geanalyseerd en een speciale infrastructuur voor communicatie en publicatie vergen. n zekere zin biedt dit vierde paradigma een integrerend kader voor de wederzijdse beïnvloeding en versterking van theorievorming, proefneming en modellering, waarbij zowel kan worden teruggeblikt als vooruitgekeken. Wetenschappers moeten informatie en software integraal deel laten uitmaken van hun activiteiten, want dan kunnen zij experimenten reproduceren, nieuwe analyses verrichten of verdergaan waar anderen zijn gestopt. Dat vraagt om een stelselmatige opzet en adequaat beheer van gegevens. Een goed overzicht van wat Big Data inhoudt wordt door Mayer-Schönberger en Cukier gegeven in hun boek Big Data: A Revolution That Will Transform How We Live, Work, and Think. De analyse van grote hoeveelheden gegevens maakt het mogelijk om voorheen onzichtbare patronen en wisselwerkingen te ontdekken. Zo kunnen nieuwe oplossingen ontstaan voor lastige problemen, en kunnen zich nieuwe kansen aandienen. Een heel duidelijk voorbeeld van het gebruik van Big Data is de voorspelling van seizoensinfluenza (griep) door Google 10. Door wereldwijd relevante zoektermen te verzamelen en te analyseren en die een bepaald gewicht te geven, is de verspreiding van seizoensgebonden influenza redelijk te voorspellen. Voorheen was dat veel lastiger. Een ander goed voorbeeld van het gebruik van Big Data is de verkiezingscampagne van president Obama 11. De drie V s: Volume, Variety & Velocity Maar hoe Big Data te definiëren, en is Big Data hetzelfde als grote hoeveelheden gegevens? Volume is het eerste van de drie kenmerken van Big Data die Doug Laney al in 2001 onderscheidde in een onderzoeksverslag van de Meta Group 12. De twee andere zijn Variety en Velocity. Volume ligt het meest voor de hand als kenmerk van Big Data en betreft vooral de relatie tussen omvang en verwerkingscapaciteit. Dit aspect is aan verandering onderhevig omdat het verzamelen van gegevens zal blijven toenemen, evenals de CT-capaciteit voor de opslag en verwerking ervan. Een juiste omgang met volume vraagt om schaalbare opslag en gedistribueerde technieken voor het kosteneffectief raadplegen of aggregeren van gegevens. Variety verwijst naar de grote variatie aan soorten gegevens die wordt opgeslagen en nog moet worden verwerkt en geanalyseerd, iets waarvoor de traditionele relationele databases meestal ongeschikt zijn. Nieuwe soorten gegevens van sociale netwerken, communicatie tussen machines (M2M) en mobiele apparatuur komen bovenop de reeds bestaande soorten gestructureerde informatie die computers genereren bij de verwerking van transacties. Voorbeelden van dergelijke nieuwe gegevenssoorten zijn foto s, geluids- en beeldbestanden, gps-data, medische dossiers, instrumentmetingen, afbeeldingen, RFD, logbestanden en webdocumenten, BLOBs, RTF-bestanden en tekststrings. Ongestructureerde gegevens zoals spraak en sociale media maken verwerking en categorisering extra complex en vragen om nieuwe technologieën, zoals spraakverwerking voor gegevensdelving, analyse van ongezuiverde tekst en patroonherkenning. 6 7

5 Velocity, de derde V, is een maatstaf voor de veranderingssnelheid van gegevens en verwijst naar de tijdelijke waarde van de gegevens zelf. Relationele databases lenen zich over het algemeen minder goed voor vluchtige gegevens. Gelet op de veranderingssnelheid van Big Data moeten gestructureerde en ongestructureerde gegevens(stromen) snel worden verwerkt om te kunnen profiteren van geolocatiedata, waargenomen hypes en trends en real time beschikbare markt- en klantinformatie. Hiervoor zijn traditionele relationele databases gewoonlijk ongeschikt. Daarom zal een nieuwe benadering moeten worden gevonden om de gegevens snel te kunnen vastleggen, opslaan, conserveren, aggregeren en analyseren. Hoe groter de drie V s, hoe moeilijker het is een oplossing te vinden voor de technische vraagstukken, maar hoe groter ook de kansen zullen zijn voor ondernemers en wetenschappers. Het DC heeft in een recent, door opslagbedrijf EMC gesponsord onderzoek 13 laten zien dat het wereldwijde gegevensvolume, de zogenaamde Digital Universe, sneller uitdijt dan eerder was voorspeld. Het digitale universum verdubbelt elke twee jaar en bereikt in 2020 een omvang van 40 Zettabyte. Ondanks de Big Data-hype van de laatste paar jaar werd in 2012 van alle gegevens wereldwijd nog niet 1% geanalyseerd, terwijl volgens het DC 23% van de informatie veel meer waarde zou kunnen genereren na markering en onderzoek met Big Dataanalyse. Door machines gegenereerde gegevens dragen in belangrijke mate bij tot deze toename, gezien de groeiversnelling van 11% in 2005 naar ruim 40% in Volgens het DC zijn er in 2020 meer dan 200 miljard apparaten met elkaar verbonden (sensoren, actuatoren, voertuigen, camera s, slimme apparatuur, huishoudelijke apparaten, industriële en medische apparatuur, speelgoed en gadgets, enz.), en zullen zij al gauw het grootste deel van het internetgebruik voor hun rekening nemen en een belangrijke bron voor groei van ons digitale universum vormen. Andere Big Data V s: Viscosity en Virality; Veracity en Value n verband met de ontwikkelingen in sociale netwerken, mobiele technologieën, cloud computing en de integratie van communicatiekanalen zijn er nog twee kenmerken die aandacht vergen om de diverse beschikbare gegevensbronnen inzichtelijk te maken: Viscosity en Virality. Viscosity betreft de traagheid bij het navigeren door de gegevensverzameling, bijvoorbeeld door de verscheidenheid aan bronnen, de dataflow-snelheden of de complexiteit van de benodigde verwerking. Virality is een maatstaf voor de snelheid waarmee gegevens zich door het netwerk verspreiden. Tijd is een belangrijk kenmerk, naast de verspreidingssnelheid. Verder zijn er de twee Big Data V s van Veracity en Value. Veracity geeft de kwaliteit en oorsprong weer om gegevens aan te merken als twijfelachtig, conflicterend of niet-zuiver, en als informatie waarvan men niet zeker weet hoe ermee om te gaan. Value kenmerkt welke waarde uit welke gegevens gehaald zou kunnen worden en hoe je met Big Data betere resultaten kunt krijgen uit de opgeslagen gegevens. Andere Big Data-kenmerken Naast deze zeven V s zijn er nog enkele andere kenmerken die belangrijk zijn bij Big Data: het niveau van aggregatie van de opgeslagen gegevens, aangezien de uitgevoerde Big Dataanalyse aan geldigheid kan inboeten als oorspronkelijke ruwe gegevens genegeerd worden; beschikbaarheid en gebruik van metagegevens (tijd, plaats, bron, context, enz.) waarmee Big Data-methoden aanzienlijk winnen aan effectiviteit en bruikbaarheid; en de signaal-ruisverhouding van de gegevens, aangezien bij zwakke signalen snelle, nauwkeurige methoden nodig zijn om de juiste gegevenseffecten te isoleren en tijdig de juiste conclusies te trekken. The nternet of Things De aanjager van deze explosieve groei van machinaal geproduceerde gegevens is de synergie die mogelijk wordt gemaakt door ontwikkelingen in elektronica en CT. Los van elkaar maken nieuwe applicaties gebruik van deze nieuwe technologische mogelijkheden op terreinen uiteenlopend van industrie, stadsontwikkeling en gebouwen tot milieu, beveiliging, overheid en zorg. Zo is het optimaliseren van fabricage met sensoren, camera s en actuatoren weliswaar niet echt nieuw maar ontstaat in combinatie met internetconnectiviteit en draadloze technologie de mogelijkheid trends autonoom te volgen en op afstand corrigerend op te treden. De hi-tech landbouwer kan veel nauwkeuriger te werk gaan door de weersverwachtingen, het gebruik van bestrijdingsmiddelen en kunstmest en de bodemvochtigheid in de gaten te houden. n smart cities zorgen smart- grids en straatverlichting voor een optimaal duurzaam gebruik van energie en minimale uitstoot van CO2. Smartphones bieden een geavanceerd platform voor apps voor het vastleggen, inventariseren en doorgeven van zorgen milieugegevens in stedelijke gebieden. Sensoren helpen bij het veilig en schoon houden van straten, waarschuwen bij verontreiniging of gevaar en dragen bij tot optimaal parkeergebruik. Met aansluitingen op webapplicaties, slimme thermostaat-apps, op het internet aangesloten apparatuur, webgebaseerde verlichting en sensoren, kunnen we thuis zorgen voor lagere energiekosten en voor meer comfort en veiligheid. Dankzij smartphones, slimme apparatuur voor op of in het lichaam, slimme kleding en zelfs slimme pillen kunnen we ons activiteitenniveau volgen en online onze ademhaling, lichaamstemperatuur, bloeddruk, slaappatronen en 8 9

6 andere belangrijke gezondheidsparameters bewaken. nnovatieve apparatuur voor zorg in de thuisomgeving helpt de wereldwijd vergrijzende bevolking zich te houden aan de voorschriften en aanwijzingen van de arts, en stelt medisch personeel op afstand in staat patiënten en hun biometrische gegevens te bewaken, en de kwaliteit van de individuele zorgverlening te handhaven onder verlaging van de torenhoge kosten die daarmee gepaard gaan. De onderscheidende factor van Big Data Big Data heeft zich ontwikkeld van een enorm probleem aan het begin van de eeuw tot een belangrijke zakelijke kans nu ruim tien jaar later. n een recent onderzoek noemde The McKinsey Global nstitute Big Data 14 te groot, te divers en te snel voor kosteneffectieve opname in de bestaande database-architectuur. Dat betekent dat er alternatieve manieren nodig zijn voor de opslag, verwerking en mining van Big Data. Zoals The Economist stelde in : Bedrijfsleven, overheid en samenleving zijn nog maar net begonnen met het exploiteren van het reusachtige potentieel van Big Data. De oplossing kwam vooral met de snel groeiende capaciteit van cpu s en opslagapparatuur maar ook als gevolg van nieuwe opensource-software zoals Hadoop 16, die ontwikkeld is met Google-technologie en door onder andere Yahoo! is geïmplementeerd. nmiddels zijn er andere programma s ontwikkeld voor het opslaan en beheren van Big Data zoals NoSQL 17 en databases voor massale parallelle verwerking, zoals Netezza van BM, Vertica van HP, EMC Greenplum, CalPont, EXASOL, Kognitio, en ParAccel 18. Het voordeel van de reusachtige hoeveelheid op het web verzamelde en opgeslagen informatie is niet alleen het directe gebruik ervan, waardoor een sneeuwbaleffect ontstaat voor zakelijke en maatschappelijke toepassingen; de echte potentie ligt besloten in aggregatie, analyse van de collectieve betekenis en multidisciplinaire interpretatie van de informatie. Dit is waar Big Data ten tonele verschijnt. Bij het opslaan en beheren van individueel verzamelde gegevens kunnen wel honderden of zelfs duizenden terabytes gemoeid zijn, meer dan de capaciteit van traditionele relationele databases toelaat. Tevens zijn nieuwe maatregelen nodig voor een adequate omgang met ongestructureerde gegevens en het hoge tempo waarin die ontstaan en hun waarde verliezen. Opkomende technologieën zoals Hadoop zijn ontworpen voor de verwerking van zeer grote hoeveelheden semi-gestructureerde gegevens. De NoSQLtechnologie pakt de kwestie van schaalbaarheid beter aan dan mogelijk is met relationele databases. n combinatie met Big Data-platforms voor de opslag van alle gegevens in oorspronkelijk formaat is het mogelijk enorme, ongestructureerde, vluchtige en in zekere mate ruwe gegevens bruikbaar te maken door ze massaal parallel te verwerken en slimme technieken voor analyse toe te passen. Google s CEO Eric Schmidt zei tijdens de Atmosphereconferentie van dat er iedere twee dagen ongeveer 5 exabyte aan informatie bijkomt, gelijk aan de hoeveelheid gegevens die is opgeslagen tussen het begin van de mensheid en Maar die 5 exabyte wordt niet allemaal bewaard. Sterker nog, in 2007 was de hoeveelheid geproduceerde informatie voor het eerst groter dan de totale beschikbare opslagcapaciteit. Het vinden van het juiste antwoord op de snelle, grote stromen van tijdafhankelijke en overwegend ongestructureerde gegevens is geen sinecure. De almaar hogere snelheid van gegevensstromen uit heterogene bronnen zoals sensoren, instrumenten, logbestanden, camera s, internetverkeer, blogs en tweets maakt analyse in real time noodzakelijk. De uitdaging is een manier te vinden om die enorme, snel veranderende gegevensstromen redelijk nauwkeurig, binnen bepaalde tijd en met beperkte CT-middelen te kunnen exploiteren. Anderzijds zal een goede voorspelling ook afhangen van de kwaliteit van het voorafgaande leerproces van het gebruikte algoritme. De drie belangrijkste beperkingen - nauwkeurigheid, tijd en middelen - zijn in feite communicerende vaten. Meer nauwkeurigheid vereist meer tijd of meer CTmiddelen of beide. Data mining vergt minder tijd bij minder gegevens of snellere verwerking maar gaat dan mogelijk ten koste van de nauwkeurigheid. n dat geval is de aangewezen strategie om de beperkingen van tijd en middelen te ondervangen met gedistribueerde systemen en om met behulp van het leerproces de gegevensstromen slim te toetsen of probabilistische technieken te gebruiken 20. De NoSQL-revolutie Relationele databases zijn ongeschikt gebleken voor het werken met Big Data omdat schaalvergroting en maatwerk onbetaalbaar werden. De zogenaamde NoSQL-databases vormen een alternatief dat zich beter leent om de nieuwe Big Data-uitdagingen aan te gaan. Er zijn vier categorieën NoSQL-databases 21 : Key-Value, Column Family, Document en Graph. De grootste voordelen van deze databases zijn de mogelijkheid om op te schalen door uitbreiding met commodity hardware, en dus de capaciteit te vergroten tegen lage kosten, en de betrekkelijke eenvoud om gegevensmodellen aan te passen aan wisselende behoeften

7 De Key-Value-categorie laat zich het eenvoudigst implementeren en is het meest geschikt voor onderling los-verbonden gegevensverzamelingen, terwijl in de andere categorieën de relatie tussen bestanddelen uit de gegevensverzamelingen even belangrijk is als de kenmerken van die bestanddelen zelf. Key-Value-stores bieden snelheid en schaalbaarheid voor eenvoudige zoekopdrachten en eenvoudige gegevensmodellen, maar het resultaat is minder bij gegevens waarvoor meer context nodig is. Vergeleken met Key-Value biedt de categorie Column Family extra groepering van gegevensonderdelen met een kernwaarde, zodat complexere zoekopdrachten kunnen worden uitgevoerd, terwijl de Document-categorie bestanddelen bewaart als objecten, wat het mogelijk maakt om met objectgerichte programmering mechanismen voor het opvragen van gecompliceerde gegevens te maken. Wanneer gegevensverzamelingen fundamenteel met elkaar verbonden zijn en geen tabelvorm hebben, is resultaat van groot belang en bieden Graph-databases uitkomst. Typische voorbeelden zijn georuimtelijke problemen, netwerkanalyse en aanbevelingsmachines. Typische toepassingsgebieden zijn bio-informatica en financiële analyse wanneer het sterkste verband tussen gegevensbestanddelen moet worden bepaald. Big Data-programma s en de opensource-gemeenschap Het grootste voordeel van de Big Data-revolutie is tegenwoordig dat de gebruikte programma s meestal open source zijn, zoals Apache-Hadoop 22, -Pig 23, -HBase 24, -Cassandra 25, -S4 26, Storm 27, Pegasus 28, Scribe 29, Cascading 30, GraphLab 31, R 32, MOA 33 en Vowpal Wabbit 34. De MapReduce 35 -techniek is door Google bedacht om webpagina s doeltreffend te kunnen indexeren. Hadoop 36 is een opensource-implementatie van MapReduce en wordt het meest gebruikt om non-streaming Big Data te analyseren voor informatie-intensieve gedistribueerde toepassingen. Hadoop biedt een programmeermodel en een softwarekader om grote hoeveelheden gegevens te distribueren via het Hadoop Distributed File System (HDFS) en de gegevens parallel te verwerken. Zoals de naam suggereert analyseert MapReduce de gegevens in twee aparte stappen met behulp van de functies map en reduce (fold). Grote ondernemingen als Yahoo!, Microsoft, Linkedn, Facebook, Google en Twitter dragen bij tot het open source karakter van Big Data en doen over en weer hun voordeel met de ontwikkelingen binnen de gemeenschap. Daarnaast werken onderzoekers aan academische instellingen en in het bedrijfsleven nauw met elkaar samen. Zij stellen onderzoeksgebieden vast en wisselen resultaten uit op conferenties zoals CDM 37, KDD 38 en ECML-PKDD 39. Gegevensanalyse en sociale netwerken Sociale netwerken vormen een zeer interessante bron van informatie die enkele jaren geleden op deze schaal nog niet bestond. De exploitatie van veranderende gegevensstromen op sociale netwerken zoals Facebook, Linkedn, Hyves en Twitter vereist een heel andere benadering, een die een oplossing biedt voor de snelheid en context van de gegevensstromen en gerelateerde kwesties in verband met de ontdekking van kennis. Bijvoorbeeld, in telde Facebook ongeveer 1,11 miljard gebruikers (1 mei), YouTube 1 miljard (20 maart), Twitter 500 miljoen (21 maart), Shazam 300 miljoen (29 april), Linkedn 225 miljoen (6 mei), icloud 300 miljoen (24 april), Google Chrome 750 miljoen (15 mei), Gmail 425 miljoen (7 februari), Google+ 343 miljoen (26 januari), Sina Weibo 503 miljoen (21 februari), Tencent s QQ 825 miljoen en Qzone 611 miljoen (15 mei), en Skype en Yahoo! elk ongeveer 280 miljoen (oktober 2012). De gegevensstromen op sociale netwerken zijn dus snel, omvangrijk en meestal ongestructureerd. Zo was volgens Twitter s CEO Dick Costolo in oktober 2012 het aantal tweets 500 miljoen per dag, ongeveer 25% meer dan vier maanden eerder. Bovendien hoef je niet echt te tweeten om op Twitter te zijn, want in 40% van de gevallen wordt er door mensen gebruik van gemaakt als curated news feed of updates that reflect their passions 41. Sentiment analysis en opinion mining zijn enkele voorbeelden van toepassingen van Big Data-technieken om de gegevensstromen van sociale netwerken aan te boren en berichten aan te merken als positief of negatief, naargelang het overgebrachte sentiment. Bij dit onderzoek naar sentiment worden technieken voor machinaal leren gebruikt en leert het algoritme aan de hand van leergegevens die bijvoorbeeld gemerkt zijn met in gegevensstromen voorkomende emoticons. Carnegie Mellon University heeft NELL 42 (Never Ending Language Learner) ontwikkeld om via analyse structurele informatie op te stellen uit honderden miljoenen ongestructureerde webteksten en het programma steeds beter voorbeelden en relaties te laten extraheren uit gegevensstromen. De eerder genoemde technieken zoals Hadoop MapReduce versnellen de data mining door het leerproces te verdelen over parallelle machines en de ingevoerde gegevensverzamelingen op te splitsen in zelfstandige deelverzamelingen waarvoor achtereenvolgens de map- en de reduce-functie wordt uitgevoerd. S4 en Storm spelen een grote rol in de verwerking van continue gegevensstromen. Om historische en tijdsgetrouwe gegevens tegelijk te verwerken, zijn beide technieken nodig. Een interessante aanpak is die ontwikkeld door Nathan Marz van Twitter. Deze zogenaamde Lambda- architectuur 43 verdeelt het probleem van gegevens

8 delving over drie lagen: batch, serving en speed. De gegevens worden naar zowel batch- als speed-lagen gestuurd. Met programma s zoals MapReduce berekent de batch-laag zoekopdrachtfuncties die het mogelijk maken om historische gegevens snel op te zoeken in de serving-laag. Met snelle incrementele algoritmen zoals S4 of Storm bereikt de speed-laag de kleinst mogelijke wachttijd door zich te concentreren op recente gegevens, terwijl de batchlaag de gegevensverzameling als geheel in beeld brengt. Door beide te combineren in de Lambda-architectuur ontstaat een robuust, fouttolerant, uitbreidbaar en herstelbaar systeem voor ad-hoczoekopdrachten in snelle socialenetwerkstromen. Big Data en cloud computing De opkomst van Big Data zou ondenkbaar zijn geweest zonder de on-demand mogelijkheden van cloud computing. Dankzij zowel virtualisatie als cloud computing is het nu mogelijk de capaciteit op te schalen en de kosten van opslag en verwerking te beperken. Compute nodes en opslagsystemen binnen een particuliere of publieke cloud stellen gebruikers in staat grote hoeveelheden gegevensstromen te analyseren die in de tijd fluctueren en soms explosief kunnen toenemen. Cloud computing biedt de mogelijkheid extra virtuele machines in te zetten om ervoor te zorgen dat de analyse van Big Data ook bij ongebruikelijk grote gegevensverzamelingen geen vertraging oploopt, zonder dat het nodig is de capaciteit van de database te vergroten of permanent dure hardware toe te voegen. Terwijl virtualisatie de onderliggende hardware abstraheert om een hoger niveau diensten te bieden, zoals het klonen van een gegevensnode, een grote beschikbaarheid van een bepaalde node of door de gebruiker gestuurde provisioning, bieden de clouds een verzameling gevirtualiseerde hardware met aanvullende diensten zoals extra middelen op verzoek (aas), diverse computingplatforms (PaaS) of softwarecatalogi (SaaS) 1. Een enkele Hadoop image is eenvoudig te klonen en de benodigde opslag- en rekencapaciteit kunnen naar behoefte worden uitgebreid. Publieke clouds verschillen van particuliere doordat de schaalvoordelen die zij bieden ten koste gaan van de beheersing, privacy, beveiliging of bewaring. Voorbeelden van public cloud-mogelijkheden voor Big Data zijn de Amazon Elastic MapReduce 44 en de solutions-google-compute-engine-cluster-for-hadoop 45. Virtualisatie en cloud computing zijn echter niet voor alle gevallen van Big Data-gebruik geschikt. Gedeeld gebruik of ondercapaciteit van de middelen voor opslag, verwerken en netwerken kan vertraging of zelfs ernstige onderbreking veroorzaken. Anderzijds gaan de aannamen van Hadoop over de onderliggende hardware niet altijd op in een virtuele omgeving. Zo is het voordelige en toch betrouwbare Hadoop Distributed File System (HDFS) gebaseerd op drievoudige replicatie 46 naar lokale voordelige opslag en optimaliseert het gegevensblokken in racks en hosts met kennis van de fysieke topologie. Het gevolg hiervan zou kunnen zijn dat runtime-optimalisering achterhaald raakt als de informatie over de fysieke topologie niet wordt gedeeld met de gebruikers. Een ander nadeel van virtualisatie is het effect ervan op wachttijd. Virtualisatie biedt geen garanties voor de korte wachttijd die nodig is voor tijdsgetrouwe gegevensstromen zoals Twitter feeds, vooral als enkele milliseconden bepalend zijn voor een belangrijk concurrentievoordeel of de bruikbaarheid van het resultaat. En niet in de laatste plaats bieden publieke clouds niet de vereiste vertrouwelijkheid en veiligheid bij het verwerken van bijvoorbeeld gevoelige financiële, concurrentiegerelateerde of medische gegevensstromen. Private of gemeenschapsclouds zijn dan mogelijk een beter alternatief. De ultieme uitdaging: zorgen voor inzicht De ultieme uitdaging bij iedere benadering van Big Data is hoe gebruikers het benodigde inzicht te geven in omvangrijke stromen en snelle, ongestructureerde gegevens. Visualisatie is altijd een belangrijk middel geweest om zeer grote gegevensverzamelingen uit complexe analyses op een begrijpelijke manier te presenteren, omdat beelden, schema s, grafieken en animaties de analyseresultaten inzichtelijk maken en betere beslissingen mogelijk maken. Er wordt specifiek in het kader van Big Data gewerkt aan diverse visualisatietechnieken en -technologieën 47, 48. Het zoeken naar herkenbare patronen in bijvoorbeeld rechtstreekse gegevensstromen is heel lastig met bestaande visualisatietechnieken. Er zijn daarom nieuwe methoden in de maak waarmee de analyses van de stromen Big Data uit nieuwskanalen, commentaren en sociale media kunnen worden doorgrond. Door visualisatie wordt een teveel aan tekst omgezet in inzichtelijke, bruikbare informatie. Niet voor niets voeren Big Data-bedrijven als Twitter en DataWatch hun visualisatiecapaciteit op door middel van overnamen. n mei 2013 kocht Twitter het nog jonge Lucky Sort, dat zich bezighield met het visualiseren van Big Data 49, en een maand later ging Datawatch over tot de aankoop van Panopticon Software, leverancier van programma s voor de visualisatie en ontdekking van gegevens 50. De toekomstige singulariteit van Big Data met Quantum Computing n de toekomst zal voor de verwerking van Big Data steeds meer rekenkracht en -capaciteit nodig zijn. Terwijl het bij capability computing gaat om een zo groot mogelijke rekenkracht voor het zo snel mogelijk oplossen van één groot probleem, is het capacity computing te doen om het parallel oplossen van veel kleine problemen met behulp van commodity servers. Zoals hiervoor beschreven moet de oplossing op dit moment vooral worden gezocht door 14 aas, Paas en Saas: nfrastructure-, Platform- en Software-as-a-Service 15

9 capaciteitsclusters in te zetten in de clouds en het Hadoop-kader te gebruiken. Maar wat te doen met reusachtige gegevensstromen waarbij de vereiste capaciteit veel groter is dan de beschikbare of veroorloofbare capaciteit en, in de woorden van Ray Kurzweil, die singularity is near? Op de langere termijn bieden twee alternatieven misschien wat respijt. De eerste variant wordt op dit moment al gebruikt om het stelsel van de digitale valuta Bitcoin te onderhouden. n mei 2013 was de data mining capaciteit van de onderling verbonden computers van Bitcoinwatch.com naar eigen schatting groter dan de exaflops - ruim acht keer de gezamenlijke snelheid van de top 500 supercomputers van dat moment. Het Bitcoin-stelsel is nog maar vier jaar geleden uitgevonden om rekenkracht aan te trekken voor het oplossen van steeds complexere wiskundige vraagstukken. Op langere termijn vormt de kwantumcomputer misschien het kosteneffectieve antwoord op de Big Data-singulariteit. Waar de elektronische computer is gebaseerd op de deterministische staat van een bit als één of nul, maakt de kwantumcomputer gebruik van de probabilistische kwantumstaat van atomen als rekenhulp, waarbij het mogelijk is de atomen zo te programmeren dat zij alle mogelijke staten van enen en nullen tegelijk voorstellen. Dat betekent dat een algoritme de mogelijke invoercombinaties in een keer kan testen in plaats van ze stuk voor stuk te doorlopen om een oplossing te vinden. Dat maakt de kwantumcomputer heel interessant voor analyses van Big Data die gericht zijn op het vinden van het best mogelijke antwoord uit een zeer groot aantal mogelijke antwoorden. Kwantumcomputers zijn daar bij uitstek voor geschikt omdat zij een groot aantal verschillende benaderingen van hetzelfde probleem pa-rallel kunnen verwerken. Dat verklaart ook waarom Google en NASA samen een laboratorium hebben geopend waarin met een quantum computer wordt onderzocht hoe quantum computing kan bijdragen tot machine learning V. The Singularity is Near door Ray Kurzweil V Tegenwoordig kunnen we enorme hoeveelheden gegevens verkrijgen, verzamelen, opslaan en analyseren, waaruit reusachtige verzamelingen ruwe gegevens ontstaan. Met Big Datatechnieken en -programma s kunnen we een groot deel van de intrinsieke waarde daarvan achterhalen voor de wetenschap, het bedrijfsleven en de samenleving. Bedrijven zoals Google, Facebook, Yahoo!, Twitter en Microsoft verzamelen iedere dag massaal gegevens en komen steeds weer met nieuwe diensten op basis van verzamelde of voorverwerkte informatie, zoals satellietgegevens, kaarten, tweets, statische beelden, bewegende beelden en sociale interactie. Deze gegevensdepots en diensten leiden tot innovaties en hebben zowel voor de wetenschapper als de ondernemer en de burger grote gevolgen. Vierde paradigma en gegevensintensieve wetenschappen Een historisch voorbeeld van welke verstrekkende gevolgen het uitpluizen van gegevens kan hebben voor de wetenschap, zijn de wetten over de planeetbewegingen die de Duitse wiskundige Johannes Kepler in 1609 en later opstelde, waarvoor hij putte uit de verzameling waarnemingsgegevens van zijn collega-astronoom Tycho Brahe. Met de komst van Big Data zullen wetenschappelijke doorbraken in de 21e eeuw in toenemende mate mogelijk worden gemaakt door uitbreiding van reken- en analysemogelijkheden waarmee onderzoekers beter in staat zijn zeer grote gegevensverzamelingen te verwerken en te bestuderen, en wetenschap te bedrijven op basis van gegevens in plaats van hypothesen. Dit zogenaamde vierde paradigma in de wetenschap 6 is gebaseerd op volledige benutting van enorme hoeveelheden meetgegevens die continu worden verzameld door sensoren en instrumenten, sociale gegevens afkomstig van blogs en websites of door computermodellen gegenereerde simulatiegegevens. Zoals in het geval van Kepler zullen die gegevensdepots leiden tot een groot aantal nieuwe theorieën en ontdekkingen. Een eerste vereiste is de beschikbaarheid van dergelijke depots met vastgelegde, geconserveerde en geanalyseerde gegevens en een degelijke infrastructuur voor communicatie en samenwerking binnen de wetenschappelijke gemeenschappen. Astronomische getallen De meeste wetenschappelijke disciplines worden aangedreven door informatie. Zo is de astronomie, met haar grote radiotelescopen en lichtdetectoren, een van de belangrijkste re

10 denen dat de hoeveelheid wereldwijd opgeslagen gegevens jaarlijks verdubbelt. De Large Synoptic Survey Telescope 51, die in 2015 in gebruik wordt gesteld, gaat beelden maken die ieder afzonderlijk drie gigapixels tellen. De SMBAD-database 52 bevat basisinformatie, kruisidentificaties, bibliografische en meetgevens over meer dan zeven miljoen lichamen buiten ons zonnestelsel. Het SKA-project 8 (Square Kilometer Array), waaraan 67 wetenschapsteams uit 20 landen meewerken, is net als de LHC-deeltjesversneller van CERN 9 een wereldwijd wetenschappelijk samenwerkingsproject bedoeld om meer inzicht te krijgen in het heelal. De SKA-radiotelescoop gaat dagelijks 1 exabyte aan gegevens produceren! De LHC produceert ongeveer 1 petabyte aan ruwe gegevens per seconde - 86,4 exabyte per dag - maar bewaart slechts 41 terabyte per dag, wat neerkomt op ongeveer 15 petabyte aan ruwe gegevens per jaar. Deze exponentiële toename van de hoeveelheid gegevens heeft er ook toe geleid dat wetenschappers fundamenteel anders omgaan met gegevens. Zij beseffen dat het onmogelijk is de gegevens plaatselijk te downloaden en te verwerken, niet alleen omdat de omvang zo groot is, maar ook omdat de gegevens te divers en ook heel dynamisch zijn. De grote sprong was het opzetten van Big Data-depots die de mogelijkheid van plaatselijke toegang tot de gegevens en uitvoering van analyses bieden, zodat downloaden en repliceren niet nodig is. Dankzij niveau-1 en niveau-2 locaties met grote gegevensdepots, verwerkingsprogramma s en interfaces kunnen hoge-energiefysici en sterrenkundigen nu in korte tijd miljoenen informatiebronnen doorspitten en de resultaten van hun onderzoek onder collega s bekendmaken. Big Data in de zorg, farma en biowetenschappen Big Data-technieken geven medisch onderzoekers de beschikking over methoden voor het doornemen van de enorme hoeveelheden patiëntgegevens die worden verzameld via beeldopnamen (scanners, MR), genetisch onderzoek (DNA-microarrays, NGS), labuitslagen, bewakingsapparatuur en andere bronnen van medische gegevens, maar ook sociodemografische gegevens en andere openbare informatiebronnen. Zo kunnen zij fundamenteel inzicht verkrijgen in de invloed van erfelijke en omgevingsfactoren op ziekten en patiëntspecifieke geneesmiddelen ontwikkelen met het oog op een hoogwaardiger zorgverlening, betere resultaten en lagere kosten. Het is bijvoorbeeld mogelijk per patiënt het optimale traject vast te stellen middels analyse en correlatie van patiënt- en behandelgegevens teneinde te komen tot een voor elke patiënt en aandoening zo doelmatig en doeltreffend mogelijke behandeling. Al dan niet draadloze apparatuur voor permanente bewaking van patiënten genereert grote hoeveelheden gegevens die het mogelijk maken het begrip van ziekten te vergroten, behandelprotocollen op te stellen en de opzet van klinische proeven en de ontdekking van geneesmiddelen te verbeteren. Beslissingsondersteunende systemen adviseren artsen over de nieuwste geneesmiddelen en behandelprotocollen volgens voornoemde optimale behandeltrajecten, maar ook op basis van de meest recente patiëntgegevens, hetgeen klinische fouten of bijwerkingen helpt voorkomen. Analyse van Big Data maakt het mogelijk profielen van patiënten op te stellen met behulp van segmentatie en voorspellende modellen, zodat zij kunnen kiezen voor een preventieve behandeling of andere levensstijl om de voorspelde gezondheidsrisico s zoveel mogelijk te beperken of voor te blijven. Tot slot kan Big Data-analyse worden uitgevoerd voor geanonimiseerde patiëntgegevens en gerelateerde medische procedures en protocollen om de kwaliteit, resultaten en doelmatigheid van het zorgstelsel te verbeteren en de patiënt meer inzicht te geven in de kosten en kwaliteit van de dienstverleners in deze nog altijd ondoorzichtige sector. Evenals talrijke medische instellingen, bedrijven in de biowetenschappen, verzekeringsmaatschappijen en andere belanghebbende partijen zag de farmaceutische industrie het belang in van gegevensuitwisseling en Big Data-technieken. n het vorige decennium werd voor onderzoek benodigde informatie verstuurd via peer-to-peer netwerken en dedicated dark fibers. Met Big Data-technieken kunnen de gegevens nu ter plekke worden verwerkt en is het niet meer nodig ze naar de onderzoeker te versturen, waarmee tegelijk een oplossing wordt geboden voor de bekende problemen rond vertrouwelijkheid, veiligheid en eigendom. Een cloud in bijvoorbeeld de zorgsector ontlast de instellingen door als host te fungeren voor de gevoelige patiëntgegevens en biedt de mogelijkheid gedistribueerde elektronisch patiëntendossiers (EPD) aan te maken en die te onderzoeken via Big Data-analyse. De invoering van EPD betekent dat er niet alleen minder tijd en geld is gemoeid met klinische proeven, maar ook dat de verkregen informatie van betere kwaliteit is omdat EPD gerichter onderzoek onder kleinere populaties mogelijk maakt. n de biowetenschappen is zorgvuldig gebruik van Big Data evenwel geboden gelet op de risico s van ontoereikende klinische interpretaties. Verder moet de privacy van patiënten gewaarborgd zijn en moet er te allen tijde een scheiding zijn tussen analysegegevens en de ruwe gegevens in het EPD. Als laatste nog een opmerking over erfelijke stoornissen en Big Data: de website Ancestry.com bewaart gegevens uit historische dossiers, zoals volkstellings-, militaire en immigratiegegevens, inclusief geboorteakten en overlijdensakten. Deze website biedt ook ruimte voor opslag van door de gebruiker gegenereerde gegevens. Het resultaat is een depot met ongeveer 40 miljoen stambomen waarin 4 miljard mensen zijn vertegenwoordigd. Verder is het op de site mogelijk DNA-informatie van gebruikers te verzamelen, zodat met behulp van recente ontwikke

11 lingen in DNA-technologie honderden jaren kan worden teruggekeken en in het kader van de familiegeschiedenis van de gebruiker correlaties kunnen worden gelegd. Door middel van technieken voor machinaal leren doet de site de gebruikers suggesties over hun familieleden. n samenhang met het EPD van de gebruikers biedt de site een uniek depot voor onderzoek naar erfelijke stoornissen. Big Data en energie & milieu De energiesector heeft pas sinds kort oog voor het potentieel van de enorme hoeveelheid gegevens die beschikbaar is voor verzameling, opslag en analyse na invoering van de Big Datainfrastructuur. Nutsbedrijven in Europa zijn begonnen met de invoering van slimme meters, maar de meeste ontberen nog de infrastructuur en technieken voor opslag en analyse van de gegevens. Na implementatie biedt Big Data talrijke nieuwe mogelijkheden. Zo kan de klant zijn gebruik van energie beter begrijpen, optimaliseren en vergelijken met dat van de buren, en leren hoe doelmatiger met energie om te gaan. De nutsbedrijven kunnen op hun beurt pieken zoveel mogelijk tegengaan door hun centrales te verkleinen en de noodzaak voor het ontwikkelen of inkopen van extra energiebronnen te beperken. Maar de grootste vooruitgang is te boeken met de invoering van slimme netwerken. De levering van energie via dit soort netwerken ziet er radicaal anders uit, met analyse en exploitatie van de gegevensinvoer van sensoren en slimme meters en decentralisering van de energieproductie. Samen met Big Data leggen slimme netwerken een nieuwe basis voor energiegebruik en -opwekking. Automatisering speelt hierbij een belangrijke rol omdat slimme software-elementen zorgen voor naadloze optimalisering van productie en gebruik van energie via onderhandeling tussen het betrokken nutsbedrijf en het energienet. Met de slimme software-elementen is het mogelijk decentrale energiebronnen in te zetten, zoals duurzame bronnen (bijv. wind, zon, water, aardwarmte) of te voorzien in plaatselijke energie (bijv. elektrische auto s, plaatselijke energieopwekking). De software-elementen en de applicatiesoftware voor de coördinatie van alle beslissingen binnen het systeem zorgen met behulp van de resultaten van gegevensanalyses voor de voortdurende verbetering van de modellen voor onderhandeling en besluitvorming. Naast de lagere CO2-uitstoot en kosten biedt het gebruik van Big Data in de energiesector nog een evident voordeel: veiligheid. Analyse van Big Data stelt ons in staat lering te trekken uit historische gegevens en patronen te herkennen in calamiteiten, zodat we alert kunnen zijn op kritische signalen en toekomstig gevaar kunnen ondervangen. Verder kan aan de hand van tijdelijke en speciale informatie de plaatselijke productie beter worden afgestemd op het verwachte verbruik of kan de optimale plaatsing of oriëntatie van zonnepanelen of energieturbines worden bepaald. Zo hangt de keuze van de plaats van installatie en exploitatie van een windturbine af van een groot aantal speciale en tijdelijke parameters, zoals wind, temperatuur, neerslag, vochtigheid, hoogte, luchtdruk en omgeving, zodat de uiteindelijke keuze sterk bepalend zal zijn voor de doelmatigheid van de energieproductie en de levensduur van de turbine zelf. Optimale plaatsing van een windturbine vereist meerdere petabytes aan historische gegevens, die moeten worden geanalyseerd met Big Data-technieken. Daarnaast krijgen we dankzij Big Data meer inzicht in het milieu via analyse van allerlei wereldwijd beschikbare nationale verzamelingen van gegevens over milieuaspecten die uiteenlopen van CO2-uitstoot tot lucht- en waterverontreiniging en ontbossing. De metingen van die aspecten dienen om simulaties van de klimaatverandering uit te voeren en voorspellende modellen van de planeet te verbeteren. Maar ze worden ook gebruikt om de aan het milieu gerelateerde essentiële prestatie-indicatoren te berekenen. Die indicatoren zijn nodig om een verkeerde beoordeling van milieubeleid of -besluiten te vermijden en worden bijvoorbeeld gebruikt bij het bepalen van de plaats op de milieuprestatie-index. Het probleem dat de depots met milieugegevens nu nog belangrijke leemten vertonen, is aan het verdwijnen met de opkomst van crowdsourcing en burgerwetenschap zoals Dangermap, een Chinese site die op basis van informatie van overheid en publiek gegevens publiceert over gevaar voor verontreiniging. Opensource-programma s en -platforms zoals Arduino 53 bieden het publiek de mogelijkheid interactieve apparatuur met sensoren en actuatoren te ontwikkelen om milieumeetgegevens te verzamelen. Big Data in de openbare sector n de openbare sector wordt een schat aan gegevens verzameld, bijvoorbeeld op het gebied van belasting en sociale zekerheid, sociodemografische informatie en opiniepeilingen. Een onderzoek van McKinsey 14 laat zien dat toepassing van Big Data-technieken op deze berg informatie kan leiden tot aanzienlijk meer doelmatigheid en productiviteit. De analyse van Big Data kan bijdragen tot feitelijk onderbouwde overheidsmaatregelen gericht op verbetering van kwaliteit, rendement en productiviteit, hogere inkomsten en lagere kosten. Verder zal er meer draagvlak zijn voor beleid en diensten van de overheid als beleidsmakers de burger beter kunnen begrijpen zodat zij overheidsdiensten en -producten meer op de vraag kunnen afstemmen. Het resultaat is minder bureaucratie en afval en een betere voorziening in de behoeften van de samenleving. De transformerende werking van Big Data kan tevens de aanzet geven voor hervormingen op het gebied van wetgeving en overheidsbeleid

12 Een van de aspecten waarvoor in de overheidssector dringend verbetering nodig is en Big Data uitkomst kan bieden is transparantie en het vertrouwen van de burger. De beschikbaarstelling van de enorme hoeveelheid informatie als open data zal de transparantie ten goede komen en de burger meer duidelijkheid geven over welke gegevens de overheid verzamelt en wat zij daarmee doet. Meer transparantie betekent dat de burger de overheidsbestedingen kan volgen en overheden dwingt tot doelmatigheidsverbetering en kostenverlaging. Dat zou overheden stimuleren de burgers te respecteren en publiek-private initiatieven aanmoedigen innovatieve diensten te ontwikkelen die beter voorzien in de behoeften van de samenleving. Om te komen tot een betere dienstverlening zullen ambtenaren zich proactief moeten opstellen. Door niet alleen gestructureerde overheidsinformatie maar ook ongestructureerde gegevens van sociale media te analyseren kunnen zij ontwikkelingen in de samenleving en gebeurtenissen van belang snel opmerken en er op inspelen. Met behulp van spraakherkenningstechnieken kan de stemming in het land of in groeperingen worden gepeild en begrepen, zodat de overheid sociale onrust of rellen kan zien aankomen en mogelijk zelfs kan voorkomen. Daarnaast kan de overheid burgers in categorieën onderverdelen en algoritmen ontwikkelen om de besluitvorming te automatiseren en haar diensten meer toe te snijden op de doelgroepen. De overheid kan dan beter voorzien in de werkelijke behoeften van de betrokken doelgroepen. Een ander onderwerp dat in de meeste landen hoog op de agenda staat is de opsporing en terugdringing van belastingontduiking en uitkeringsfraude. Met behulp van Big Data-analyse kan de belastingdienst meer fraudepatronen op het spoor komen en in een nog eerder stadium verdachte transacties beter signaleren. Door regionale en nationale openbare gegevens te combineren met sociale media krijgen zij meer inzicht in afwijkend gedrag en kan vroegtijdig worden opgetreden. Profileringstechnieken en statistische Big Data-analyse helpen bij het herkennen van patronen en vaststellen van frauduleus gedrag. Ook hier is transparantie belangrijk omdat transparantie het vertrouwen in de overheidsmaatregelen versterkt en een preventieve werking heeft door het maken van verkeerde keuzes te ontmoedigen. Tot slot het volgende over de gevoelige kwestie van Big Data in verband met de nationale veiligheid en de bescherming van persoonlijke gegevens. Met Big Data-programma s kunnen overheidsinstellingen burgers volgen en sociale onrust, rellen of verdachte criminele of terroristische activiteiten opsporen. De overheid beschikt over enorme hoeveelheden vertrouwelijke informatie over burgers en heeft de middelen om die te verzamelen, verwerken en analyseren in combinatie met gegevens van sociale media en andere publieke (en zelfs privé ) gegevens, zonder expliciet medeweten of uitdrukkelijke instemming van betrokkenen. Dat maakt het enerzijds mogelijk criminele plannen te ontmaskeren, drugszendingen te onderscheppen, kindermisbruik tegen te gaan en terroristische aanvallen te voorkomen, maar kan anderzijds worden misbruikt door medewerkers of indringers. Dat verklaart de ophef in de samenleving over programma s zoals PRSM die zijn bedoeld om de wereld te behoeden voor terroristische aanslagen. Big Data biedt overheden en bedrijven grote voordelen, maar voor voldoende draagvlak onder burgers en klanten zal naast transparantie ook bescherming van de persoonlijke levenssfeer gewaarborgd moeten zijn. Big Data en de gevolgen voor e-handel Door e-handel komen de prijzen van detailhandelaren steeds meer onder druk te staan omdat de consument via internet direct toegang heeft tot prijsinformatie, advertenties en productbeschrijvingen. Consumenten zijn heel sterk gebaat bij deze prijstransparantie. Aan de andere kant biedt Big Data de detailhandel nieuwe mogelijkheden om hun voordeel te doen met de via e-handel verkregen informatie. Gegevens over internetaankopen vormen in samenhang met sociale media een reusachtig depot met klantinformatie. Tegelijkertijd wordt dataopslag zo voordelig dat bijna alle informatie kan worden bewaard. Voor een competitieve strategie is business intelligence veel belangrijker dan alleen de prijs van een product. Onderzoek van de verzamelde gegevens om het gedrag van de klant te begrijpen levert inzichten op die leiden tot andere marketingstrategieën en interne plannen. Big Data biedt detailhandelaren de mogelijkheid hun diensten meer af te stemmen op de klant, ook bij sterke groei van het klantenbestand. Technieken zoals Next Best Offer (NBO) 54 die doelsegmenten koppelen aan productcategorieën, optimale prijsstelling, voorkeurskanaal en moment van aanbieding, brengen gegevensverwerking in real time en mobiliteit samen en maken optimalisering van context, locatie, kanaal en reclame voor het productaanbod mogelijk. Door klanten in categorieën te verdelen met behulp van Big Data-analyse 55 kan de detailhandelaar zich richten op de meest waardevolle klanten om zich te verzekeren van hun betrokkenheid en loyaliteit. Andere potentiële Big Data-voordelen voor de detailhandel zijn locatiegebonden marketing, analyse van winkelgedrag, analyse van klantsentiment, opti- En daaronder vallen berichten, telefoon- en videogesprekken, chatgesprekken, 22 satellietopnamen, cctv-opnamen, enz. 23

13 malisering van assortiment en prijsstelling, optimalisering van de bedrijfsresultaten, verbetering van de toeleveringsketen en ontwikkeling van nieuwe bedrijfsmodellen, een en ander op basis van de schat aan verzamelde gegevens en mogelijkheden van Big Data-analyse. Big Data en de verwerkingsindustrie n de verwerkingsindustrie zijn evidente voordelen van Big Data de vroegtijdige opsporing van gebrekkige producten en processen en een betere planning van de toelevering. Analyse van aftersales gegevens afkomstig van sensoren, klantenservice en sociale media in real time kan dienen voor het opzetten van aftersales diensten en vroegtijdig opsporen van ontwerpof fabricageproblemen. n feite is Big Data van invloed op de hele fabricagecyclus. Voor de eerste fase, productontwerp, kan uit de klantgegevens worden geput om te begrijpen hoe het ontwerp-naar-markt proces beter af te stemmen en om specificaties te ontwikkelen voor modellen van de volgende generatie. Een volgende stap zou zijn om leveranciers en klanten bij productinnovatie te betrekken. Dankzij internet en de algemene invoering van breedband is het mogelijk geworden gegevens op te doen en door te geven via virtuele samenwerkingssites. Het afgelopen decennium heeft een verschuiving laten zien van consument naar prosument 56, waarbij de klant inbreng heeft in nieuwe producten van de leverancier. Zo maakte Lego op basis van programmeerbare steentjes zelf samen te stellen robots, liet Threadless T-shirts ontwerpen door prosumenten en zette Procter and Gamble, met steun van nnocentive.com, grote aantallen deskundigen in om technische vraagstukken op te lossen. Deze open innovatiemethoden waren zo succesvol dat zich als voornaamste vraag aandiende hoe het meest waardevolle inzicht te halen uit de berg verzamelde gegevens. Met data mining en Big Data-algoritmen en -analyse kan dan de toegevoegde waarde van productontwerp met crowdsourcing worden bereikt. Just-in-time fabricage kan het beste worden ingevoerd wanneer de producent zijn ramingen van de klantvraag verbetert en zijn toevoerplanning dienovereenkomstig aanpast door niet alleen de zelf verzamelde gegevens te analyseren, maar ook die afkomstig van de detailhandel (met informatie over producten, prijzen, verkoopaantallen, enz.), product dynamics (introductiefase, verkooppiekperiode, exitfase) en reguliere voorraadgegevens nagenoeg in real time (bijv. beschikbare voorraden en verkoop per regio of kanaal). Deze benadering van just-in-time fabricage en on-demand levering biedt alle partijen in de leveringsketen het grootste macro-economische voordeel: de klant wordt op tijd bediend tegen de laagst mogelijke kosten, de leverancier vermijdt het risico van grote ongebruikte voorraden en de fabrikant investeert just-in-time 57. Zoals we hiervoor hebben gezien in de bespreking van de detailhandel, zal de prijzenslag in hevigheid toenemen en is de enige houdbare oplossing voor fabrikanten en hun leveranciers om via gegevensanalyse te komen tot gemeenschappelijke informatie, betere dienstverlening en productielogistiek en minimalisering van het afval door het aanbod beter af te stemmen op de vraag en daarmee beter te voorzien in de klantbehoeften. Tot slot, maar niet minder belangrijk, is er de invloed die Big Data heeft op de ontwikkeling van flexibele fabricage en virtuele digitale fabrieken waarbij door sensoren en andere apparatuur verkregen gegevens in het totale productieproces (van grondstoffen tot hergebruik) worden geanalyseerd om transparantie te scheppen, dashboards te maken en problemen te signaleren. Naar verwachting zal de analyse van Big Data de doorvoer van dit soort virtuele digitale fabrieken verbeteren en zorgen voor het benodigde concurrentievoordeel van massaal maatwerk. Nog twee sectoren: financiële dienstverlening en mobiliteit Zoals in de andere sectoren kan Big Data-analyse ook banken 58 en verzekeraars 59 voorzien van scherpere business intelligence door te zorgen voor beter inzicht en patronen herkenbaar te maken aan de hand van zoekopdrachten, analyses, rapporten, dashboards en scorekaarten. Scenariomodellen en voorspellende analyses dienen ter ondersteuning van gedragsvoorspelling en besluitvorming. Patroonherkenning is nuttig om fraude op te sporen en daaruit voortkomende verliezen zoveel mogelijk te beperken, terwijl scenariomodellen een beter risicobeheer mogelijk maken. Evenals in de detailhandel kunnen banken en verzekeraars via aggregatie van cliënteninformatie bepalen welke cliënten uiteindelijk het meest winstgevend zijn, loyaliteitsprogramma s opzetten en de waarde van hun diensten verhogen. Big Data is ook relevant voor onze steeds grotere mobiliteit. Nu alles en iedereen verbonden is, levert de toenemende mobiliteit een schat aan gegevens op via internet op locatie en gedrag. Hetzelfde geldt voor andere belangrijke zaken die zich verplaatsen, zoals goederen, dieren, bezittingen en ziekten. Sensoren en gps-apparatuur leveren een constante stroom aan plaatsgegevens in combinatie met andere contextuele informatie. De registratie en correlatie van deze enorme hoeveelheid informatie zal naar verwachting leiden tot substantiële toegevoegde waarde in diverse sectoren, zoals vervoer en mobiliteit, marketing en reclame, stadsontwikkeling, ziektebestrijding, milieubescherming en gebruik van duurzame energie. Hoe zit het met middelgrote en kleine bedrijven (mkb)? Voor alle voornoemde toepassingen van Big Data ligt het voor de hand te veronderstellen dat Big Data wordt gebruikt binnen grote ondernemingen, die meestal zelf een afdeling voor gegevensanalyse hebben. De gebruikelijke perceptie is dat kleinere of beginnende ondernemingen tijd noch geld hebben om zich bezig te houden met Big Data zoals hierboven beschreven. Zaken als een tekort aan gekwalificeerd personeel en benodigde software en hardware worden het meest genoemd als Big Data-hindernis voor mkb. Desondanks kan het nut 24 25

14 van Big Data voor het mkb even groot zijn als voor grotere ondernemingen. Steeds meer technologieën bieden mkb toegang tot kosteneffectieve, geavanceerde vormen van gegevensanalyse 60. Zo kunnen ook kleinere bedrijven profiteren van het opzetten, verzamelen en analyseren van Big Data. Het enige verschil is dat zij over minder budget, middelen en manuren beschikken dan grote organisaties. Een van de kernvragen voor elk mkb-bedrijf is nog steeds: als Big Data goed is voor de internetstrategie, hoe pak je dat dan het beste aan? n het algemeen zal een bedrijf specialisten moeten aanstellen om de gegevens op te slaan en te analyseren en op basis daarvan betrouwbare strategische conclusies te trekken. Daarvoor zijn speciale vaardigheden nodig. Voor grotere organisaties is dat meestal een kwestie van intern verantwoordelijkheden toewijzen en misschien een kleine uitbreiding van reeds bestaande datawarehouse afdelingen doorvoeren. Een klein bedrijf wordt waarschijnlijk het beste op weg geholpen door extern advies in te winnen over hoe Big Data eenvoudig en doeltreffend op te zetten. Een aantal praktische voorbeelden van Big Data is te vinden op We bevinden ons nog maar aan het begin van het Big Data-tijdperk en er zijn twee factoren die bepalend zijn voor de vraag hoe snel de beloften van Big Data zullen worden ingelost. De eerste is de beperkte mogelijkheid om Big Data in te voeren op een schaal die overeenkomt met de geboden perspectieven, doordat de vraag naar vaardige Big Data- DevOps explosief is gestegen. McKinsey 14 becijferde in 2011 dat in de komende vijf jaar alleen de VS al te maken zal krijgen met een tekort van tussen de en vakmensen. Volgens meer recent onderzoek van Gartner 61 zullen er in 2015 wereldwijd 4,4 miljoen gekwalificeerde mensen nodig zijn voor de ondersteuning van Big Data. Of het potentieel van Big Data benut kan worden, zal in laatste instantie dus afhangen van de vraag of bedrijven en samenlevingen erin slagen professionals voort te brengen die weten hoe enorme hoeveelheden gegevens bewaard en verwerkt moeten worden, gegevensanalyses kunnen ontwikkelen en uitvoeren, en daaruit de benodigde inzichten te filteren en voorspellende modellen te bouwen. Daarnaast zullen zij ook thuis moeten zijn in T en bedrijfsmodellen, zodat er al met al veel van hen gevraagd wordt. Met het oog op die behoeften zullen universiteiten en onderwijsinstellingen dus intensieve programma s moeten ontwikkelen om ervoor te zorgen dat de juiste mensen op tijd beschikbaar zijn. De andere bepalende factor voor Big Data is bescherming en beveiliging van de gegevens. Enerzijds is er enorm veel waarde te verkrijgen als we alle in de loop der tijd geproduceerde gegevens beschikbaar stellen en er transparant mee omgaan, maar anderzijds vormen inbreuk op de persoonlijke levenssfeer en misbruik door partijen die meer over anderen kunnen achterhalen dan zij over zichzelf weten 62 nog altijd een serieus risico voor de burger. n 2012 waarschuwden de Europese agentschappen voor gegevensbescherming (EDPA) Google voor zijn voornemen een nieuw geïntegreerd platform te lanceren waarmee de activiteiten van de gebruikers beter zouden kunnen worden gevolgd met Big Data-verwerking. Namens EDPA stelde de Franse toezichthouder voor gegevensbescherming CNL 63 sterk te betwijfelen of deze verwerking wel rechtmatig en eerlijk was en of hiermee de Europese wetgeving inzake gegevensbescherming niet werd geschonden. Big Data houdt nog een gevaar in, namelijk dat persoonsgegevens kunnen worden misbruikt door de overheid of gehackt door criminelen, wat een sterke inbreuk op de veiligheid en belangen van de burger zou zijn. De privacy en vrijheid van burgers is met de bestaande ethische conventies,

15 wettelijke voorschriften en marktmechanismen onvoldoende gewaarborgd. Voor invoering en een rechtmatig gebruik van Big Data is het dus zaak de ethische en wettelijke regels te herzien om de bescherming en beveiliging van gegevens bij wet te garanderen. Het is een grote uitdaging voor beleidsmakers om de snelle ontwikkelingen en slimme toepassingen van de technologie bij te houden. Opleiding van beleidsmakers en educatie van de burgers in ethiek 64, hun rechten en Big Data-risico s zijn onontbeerlijk voor een duurzame, legitieme verspreiding van Big Data in de samenleving en het bedrijfsleven. Big Data en het Dal van de Desillusie Zoals met elke nieuwe technologie het geval is, zijn voor Big Data de verwachtingen hooggespannen en menigeen moet nog door de hype heen kijken om te zien wat commercieel levensvatbaar is. n de terminologie van de Gartner Hype Cycle zou men kunnen stellen dat we na een periode van overspannen verwachtingen nu het Dal van de Desillusie naderen. Nassim N. Taleb, professor aan het polytechnisch instituut van de universiteit van New York en schrijver van The Black Swan 65, beweert zelfs dat hoe groter de gedolven gegevensverzamelingen zijn hoe lastiger het wordt de ruis eruit te filteren om het juiste signaal te vinden en hoe groter dus het risico is dat de gegevens verkeerd worden uitgelegd 66. De belofte dat Big Data in alle gegevensverzamelingen en silo s al snel aanwijzingen oplevert voor moeilijk te voorspellen, zogenaamde black swan gebeurtenissen met grote implicaties, wordt in twijfel getrokken gezien de desillusie van bestaande applicaties en het negatieve effect van de hoge ruis-signaalverhouding op Big Data-voorspellingen. Dat is iets wat dus in de volgende fase van de Big Data-hypecyclus volgens Gartner aangepakt zal moeten worden. Een betere verhouding tussen signaal en ruis in gegevens zou samen met statistische methoden om het effect van ruis in voorspellingen te verminderen een afdoende oplossing moeten bieden voor het zwarte-zwaan-syndroom. Veel consumentprofielen zijn nu nog deels onjuist of onvolledig en veel gegevensdepots zitten vol ruis, zodat een groot deel van de op Big Data gebaseerde gepersonaliseerde reclame of direct marketing niet doeltreffend of niet nauwkeurig is. Dit in tegenstelling tot vele geslaagde toepassingen van Big Data op hiervoor genoemde gebieden, zoals de gezondheidszorg, fraudeopsporing, verzekeringen en energiebeheer. Big Data-ontwikkelaars zullen ons door de fase van desillusie heen moeten helpen door de technologie dusdanig te verbeteren dat partijen die Big Data al gebruiken er tevreden mee zijn en door Big Data-producten van een tweede en derde generatie te ontwikkelen. Big Data in Nederland Recent onderzoek 67,68 naar de toepassing van Big Data in Nederland door Keala en The METSfiles laat zien dat 6% van de Nederlandse bedrijven met meer dan 50 medewerkers het idee al heeft overgenomen, terwijl 7% zich nog in de opstartfase van een Big Data-project bevindt en 6% de mogelijkheden van een Big Data-initiatief onderzoekt. De sterkste groei van Big Dataprojecten wordt verwacht in De omvang van de Nederlandse Big Data-markt in 2012 wordt geschat op 176 miljoen, 48% meer dan in Voor dit jaar (2013) wordt een groei verwacht van 52%. SURFsara is host van een van de grootste Hadoopclusters in Nederland. Dit algemeen toegankelijke cluster stelt onderzoekers in Nederland in staat grote hoeveelheden gegevens te verwerken met behulp van het MapReduce-kader. Daarnaast fungeert SURFsara als host voor een NoSQL-cluster om onderzoekers de gelegenheid te bieden gebruik te maken van Document en Key-Value stores. SURFsara voorziet niet alleen in Big Data-infrastructuur, maar biedt ook adviezen, opleidingen en ondersteuning aan Nederlandse instellingen voor onderzoek en wetenschap en ook aan bedrijven in de pre-competitieve fase. De interesse voor Big Data-technieken groeit snel in Nederland nu het gebruik van Hadoop en de vraag naar databases zoals HBase en MongoDB toenemen. De behoefte aan meer opleiding en advisering neemt eveneens snel toe. (Zie ook de bijlage)

16 We hebben op dit moment de beschikking over enorme depots met gestructureerde, semigestructureerde en ongestructureerde gegevens afkomstig van diverse digitale platforms, sociale media en blogs of gegenereerd middels simulatie en modellen. De methoden van traditionele databases zijn ongeschikt om dit soort massale depots doeltreffend te analyseren en begrijpen. Dankzij de commodificering van High Performance Computing en massaopslag in samenhang met cloud computing, opensource-software en onderling compatibele platforms is het nu mogelijk snelle, omvangrijke stromen van uiteenlopende gegevens te analyseren en het inzicht te verschaffen dat nodig is om echt te profiteren van deze stortvloed aan gegevens. De gegevens die we binnen handbereik hebben, worden in het algemeen niet op hun juiste waarde geschat en nog onvoldoende benut, en in bijna iedere sector, zoals de wetenschap, zorg, e-handel, de overheid, energie, milieu en verwerking, is het zaak een groot aantal applicaties te ontwikkelen om de belofte van Big Data in te lossen. Ons leven zal er dan snel anders uit komen te zien; er ontstaat een geheel nieuwe manier van wetenschap bedrijven en zaken doen. Gegevensanalyse zal worden uitgebreid met correlaties en voorspellingen naast oorzakelijkheid, modellering en theorievorming. Kennelijk is de grootste uitdaging niet zozeer de technologie zelf - want die evolueert veel sneller dan de mens - als wel de vraag hoe ervoor te zorgen dat we voldoende vaardig zijn om de beschikbare technologie doeltreffend te gebruiken en inzicht te krijgen in de verzamelde gegevens. En voor het zover is, moeten we menige juridische kwestie oplossen in verband met intellectueel eigendom, bescherming en integriteit van gegevens, cyberbeveiliging, aansprakelijkheid bij exploitatie en Big Data-gedragscode. Zoals op veel andere technologische gebieden zal de gewenste omgang met de mogelijkheden en excessen van Big Data pas na verloop van tijd duidelijk worden. De beloften van Big Data zijn innovatie, groei en blijvende duurzaamheid. Risico s zijn inbreuk op de persoonlijke levenssfeer, eigendomsrechten, gegevensintegriteit of persoonlijke vrijheid. Met andere woorden, bij een open, transparante benadering van Big Data zal het niet lang meer duren of de belofte van Big Data wordt ingelost. Big Hardware, software en gegevensverzamelingen SURFsara s Hadoop-cluster telt momenteel 90 nodes. Elk node heeft een dual quadcore CPU (AMD Opteron 6128) en 64 GB geheugen met 4 x 2 TB harde schijven. De nodes zijn onderling verbonden door 2 x 1 Gb ethernet. De totale bruto HDFS-opslagruimte van het cluster is 633 TB. De totale capaciteit beschikbaar voor MapReduce is 720 nodes. n 2014 wordt het cluster uitgebreid tot ongeveer 150 machines en 1,2 PB opslag. NoSQL-groep SURFsara host op dit moment een cluster van zeven nodes met elk 24 cores, 132 GB RAM en 12 TB opslagruimte. Dit cluster maakt het voor onderzoekers mogelijk gebruik te maken van diverse NoSQL stores, bv. Riak, MongoDB en CouchDB. Enkele daarvan zijn nu al in gebruik in combinatie met de Grid-rekendiensten van SURFsara. Het cluster wordt binnenkort algemeen beschikbaar gesteld aan onderzoekers en kleine ondernemingen. YARN SURFsara wil de eerste stabiele versie van Apache Hadoop MapReduce 2.0 (YARN) aan gebruikers aanbieden zodra er een stabiele versie is. Met YARN is Hadoop uit te breiden met andere frameworks dan alleen MapReduce, zodat het mogelijk is ook andere methoden voor parallelle computing in te zetten, zoals MP, Hama en HBase en kaders voor Graph Processing zoals Giraph, allemaal op hetzelfde cluster en hetzelfde bestandssysteem. YARN stelt onderzoekers in de gelegenheid klassieke High Performance Computing-technieken (MP) te combineren met nieuwe frameworks voor bijvoorbeeld Graph Processing en NoSQL-gegevensbanktechnologie zoals HBase. HBase en NoSQL Zoals hiervoor gezegd neemt de belangstelling voor NoSQL-databases zoals HBase en MongoDB toe. SURFsara neemt samen met het Centrum Wiskunde en nformatica (cwi.nl) en de Koninklijke Bibliotheek (KB.nl) deel aan een NWO-programma dat moet uitmonden in het opzetten van een HBase-groep en enkele MonetDB-knooppunten voor het opslaan en raadplegen van omvangrijke webarchieven. Verder is in het kader van de door SURF gehouden wedstrijd Enlighten Your Research Contest door de groep van winnaar van de Spinozapremie

17 Piek Vossen uitdrukkelijk interesse getoond in HBase- en Big Data-oplossingen. Common Crawl en WikiPedia SURFsara host een aantal (semi) algemeen beschikbare gegevensverzamelingen op zijn Hadoop-cluster, zoals de Common Crawl Dataset en de Nederlandse en Engelse versies van Wikipedia. Daarnaast staan ook de gegevensverzamelingen voor de Text Retrieval Challenge (TREC) en ClueWeb ter beschikking van onderzoekers. Uiteraard kunnen gebruikers hun eigen gegevensverzamelingen op het cluster zetten. Norvig Award SURFsara en de stichting Common Crawl ( organiseren samen de Norvig Web Data Science Award, genoemd naar Peter Norvig, onderzoeksdirecteur bij Google nc. en lid van de adviesraad van Common Crawl. Het doel van Common Crawl is de toegang tot het web te democratiseren door een crawl op te zetten die iedereen kan raadplegen en analyseren. Als we het web beter kunnen begrijpen, kan het ons geweldige inzichten bieden. Met Web Crawl-data kan de gebruiker trends ontdekken en patronen vaststellen in de politiek, economie, gezondheidszorg, populaire cultuur en op veel andere terreinen. Deelnemers wordt daarom gevraagd creatief gebruik te maken van de open verzameling van Common Crawl-data op SURFsara s Hadoop-cluster, die zes miljard webpagina s beslaat. De door SURFsara geboden toegang tot het cluster maakt het werken met deze gegevensverzameling van ongeveer 25 TB heel eenvoudig. Deze prijsvraag gaat gepaard met cursussen en ondersteuning door SURFsara s adviseurs. Het onderzoek kan gaan over vragen als: hoeveel pagina s in de Common Crawl-gegevens betreffen spam, wat zijn de meest controversiële pagina s in Common Crawl of hoe groot zijn netwerken van gekoppelde pagina s waarop een bepaalde gebeurtenis besproken wordt? De eerste Norvig Award Competition werd in 2012 georganiseerd en was een groot succes. bekendheid wint. SURFsara zal andere onderzoeksdisciplines proactief benaderen en zijn gebruikersbestand uitbreiden. n het bijzonder zal in 2014 de nadruk komen te liggen op het aantrekken van meer gebruikers uit de hoek van de biowetenschappen en de taalwetenschappen. Aangezien het een van de voornaamste uitdagingen van Big Data is om te zorgen voor gekwalificeerd personeel, organiseert en geeft SURFsara cursussen over Big Data voor academici en Nederlandse ondernemingen, ook via opleidingsinstituten. Kennisoverdracht naar de markt SURFsara is in nauwe samenwerking met zijn spin-off Vancis B.V. bezig met het opzetten en exploiteren van een Hadoop-cluster voor zakelijke toepassingen. n de loop van 2013 is tussen SURFsara, Vancis en KPMG een overeenkomst ondertekend voor kennisoverdracht. Verder heeft Vancis in het najaar van 2013 meegedaan aan de Big Data Tooling Challenge van SURFsara. Daartoe werd aan mkb-bedrijven gevraagd gegevensverzamelingen en een interessant Big Data-probleem in te dienen. Er werden enkele problemen geselecteerd waarvoor met behulp van de expertise en infrastructuur van SURFsara een oplossing werd gezocht. Naast Vancis werd ook actief deelgenomen door bedrijven en organisaties zoals Dynamic Credit, Webpower, Belastingdienst, Lucifer, Dacolt, 2Coolmonkeys en Metaphora. n dit verband hebben de Big Data-activiteiten van SURFsara ook de interesse gewekt van het Nederlands Forensisch nstituut (NF) en de Nationale Politie (NP). n 2014 zal de Big Data Tooling Challenge waarschijnlijk in uitgebreide vorm opnieuw plaatsvinden. Daarnaast zullen de contacten met organisaties als NF en NP worden versterkt. Gebruikersgemeenschappen Van SURFsara s Hadoop-cluster wordt actief gebruik gemaakt door vrijwel alle teams in Nederland die zich bezighouden met het opzoeken en mining van gegevens. Naar verwachting zullen andere onderzoeksdisciplines spoedig volgen aangezien deze technologie snel aan

18 Dr. Anwar Osseyran is algemeen directeur van SURFsara (het nationale High Performance Computing Center in Nederland) en bestuurslid van diverse CT-bedrijven. Prof. dr. Willem Vermeend is internetondernemer, investeerder en commissaris van diverse interneten andere bedrijven Controlling-Data-Volume-Velocity-and-Variety.pdf innovation 15 Anwar Osseyran en Willem Vermeend werken in het kader van de doorbraakprojecten van het ministerie van Economische Zaken nauw samen aan de totstandbrenging van concrete Big Data-applicaties voor kleine en middelgrote ondernemingen in Nederland. Professor Vermeend is aanjager van dit project. Via de publiek-private doorbraakprojecten beoogt de Nederlandse overheid samenwerking tussen bedrijven en onderzoeksinstellingen om belemmeringen weg te nemen voor een optimaal gebruik van CT voor economische groei, verbetering van de concurrentiepositie en meer innovatie. Belemmeringen zijn onder meer een tekort aan kennis, gebrek aan normalisatie of onvoldoende technologische overdracht tussen onderzoekscentra en bedrijfsleven www-01.ibm.com/software/data/netezza; Referenties blz Zie ook Norvigs The unreasonable effectiveness of data, external_content/untrusted_dlcp/research.google.com/ja//pubs/archive/35179.pdf 5 see also complete_lr.pdf

19 innovation, blz blz service-to-shutter-in-months-ahead/ uses-big-data/632b3ce8d25102b9ab558b3833cc5885.html deep-concerns-about-data-protection-and-the-respect-of-the-euro/ Dynamics-nhoudsopgave.pdf 68 Eindgebruikersrapportage-nhoudsopgave.pdf 36

Nog meer weergeven