Van veel data, snelle computers en complexe modellen tot lerende machines

Vergelijkbare documenten

Van veel data, snelle computers en complexe modellen tot lerende machines

Mevrouw de rector magnificus, mevrouw de decaan, geachte collega s, geachte studenten, gewaardeerde toehoorders.

AI & Big Data bij Defensie

Neurale Netwerken en Deep Learning. Tijmen Blankevoort

Leven met angst voor ernstige ziektes

math inside Model orde reductie

Dit boek heeft het keurmerk Makkelijk Lezen gekregen. Wilt u meer weten over dit keurmerk kijk dan op de website:

2 Ik en autisme VOORBEELDPAGINA S

Wij zijn Kai & Charis van de Super Student en wij geven studenten zin in de toekomst.

LAAT JE BEDRIJF GROEIEN DOOR HET INZETTEN VAN JE NETWERK!

Kunstmatige Intelligentie

Machinaal leren, neurale netwerken, en deep learning

Artificiële Intelligentie En De Menselijke Maatschappij

6,9. Spreekbeurt door een scholier 1336 woorden 4 oktober keer beoordeeld. Nederlands

Artificial Intelligence. Tijmen Blankevoort

MEE Nederland. Raad en daad voor iedereen met een beperking. Moeilijk lerend. Uitleg over het leven van een moeilijk lerend kind

De chip: hoe iets piepkleins een ware wereldrevolutie veroorzaakte

Autisten uit de kast. Binnen het bedrijf gebruik ik vaak een neutralere term, maar u begrijpt waar het over gaat: schaamte en angst.

6,4. Werkstuk door een scholier 1810 woorden 11 maart keer beoordeeld

HEY WAT KAN JIJ EIGENLIJK GOED? VERKLAP JE TALENT IN 8 STAPPEN

Smart Vision! Van Neuroscience naar Deep Learning (en terug) Sander Bohté CWI Life Sciences VIA AwesomeIT, April 10th 2015

Als je een keer over het grind loopt, kijk dan eens naar beneden en pak een steen die jou aanspreekt. Bewaar deze en teken hem op de tafel na.

PeerEducatie Handboek voor Peers

Werkboek Het is mijn leven

Luisteren: muziek (B2 nr. 3)

1 3 N u t t i g e LinkedIn Tips. Haal direct meer uit je netwerk!

Doorbreek je belemmerende overtuigingen!

Ik weet dat het soms best wel allemaal wat ingewikkeld kan lijken.

GELOOFWAARDIGHEID is de sleutel tot succesvolle interne communicatie. April Concrete tips voor effectieve interne communicatie

Presentatie Tranzo Zorgsalon 29 november 2012 Christine Kliphuis

Ik-Wijzer Ik ben wie ik ben

Inhoud. Waarom jij niet zonder de acht randvoorwaarden van de pitch methode kunt. Het belang van Social Media voor je bedrijf. Wij zijn!

De Keukentafel Uitdaging

Cloud Computing. Cloud Computing. Welkom allemaal hier op het science park.

De patiënt als partner

Strategische personeelsplanning objectief onderbouwen met People Analytics

Wat is PDD-nos? VOORBEELDPAGINA S. Wat heb je dan? PDD-nos is net als Tourette een neurologische stoornis. Een stoornis in je hersenen.

HET BELANGRIJKSTE OM TE WETEN OM MEER ZELFVERTROUWEN TE KRIJGEN

HANDIG ALS EEN HOND DREIGT

Inhoudsopgave van de gehele gids:

Geldwisselprobleem van Frobenius

Verslag van een ervaringsdeskundige. Nu GAP-deskundige.

Gezond eten: Daar heb je een leven lang lol van!

Social Media Recruitment. Een strategisch en praktisch adviesrapport. Auteur : Jacco Valkenburg Datum : 18 april 2010 Versie : 3

Het stappenplan om snel en goed iets nieuws in te studeren

Als je nog steeds hoopt dat oplossingen buiten jezelf liggen dan kun je dit boekje nu beter weg leggen.

Lineair-en Circulair denken. (Be-)invloed (-ing) op individu, bedrijfsleven, economie, onderwijs, technologie.

Spreekbeurt hoogbegaafdheid.

Doe de Booest Check Zet de 1e stappen om jouw praktijk te laten groeien en er een echte onderneming van te maken.

Instructie voor leerlingen.. 5. Gebruik van de lesbrieven. 6. Lesbrief: Wat wil je zijn en worden.. 7. Wat wil je zijn en worden.

2.4 Tekstopbouw In deze paragraaf oefen je in het schrijven van een tekst met een indeling in inleiding, kern en slot.

Wat is jouw verhaal?

Weten vraagt meer dan meten

Begeleide interne stage

ESSAY. Hoe kan Oxford House efficiënter online communiceren naar zijn potentiele opdrachtgevers? Essay. Lexington Baly

Onderzoek Stress. 5 Juni Over het 1V Jongerenpanel

Sociale psychologie en praktijkproblemen

Kunstmatige intelligentie

De logo s heb ik zelf gemaakt.

Intuïtief Website Stappen Plan voor een Doorlopende Stroom Klanten

Toos Mennen. Risicovoeten in de medisch pedicurepraktijk

Laser Focus. De 6 Concentratie Technieken Die Ze Je Niet Op Je Opleiding Leren..

Mijn ouders zijn gescheiden en nu? Een folder voor jongeren met gescheiden ouders over de OTS en de gezinsvoogd

OBSERVATIE. Hoe kom je in een creatieve mindset? De observatie van een kunstenaar en hoe hij aan zijn creativiteit komt. Robbert Kooiman G&I 1-C

Hoe ga ik dit verwerken? (Begrip maken) Dit volume is goed, dit moet ik zo houden.

Bijlage interview meisje

Gelukkig scheiden is een keuze!

Evaluatie PvKO Mastersessie 10 april 2014

DAMstenen voor het dagelijks LEVEN

Ik besloot te verder te gaan en de zeven stappen naar het geluk eerst helemaal af te maken. We hadden al:

Frankenstein. Mary Shelley

Persoonlijk rapport van: Marieke Adesso 29 Mei

Inhoud. 1 Wil je wel leren? 2 Kun je wel leren? 3 Gebruik je hersenen! 4 Maak een plan! 5 Gebruik trucjes! 6 Maak fouten en stel vragen!

Jouw avontuur met de Bijbel

Cursusgids - Social Medi lessen. Eerste druk November Digitaal Leerplein. Website: info@digitaalleerplein.

Ouderschap in Ontwikkeling

De muur. Maar nu, ik wil uitbreken. Ik kom in het nauw en wil d r uit. Het lukt echter niet. De muur is te hoog. De muur is te dik.

ONDERNEMEN IS VOOR HELDEN

Uiteindelijk gaat het om het openbreken van macht

Spelend leren, leren spelen

Mens en machine. Amsterdam, februari Beste Hannah Fry,

Waar blijft de minister

Theorieboek. leeftijd, dezelfde hobby, of ze houden van hetzelfde. Een vriend heeft iets voor je over,

Get In Shape! Stoere mannen werken in de zorg!

Inhoud. Neuronen. Synapsen. McCulloch-Pitts neuron. Sigmoids. De bouwstenen van het zenuwstelsel: neuronen en synapsen

Belbin Teamrollen Vragenlijst

U in het middelpunt Die migraine hè Levenservaring verzilveren

Snellezen. Ter illustratie

Wat kan klantcontact met kunstmatige intelligentie?

Inhoudstafel Leermeermoment Chicago Jongeren Lees dit alvorens te beginnen... 2 Doelstelling van de activiteit... 2 Overzicht...

Samenvatting. Clay Shirky Iedereen Hoofdstuk 4 Eerst publiceren, dan filteren. Esther Wieringa Kelly van de Sande CMD2B

Adinda Keizer - Copyright 2013 Niets uit deze uitgave mag zonder toestemming van Vindjeklant.nl worden gekopieerd of gebruikt in commerciële

B a s S m e e t s w w w. b s m e e t s. c o m p a g e 1

2.4 Tekstopbouw In deze paragraaf oefen je in het schrijven van een tekst met een indeling in inleiding, kern en slot.

Transcriptie:

Van veel data, snelle computers en complexe modellen tot lerende machines

Van veel data, snelle computers en complexe modellen tot lerende machines Rede uitgesproken bij de aanvaarding van het ambt van hoogleraar Machine Learning aan de Faculteit der Natuurwetenschappen, Wiskunde en Informatica van de Universiteit van Amsterdam op woensdag 29 januari 2014 door Max Welling

Dit is oratie 486, verschenen in de oratiereeks van de Universiteit van Amsterdam. Opmaak: JAPES, Amsterdam Foto auteur: Jeroen Oerlemans Universiteit van Amsterdam, 2014 Alle rechten voorbehouden. Niets uit deze uitgave mag worden verveelvoudigd, opgeslagen in een geautomatiseerd gegevensbestand, of openbaar gemaakt, in enige vorm of op enige wijze, hetzij elektronisch, mechanisch, door fotokopieën, opnamen of enige andere manier, zonder voorafgaande schriftelijke toestemming van de uitgever. Voorzover het maken van kopieën uit deze uitgave is toegestaan op grond van artikel 16B Auteurswet 1912 j het Besluit van 20 juni 1974, St.b. 351, zoals gewijzigd bij het Besluit van 23 augustus 1985, St.b. 471 en artikel 17 Auteurswet 1912, dient men de daarvoor wettelijk verschuldigde vergoedingen te voldoen aan de Stichting Reprorecht (Postbus 882, 1180 AW Amstelveen). Voor het overnemen van gedeelte(n) uit deze uitgave in bloemlezingen, readers en andere compilatiewerken (artikel 16 Auteurswet 1912) dient men zich tot de uitgever te wenden.

Mevrouw de rector magnificus, Mevrouw de decaan, Geachte leden van het curatorium, Beste collega s van het Instituut voor Informatica, Beste familie en vrienden, Zeer gewaardeerde toehoorders, 1 De dataficatie van onze samenleving Big Data ; de term kan u niet ontgaan zijn. Big data is de nieuwe goudmijn. Data mijnen is de activiteit die zijn waarde ontsluit. Zoals olie de industriële revolutie aandreef, zo is big data de nieuwe grondstof waarop de moderne economie draait. Jim Gray noemde data-gedreven wetenschappelijk onderzoek het vierde paradigma (na experiment, theorie en computer-gedreven simulatie). De datascope is de nieuwe telescoop en microscoop waarmee we verder en dieper kunnen kijken (zie figuur 2). Niet in de fysieke wereld, maar meer zoals in The Matrix in een digitale projectie van onze wereld, een wereld van nullen en enen. Het is duidelijk, de verwachtingen zijn hooggespannen. Is big data een big hype of stevenen we echt af op een maatschappij die gedomineerd wordt door data? En wat betekent die dataficatie van onze samenleving nu eigenlijk voor ons? 4

Eerst een paar feiten op een rijtje. De totale hoeveelheid data in de wereld wordt op dit moment geschat op ongeveer 4 zettabyte. Dat is 4,000,000,000, 000,000,000,000 = 4 x 10 21 bytes. Als we er even van uitgaan dat de harde schijf in uw computer 500 gigabytes (= ½ terabyte = ½ x 10 12 bytes) kan bevatten dan zijn dat dus 8 miljard harde schijven. Zeg even dat een harde schijf 5 cm dik is, dan zou de totale stapel harde schijven die alle data van de wereld bevat even hoog zijn als de afstand tussen de aarde en de maan. Figuur 1 De Square Kilometer Array (SKA) radio telescoop is misschien wel het wetenschappelijke experiment dat de grootste hoeveelheid data gaat opleveren in 2024: ongeveer 1 exabyte (10 18 bytes) per dag, ofwel een zettabyte per 3 jaar (zie figuur 1). Die data-tsunami komt er dus aan. Net zoals de snelheid waarmee computers kunnen rekenen iedere twee jaar verdubbelt (Moore s wet), zo verdubbelt ook de hoeveel data in iets minder dan twee jaar. De data-berg is zo groot dat het onmogelijk is om deze door mensen te laten inspecteren. We moeten dit dus aan slimme algoritmen overlaten. Maar hoe ontwerp je een slim algoritme? Dit is het domein van machine learning (vrij vertaald: kunstmatig leren), het onderwerp van mijn leerstoel. Naast sociologische oorzaken zijn er drie technologische redenen te bedenken waarom big data nu zo in de aandacht staat: 1. De data explosie VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN 5

2. De enorme computerkracht 3. Sterk verbeterde algoritmen om deze data te analyseren. Het samenkomen van deze drie factoren gaat het eindelijk mogelijk maken om de hooggespannen verwachtingen over kunstmatige intelligentie uit de jaren 60 waar te maken. Misschien niet precies zoals we ons hadden voorgesteld met op mensen lijkende robots, maar op een manier die misschien nog wel veel verstrekkender is. Met digitale artsen die beter patiënten kunnen behandelen dan menselijke artsen. Met digitale advocaten die beter in staat zijn om u in een strafzaak te verdediging dan menselijk advocaten, met zelfrijdende auto s die geen ongelukken meer maken, met een digitale politie die heel efficiënt misdaad kan opsporen of kan voorkomen en ga zo maar door. Om een analogie van Vance Packard te gebruiken: een mes in de handen van een chirurg redt levens, maar datzelfde mes in de handen van een misdadiger neemt levens. Het zou dan ook naïef zijn om de gevaren van de dataficatie van onze samenleving te ontkennen: privacyschendingen, misbruik van persoonsgegevens, discriminatie, het trekken van verkeerde conclusies, de ontmenselijking van de zorg, de verdringing van arbeidsplaatsen door automatische systemen en ga zo maar door. Big data staat dus voor geweldige mogelijkheden maar tegelijkertijd ook voor niet te onderschatten gevaren. Deze ontwikkelingen tegen houden is een futiele strijd, analoog aan het tegenhouden van elektriciteit in de 19 e eeuw. Maar er voor zorgen dat de gevaren zoveel mogelijk worden onderkend en ondervangen is wel degelijk mogelijk en verdient onze volle aandacht. 2 Wat is mogelijk met big data? Om het concept big data wat minder abstract te maken laat ik eerst wat voorbeelden de revue passeren. Het eerste voorbeeld komt direct uit de praktijk. In 2013 ben ik met twee masterstudenten en een studiegenoot een nieuw bedrijfje begonnen, Scyfer, dat als doel heeft moderne state-of-the-art machine learning methoden te implementeren in het bedrijfsleven. Onze eerste klant was een grote Nederlandse bank die zijn klanten betere aanbiedingen wilde doen. Deze bank heeft miljoenen klanten en verwerkt miljoenen transacties per dag. Wanneer klanten op hun account inloggen krijgen ze een aanbieding te zien, een nieuwe hypotheek bijvoorbeeld. Er zijn een paar honderd van dat soort producten. Niet iedereen is geïnteresseerd in dezelfde producten. Piet, die 87 jaar oud is, hoeft waarschijnlijk geen nieuwe hypotheek op zijn huis, maar misschien wel hulp bij het beheren van zijn bankrekeningen. 6 MAX WELLING

De bank weet veel over iedere klant: leeftijd, geslacht, samenstelling gezin, inkomen, woonplaats, hoeveel en hoe grote transacties hij/zij in het verleden heeft gedaan enzovoort. Ook kent de bank eigenschappen van de mogelijke producten: prijs, type rekening, looptijd, enzovoort. Bovendien volgt de bank hoe een klant door de verschillende internetpagina s heen navigeert, en met name hoe hij/zij heeft gereageerd op eerdere aanbiedingen. Al deze informatie kan gebruikt worden om preciezere persoonsgerichte aanbiedingen te doen. Bijvoorbeeld, als Kees, een getrouwde man van 85, positief heeft gereageerd op een aanbieding van de bank om hem te helpen zijn geld te beleggen, dan heeft deze zelfde aanbieding ook een grote kans van slagen bij Piet van 87. U snapt nu misschien ook waarom supermarkten maar al te graag willen dat u die bonuskaart gebruikt. Nog een voorbeeld. Stel dat we alle medische gegevens van iedereen centraal beschikbaar hebben voor analyse. Dat wil zeggen, alle bezoekjes naar de dokter, de symptomen, de diagnose, de behandelingen en medicijnen, het eindresultaat van de behandeling, maar ook persoonlijke gegevens zoals gewicht, bloeddruk, suikergehalte, huidskleur, aantal kanker gevallen in de directe familie, en in het meest extreme geval ook de genetische informatie. Met al deze gegevens zouden we voor iedereen persoonlijk heel precies diagnoses kunnen stellen en medicijnen of therapieën aanbevelen. Anders dan nu het geval is kunnen we dan de werking van medicijnen zeer nauwkeurig bepalen: onder welke omstandigheden werkt welke cocktail van medicijnen het beste voor welke aandoening? Het is in deze zin dat we kunnen spreken van een datascope (figuur 2) als metafoor van de microscoop, die veel dieper kan doordringen in het woud van complexe relaties tussen persoonsgebonden medische eigenschappen, ziektes, medicijnen en/of therapieën en andere externe factoren zoals geografische locatie. Figuur 2 VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN 7

Ten slotte een voorbeeld over veiligheid. In Los Angeles doet de politie aan predictive policing, ofwel het voorspellen waar de volgende golf aan criminaliteit zal plaatsvinden en deze voorkomen door er meer politieagenten te laten surveilleren. Dit blijkt mogelijk omdat er structuur zit in de manier waarop golven criminaliteit zich door een stad heen bewegen, niet veel anders dan de geografische verdeling van naschokken die volgen op een aardbeving. In Los Angeles heeft dit geleid tot een vermindering van 26% aan inbraken in het gebied waar deze techniek is toegepast. Recentelijk heeft ook de Nederlandse politie inbraakinformatie vrijgegeven via internet. Deze voorbeelden illustreren dat big data de potentie heeft om een eerlijkere, gemakkelijkere, veiligere en gezondere samenleving te creëren. Maar zo n krachtige technologie kan niet zonder gevaren zijn. Hierover meer in het volgende hoofdstuk. 3 Wat is gevaarlijk aan big data? Bij het lezen van de voorbeelden uit het vorige hoofdstuk bekroop u misschien al een unheimisch gevoel. Op welke manieren kan de datascope tegen ons gebruikt worden? Gaat de dataficatie van onze samenleving niet veel te ver? Leidt big data niet tot George Orwell s big brother? Laten we een aantal doemscenario s doornemen. Stel een verzekeringsmaatschappij weet de toekomstige centrale patiënten databank te hacken en krijgt toegang tot alle medische gegevens van alle Nederlanders. Daaruit kan zij een kans berekenen dat iemand binnen 10 jaar ernstig ziek wordt. Het zou dan heel verleidelijk zijn om deze mensen een verzekering te weigeren. Of neem het voorbeeld van predictive policing. Stel dat de politie, gebruik makende van sociale achtergrond, genetische informatie, crimineel verleden enz. op persoonlijk niveau kan voorspellen wat de kans is dat iemand in de toekomst een misdaad begaat. Mag de politie met die informatie iemand arresteren voordat hij/zij die misdaad begaat? Dit scenario is mooi verbeeld in de film Minority Report waar een politieafdeling wordt beschreven die zich bezig houdt met pre-crimes : misdaden die met grote zekerheid in de toekomst worden gepleegd. Ik denk dat de meesten onder ons het onwenselijk vinden om verdachten van toekomstige misdaden maar vast te arresteren. We zien dus dat privacyschendingen en het misbruik van gevoelige informatie op de loer liggen. Ik zie ook nog twee minder genoemde gevaren. Het eerste gevaar is dat we verkeerde conclusies gaan trekken uit data die gemakkelijk op internet te oogsten zijn. Stel we willen weten hoeveel mensen zich zorgen maken over privacy schendingen van de binnenlandse veiligheids- 8 MAX WELLING

dienst. Als we op internet zoeken vinden we heel veel bezorgde tweets, blogs, chats, enzovoort. De mensen die zich geen zorgen maken laten zich over het algemeen niet horen. Dit noemen we selectie bias, omdat de steekproef die we nemen niet representatief is voor de hele bevolking. In dit geval vergaren we vooral informatie van mensen die zich druk maken over het probleem en zich ook van dit soort moderne media bedienen. We moeten dus met het trekken van conclusies heel erg oppassen om niet ten prooi te vallen aan deze selectie bias. Ten slotte zie ik een reëel gevaar dat de kunstmatige intelligentie op den duur heel veel banen overbodig gaat maken. Zelfrijdende auto s zouden zomaar alle vrachtwagenchauffeurs hun baan kunnen ontnemen. Het standaardantwoord is altijd dat er weer nieuwe banen bijkomen, maar ik ben er niet zeker van dat dit in de toekomst zo zal blijven. Misschien moeten we er rekening mee houden dat we allemaal wat meer vrije tijd gaan krijgen, en er goed over nadenken hoe we onze samenleving daar naar gaan inrichten. Ik wil ook nog één misverstand noemen voordat ik dit hoofdstuk afsluit. Vaak hoor je dat met big data men alleen nog oog zou hebben voor voorspellingen (wat) en niet meer voor de onderliggende oorzaken (waarom). Dit wordt ook wel het correlatie (wat) versus causatie (waarom) probleem genoemd. Zoeken naar correlaties in plaats van oorzaken kan misschien een verleiding zijn, maar heeft niets met big data te maken. Meer data leidt altijd tot betere inzichten mits men de juiste vragen stelt. Met dezelfde data kan men proberen te voorspellen welke bevolkingsgroepen een grotere kans hebben om in de misdaad terecht te komen, maar kan men ook proberen te achterhalen waarom deze bevolkingsgroepen in de misdaad terechtkomen (bijvoorbeeld door een grotere werkeloosheid). De gulden regel is: meer data is altijd beter dan minder data mits je de goede vragen stelt en de goede algoritmen gebruikt. Concluderend: de datascope is een krachtig instrument waarmee we dieper inzicht kunnen krijgen in allerlei complexe problemen en relaties. Zoals altijd kunnen krachtige technologieën ook misbruikt worden. We moeten daarvoor oppassen en onze maatschappij via wetgeving zo inrichten dat die negatieve aspecten worden beteugeld en ondervangen. We mogen simpelweg niet toestaan dat verzekeringsmaatschappijen discrimineren op medische profielen. We hoeven ook niet toe te laten dat de politie preventief gaat arresteren. Door de snelle ontwikkelingen lopen we hier wellicht wat achter op de feiten, dus dit verdient onze volle aandacht. VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN 9

4 De derde groeiwet De wet van Moore (Moore, 1965) stelt dat ruwweg iedere twee jaar de rekenkracht van computers verdubbelt, voornamelijk als gevolg van de miniaturisering van transitoren, zie figuur 3. Deze wet blijkt al sinds 1970 op te gaan. We zullen dit de eerste groeiwet (van Moore) noemen. Figuur 3 Bron: Intel De explosie van data blijkt ook aan eenzelfde wetmatigheid onderhevig. Ook hier geldt dat ruwweg iedere twee jaar de hoeveelheid data verdubbelt. We zullen dit de tweede (big data) groeiwet noemen. Ik stel hier dat er waarschijnlijk nog een derde groeiwet actief is. Deze derde wet beschrijft de exponentiële groei van de capaciteit van de modellen die onderzoekers gebruiken. Simpele modellen hebben maar een klein aantal vrijheidsgraden (ook wel parameters genoemd) terwijl complexe modellen heel veel vrijheidsgraden hebben. De taak van de onderzoeker is om de vrijheidsgraden zo te kiezen dat het resulterende model de geobserveerde data zo goed mogelijk beschrijft. Dit gebeurt automatisch via zogenaamde leeralgoritmen die in het vakgebied machine-learning worden ontwikkeld. 10 MAX WELLING

Tijdens mijn bezoek aan Google en Yahoo in 2012 vernam ik dat men daar nu modellen traint met meer dan 10 miljard parameters! Dit was ondenkbaar toen ik in 1998 tot het veld toetrad. Ik wil mezelf niet branden aan een precieze voorspelling van het aantal jaar dat nodig is voor een verdubbeling van de modelcapaciteit (het aantal vrije parameters), maar het zou me niks verbazen als dat ook rond de twee jaar is. Ter illustratie, in 1988 had het state-ofthe-art neurale netwerk NetTalk 18,000 parameters. Dat ijkpunt gecombineerd met de omvang van de hedendaagse modellen van 10 miljard parameters leidt tot een verdubbeling iedere één en een kwart jaar (maar dit getal moet met een flinke korrel zout worden genomen). In figuur 4 heb ik de exponentiële groei van het aantal parameters van neurale netwerken (zie hoofdstuk 7) geplot. Dit is een zogenaamde log-log plot, wat betekent dat een rechte lijn met exponentiële groei overeenkomt. Figuur 4 Het menselijk brein heeft ongeveer 100 triljoen synapsen. Synapsen reguleren het gemak waarmee één neuron zijn informatie doorgeeft aan zijn buurman. Synapsen zijn net als vrije parameters in een model aangezien het brein de sterkte van deze synapsen aanpast aan de nieuwe informatie die via de zintuigen binnenstroomt. Als we uitgaan van een verdubbeling iedere twee jaar dan VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN 11

zal het nog 26 jaar duren voordat onze modellen hetzelfde aantal vrije parameters hebben als ons brein, zie figuur 4. Neuronen zijn hele langzame rekenaars: zij hebben tenminste één milliseconde nodig om een signaal door te geven. Als we ooit een kunstmatig brein bouwen met evenveel transistors en connecties als in het menselijk brein, dan zal deze misschien evenveel informatie kunnen bevatten als ons brein maar wel vele ordes van grootte sneller kunnen rekenen. Maar goed, aan dat laatste feit waren we eigenlijk al gewend. De derde groeiwet is in principe consistent met de eerste wet van Moore. We hebben immers exponentieel groeiende rekenkracht nodig om een exponentieel groeiend aantal parameters te leren. Maar de derde groeiwet lijkt niet consistent met de tweede groeiwet. De reden van deze paradox is dat de hoeveelheid nuttige informatie in data veel kleiner is dan de hoeveelheid data zelf. Figuur 5 We kunnen ons ruwe data voorstellen als gouderts, zie figuur 5. De nuttige informatie is dan het goud zelf dat uit de erts moet worden gewonnen met de 12 MAX WELLING

gereedschappen van de machine learning. Het overgebleven gruis komt overeen met nutteloze informatie, ofwel ruis. De term datamining kan dus vrij letterlijk worden geïnterpreteerd als het bevrijden van nuttige informatie uit data. 5 Nuttige informatie Claude Shannon introduceerde in 1949 een rigoureuze definitie van het concept informatie (Shannon, 1948). Men wint één bit aan informatie als men antwoord krijgt op één ja/nee vraag waarvan men daarvóór geen benul had van het antwoord. Bijvoorbeeld, Lieke gooit een munt op en laat niet zien of die kop of munt was gevallen. Nadat Lieke mij vertelt hoe het muntje was gevallen heb ik precies 1 bit aan informatie ingewonnen. Neem nu een plaatje met 100 pixels die de waarde 0 of 1 kunnen aannemen. Als alle pixels onafhankelijk van elkaar met een kans van een half de waarde 0 of 1 aannemen zeggen we dat het plaatje 100 bits aan informatie bevat (zie figuur 6-C). Figuur 6-A daarentegen bestaat helemaal uit pixels die allemaal de waarde 0 aannemen. Dit plaatje representeert veel minder dan 100 bits. Figuur 6 A B C We kunnen deze intuïtie preciezer maken door ons voor te stellen dat Sera het plaatje naar Eline moet sturen. Hoeveel bits heeft Sera nodig om alle informatie over te sturen? In het eerste geval heeft ze weinig keus: ze moet voor alle 100 pixels zeggen of ze de waarde 0 of 1 hadden, 100 bits dus. Maar in het tweede geval kan ze alle informatie in één zin stoppen: alle bits hebben waarde 0. Nu moet Sera natuurlijk wel deze zin opsturen en ook dat is informatie, maar de hoeveelheid bits is onafhankelijk van de grootte van het plaatje. De zin alle bits hebben waarde 0 noemen we het model. Dus in het eerste geval is er geen model dat ons kan helpen om het plaatje efficiënter te coderen, VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN 13

terwijl in het tweede geval alle informatie met een heel simpel model kan worden beschreven. Echte data heeft een complexiteit die ergens tussen deze twee extremen in ligt, zoals in figuur 6-B. Gedeeltelijk kunnen we de informatie comprimeren door een model te gebruiken, maar er blijven ook een hoop bits nodig om de afwijkingen van dit model te beschrijven (pixel 12 is 1 i.p.v. de 0 die het model voorspelde). De informatie die niet met een model te vangen is noemen we de ruis. Deze informatie is niet nuttig in de zin dat we er niets mee kunnen voorspellen. De informatie die we met een model kunnen beschrijven is wel nuttig want daar kunnen we wel voorspellingen mee doen. Het is de taak van de modellenbouwer om de nuttige informatie te scheiden van de ruis, en deze op te slaan in de parameters van het model, zie figuur 7. Figuur 7 De hoeveelheid nuttige informatie groeit veel langzamer dan de totale hoeveelheid informatie in data. We observeren dus een afnemende meerwaarde aan informatie als we observaties toevoegen: het 1 miljoenste data-punt voegt veel minder voorspellende waarde toe dan het 100 e data-punt. De metafoor 14 MAX WELLING

van de goudmijn helpt ons dit weer te begrijpen: hoe langer we in dezelfde goudmijn graven naar goud hoe moeilijker het wordt het goud te delven. Immers, de grote brokken zijn er in het begin al uitgevist, en de mijn raakt op den duur uitgeput. We hebben de paradox nu dus scherp voor ogen. Ondanks het feit dat de hoeveelheid ruwe data exponentieel groeit (de tweede groeiwet), groeit de hoeveel nuttige informatie in die data veel langzamer. Waarom groeit de complexiteit (het aantal vrije parameters) van modellen dan toch exponentieel (de gepostuleerde derde groeiwet)? De huidige modellen lijken dus een enorme overcapaciteit te hebben om de hoeveelheid nuttige informatie in de data op te slaan. Modellen met zo n overcapaciteit lopen het gevaar om te overfitten. Ze gaan proberen deze overcapaciteit te vullen met ruis (de informatie zonder voorspellende waarde). En helaas kunnen modellen die overfitten minder goed voorspellen. Ik heb deze conclusie in figuur 8 samengevat. Figuur 8 In de metafoor van de goudmijn komt dit neer op de volgende situatie. Om het goud op te slaan heb ik een enorme silo aangeschaft. Maar deze silo is veel te groot, namelijk groot genoeg om niet alleen het goud maar ook alle gouderts in op te slaan. De machines die de silo vullen hebben de neiging de silo helemaal vol te storten, wat betekent dat er naast het pure goud ook een hoop gruis in de silo terechtkomt. Een grote silo is niet alleen duur, door de aanwezigheid van het gruis is het ook moeilijk om bij het goud te komen. VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN 15

6 Overfitting Het begrip overfitten is het centrale concept in machine learning. Men kan het zich voorstellen als een geheugen dat te goed werkt. Stel je voor dat je 1000 plaatjes van verschillende stoelen te zien krijgt. Iemand met een perfect geheugen onthoudt alle details van alle stoelen. Als we hem een plaatje van een stoel laten zien die hij al eens eerder heeft gezien dan roept hij tevreden: dat is een stoel! Maar laat je hem een plaatje zien van een stoel die iets anders is dan één van die 1000 voorbeelden, dan raakt hij in de war. Iemand met een slechter geheugen probeert eigenschappen te vinden die alle stoelen gemeen hebben: een leuning, een zitvlak, poten etc. Bij het zien van de nieuwe stoel herkent hij deze eigenschappen en concludeert dus dat dit ook een stoel moet zijn. Een goed model moet dus alleen de essentiële eigenschappen onthouden, en de rest vergeten. (Dat het generaliseren van kennis te maken heeft met slim vergeten is goed nieuws voor een hoop vergeetachtigen zoals ikzelf.) Op eenzelfde manier kan een computer ook heel makkelijk onthouden wat je er instopt. Maar dit is heel wat anders dan een computer die goed kan generaliseren naar nieuwe input en goed kan voorspellingen kan doen. Goede modellen zoeken naar nuttige informatie: abstracte concepten om de data te beschrijven. Het concept stoel is natuurlijk zo n abstractie. We zijn continue bezig met nieuwe concepten te formuleren om de wereld om ons heen beter te begrijpen. Een concept is niets meer dan het extraheren van de nuttige informatie en het vergeten van ruis. Leren is dus equivalent aan abstraheren en conceptualiseren, aan het wegfilteren van de ruis en aan het comprimeren van de data zodat alleen nuttige informatie achterblijft. Om te kunnen leren moeten we aannames maken. In het voorbeeld hierboven waren onze aannames dat leuningen en zitvlakken belangrijke eigenschappen zijn die een stoel definiëren. Deze aannames noemen we inductieve bias. Je leest nog wel eens dat iemand een nieuw leeralgoritme heeft verzonnen dat aannamevrij is. Neem van mij aan dat dit onzin is. Er zijn altijd verborgen aannames. Zonder aannames kan je niet generaliseren. De lakmoestest voor een goed model is zijn voorspelkracht. Alleen goede modellen kunnen voorspellingen doen op nieuwe, nooit eerder geziene data. Maar test een model nooit op de data die het al eerder heeft gezien, want het onthouden van data is geen kunst. Voorspellen is ook wat ons brein doet. Als de voorspellingen goed zijn merk je niks, maar als ze eens een keer falen dan merk je wel degelijk dat je onbewust een voorspelling deed. Een goed voorbeeld is die keer dat je het melkpak uit de koelkast pakte en je arm ineens omhoogschoot. Je voorspelling omtrent de hoeveel melk in dat melkpak zat er naast en je spieren hadden zich te hard aangespannen. 16 MAX WELLING

Maar waarom leidt overfitten eigenlijk tot verminderde voorspelkracht? We illustreren dit eerst met figuur 9. We willen een curve door de punten trekken om hun relatie zo goed mogelijk te beschrijven. Als we een rechte lijn trekken (2 vrije parameters) dan is de bias groot en de fit dus slecht. Als we een heel flexibele curve gebruiken met heel veel vrije parameters dan gaat de curve precies door alle punten maar de fit is intuïtief toch ook erg slecht omdat we niet verwachten dat de niet geobserveerde punten op deze curve zullen liggen. Het optimum zit ergens in het midden. Figuur 9 Om de relatie tussen overfitten, inductieve bias en voorspelkracht verder te verduidelijken neem ik even aan dat de dataset met N datapunten die wij tot onze beschikking hebben er maar één uit vele mogelijke datasets met N datapunten is. We stellen ons het model dat we leren voor als een pijl die we in een roos willen schieten, zie de figuur 10. Schieten we in de roos dan is het model perfect, schieten we er flink naast dan is het een slecht model met weinig voorspelkracht. Als we een heel simpel model gebruiken (met heel weinig vrije parameters) dan maken we impliciet sterke aannames (een sterke inductieve bias). Deze bias kan natuurlijk precies goed zijn, maar in het algemeen is de wereld veel ingewikkelder dan we met een simpel model kunnen bevatten. We zullen dus in alle waarschijnlijkheid flink naast de roos schieten en slechte voorspellingen doen. We noemen dit underfitten. Als we ons nu voorstellen dat we ook de beschikking hadden over nog 100 andere datasets met N datapunten, en we trainen ons simpele model ook met deze 100 andere datasets dan krijgen we 100 verschillende voorspellingen. De pijlen komen dus op verschillende plekken terecht. Maar omdat het model zo simpel is, verandert er ook niet veel aan de voorspellingen, en de pijlen landen ongeveer in hetzelfde gebied. Dit correspondeert met de rode kruisjes op het linkerbord in figuur 10. We zeggen dat de variantie klein is. VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN 17

Figuur 10 Nu het omgekeerde geval: een model met heel veel vrije parameters. De inductieve bias is nu klein want we kunnen hele complexe functies beschrijven. Maar als we kijken naar de variatie die ontstaat als we het model trainen op de 100 verschillende datasets van ieder N datapunten, dan zien we een enorm verschil: de variantie is groot. Dit correspondeert met de rode kruisjes op het rechterbord in figuur 10. Dit komt omdat het algoritme nu zelfs de kleinste details van de dataset probeert te fitten. Het fit dus de ook de ruis die geen enkele voorspelkracht heeft. Het model lijdt aan overfitting. Overfitting is dus equivalent aan een grote variantie in de voorspellingen. De conclusie is dus dat zowel underfitten en overfitten leiden tot slechte voorspellingen. Zoals zo vaak in het leven, moeten we op zoek naar de gulden middenweg. De filosofie dat we het simpelste model moeten kiezen dat de data nog goed beschrijft heet ook wel Occam s scheermes. Maar de realiteit is iets ingewikkelder want het is niet duidelijk hoe goed nog goed genoeg is; complexere modellen fitten immers de trainingsdata beter. Maar er zijn gelukkig goede methoden ontwikkeld om toch de juiste balans te vinden. Terug naar de paradox. De derde groeiwet laat zien dat onderzoekers juist wel hele complexe modellen gebruiken. Hoe vermijden ze dan toch overfitten? Een hele elegante methode, die gebaseerd is op de wijsheid van de menigte zal ik nu uitleggen. 18 MAX WELLING

7 Wijsheid van de menigte Probeer het volgende experiment eens thuis. Stel u wilt de hoogte van de Eiffeltoren weten. Vraag dan aan 101 mensen (of een ander oneven aantal mensen) om deze waarde te schatten, ongeacht of ze er veel of weinig vanaf denken te weten. Ze mogen niet met elkaar overleggen. Sorteer alle schattingen van klein naar groot en gebruik de 51e schatting (de middelste schatting) als je antwoord. Wat blijkt? Bijna altijd levert deze procedure een heel precies antwoord op, bijna net zo precies als de beste schatting uit het rijtje (maar je weet natuurlijk niet van te voren wat de beste schatting is). In de volksmond heet dit de wijsheid van menigte. Wat nog beter blijkt te werken is als je de menigte laat gokken met geld. Mensen die heel zeker zijn van hun antwoord zijn bereid veel geld in te zetten en hun stem weegt dan ook zwaarder mee in het gewogen gemiddelde. Je kan hier aan meedoen op websites die prediction markets worden genoemd. De filosofie is niet heel anders dan die van de aandelenmarkt waar mensen aandelen kopen en verkopen en zo heel precies gezamenlijk de werkelijke waarde van een bedrijf bepalen. In het vakgebied machine learning bestaat een analoge methode om betere voorspellingen te bewerkstelligen. We laten nu niet mensen maar algoritmen voorspellingen doen en nemen net zoals hierboven is beschreven de middelste waarde of het gemiddelde van alle voorspellingen. Vaak zien we dat hoe meer verschillende algoritmen meedoen, des te beter deze gecombineerde voorspelling wordt. Dit fenomeen werd heel duidelijk toen het Amerikaanse bedrijf Netflix een competitie uitschreef waar de winnaar maar liefst 1 miljoen dollar kon winnen. De participanten moesten het recommender systeem van Netflix dat films aan klanten aanbeveelt met tenminste 10% verbeteren. Het bleek een enorm succes. Meer dan twintigduizend teams streden drie jaar lang en VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN 19

verbeterde uiteindelijk Netflix s eigen systeem met meer dan 10%. Wat bleek? Het winnende team had meer dan 200 verschillende modellen getraind en hun voorspellingen op een slimme manier gecombineerd. De wijsheid van de menigte had gezegevierd. Deze methode noemen we ensemble learning in machine learning (Breiman, 1996). Het is niet heel moeilijk om te begrijpen waarom deze methode zo succesvol is. We gaan hiervoor weer even terug naar het verhaal over bias en variantie. Als we een heleboel modellen trainen die allemaal heel flexibel zijn dan hebben die modellen een kleine bias maar een grote variantie. Maar als deze modellen onafhankelijke voorspellingen doen, dan is er voor de fout die model A maakt ook een model B dat precies de omgekeerde fout maakt, en de fouten vallen tegen elkaar weg als we de voorspellingen middelen. Middelen vermindert dus de variantie en helpt tegen overfitten. Dit fenomeen is duidelijk te zien in figuur 10. De twee blauwe kruisjes stellen het gemiddelde voor van alle rode kruisjes. In het rechterplaatje waar de modellen overfitten zien we duidelijk dat het gemiddelde blauwe kruisje veel dichter bij de roos zit dan de rode kruisjes. We hebben nu een sterk argument in handen om de paradox van de derde wet op te lossen. We kunnen best heel grote flexibele modellen trainen, als we daarna maar door het middelen van de voorspellingen het overfitten tegengaan. Dit is een vorm van regularisatie, wat neer komt op het verkleinen van de capaciteit van een model, zodat de ruis er niet in past. Het alsof je een dubbele bodem in je silo legt: van buiten ziet de silo er nog steeds even groot uit, maar er past toch niet meer zoveel in. Er zijn ook andere methoden om een model te regulariseren. Bijvoorbeeld, we kunnen proberen ervoor te zorgen dat voor iedere voorspelling maar een klein deel van het model mag worden geactiveerd (dit heet sparsity ), of we kunnen eisen dat een model nog steeds goed werkt als we de data een klein beetje veranderen (dit heet robustness ). De conclusie is dus dat we wel degelijk hele complexe modellen met heel veel vrije parameters kunnen trainen als we er maar op de één of andere manier voor zorgen dat die overcapaciteit wordt weggeregulariseerd. We hebben vrij abstract over modellen gesproken tot dusver. Maar wat is nou een goed voorbeeld van een model dat we willekeurig complex kunnen maken? In het volgende hoofdstuk zal ik het neurale netwerk verder uitlichten. Dit model heeft een interessante geschiedenis omdat het aan de wieg stond van het vakgebied kunstmatige intelligentie, vervolgens twee keer in diskrediet is geraakt en nu opnieuw reïncarneert onder de naam deep learning. 20 MAX WELLING