Het gebruik van datamining als predictive analytic voor dienstverleners

Transcriptie

1 Het gebruik van datamining als predictive analytic voor dienstverleners Juni 2014 Bachelor scriptie Informatiekunde Faculteit der Natuurkunde, Wiskunde en Informatica Universiteit van Amsterdam J.R. Tromp Student Studentnummer: dr. M.W. van Someren Begeleider

2 Inhoudsopgave 0. Samenvatting Inleiding Aanleiding Doelstelling Onderzoeksvraag Vraagstelling Deelvragen Relevantie Methode Data Datasets Meting Data Machine Learning MultilayerPerceptron Overlay data Gebeurtenissen Procedure One-step-ahead voorspelling Resultaten Conclusie Discussie Begrippen Bibliografie Bijlagen Bijlage 1 WEKA correlaties BillableHours Bijlage 2 WEKA configuratie Basis instellingen MLP Configuratie Geavanceerde configuratie Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 2

3 0. Samenvatting Datamining is een breed onderzoeksveld in het domein van computer science en artificial intelligence. Datamining technieken kunnen gebruikt worden om interessante patronen te vinden in datasets. Grote bedrijven zoals Albert Heijn maken al langer gebruik van machine lerende datamining technieken en kunnen daardoor in hun bedrijfsproces betere beslissingen maken. Kleine dienstverleners hebben vaak weinig middelen, en trachten deze daarom zo efficiënt mogelijk te gebruiken. Datamining kan helpen om patronen te herkennen en daarmee inzicht te geven in bedrijfsprocessen. In dit onderzoek wordt gekeken naar de waarde van datamining voorspellingen in een casus. De casus is een eerstelijns hulpverleningspraktijk. Er wordt onderzocht of het mogelijk is om het maandelijkse aantal declareerbare uren te voorspellen. Met behulp van het programma WEKA 3.7 en de Time series and forecaster plugin worden een aantal voorspellingen gedaan en worden de resultaten geëvalueerd. De datasets waarmee wordt geëxperimenteerd bevat onder andere de prestaties van de praktijk per maand, de website en advertentie-resultaten. Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 3

4 1. Inleiding Scienta Potentia Est - Francis Bacon (1597) Kennis is macht aldus Francis Bacon. Hoe meer men weet, hoe beter men kan handelen. Als bedrijf kan men het beste grip krijgen op bedrijfsprestaties door de klanten te kennen, de omgeving te begrijpen en de volgende stap van de concurrent te weten. Het is dus logisch dat grote bedrijven verschillende bronnen gebruiken om voorspellingen te doen en daarmee hun toekomst veilig te stellen. Albert Heijn maakt op grote schaal gebruik van een bonuskaart systeem, waarmee men informatie van de koper verkrijgt in ruil voor een kleine bonus. De data die men hiermee vergaart kan met behulp van datamining technieken omgezet worden naar informatie en, uiteindelijk, naar kennis. Kennis die men gebruikt om beter op nieuwe en bestaande klanten in te spelen en om de concurrentie het hoofd te kunnen bieden. In dit verslag komen een aantal technische termen voor. Deze termen worden in de tekst soms cursief gemarkeerd. In hoofdstuk 6 worden een aantal van deze begrippen nader toegelicht Aanleiding Voor grote bedrijven is het een must om bedrijfsprocessen te beheersen door voorspellingen te doen, om zo hun positie te versterken. Sinds de jaren 90 is er over de gehele linie een sterke vraag geweest naar accurate en betrouwbare kennis voor bedrijfsvoering en het ontdekken van nieuwe inzichten voor besluitvorming. Het gebruik van business intelligence tools is de laatste jaren nog nooit zo hoog geweest als reactie op de onzekerheid van de economische crisis (Larose, 2004). Datamining bestaat relatief gezien nog niet zo lang, het is daarom ook nog niet zo lang dat universiteiten vakken en opleidingen zijn gaan ontwikkelen op het gebied van datamining (Larose, 2004). De invloed van datamining is nog niet overal binnen de dienstverlening doorgedrongen, maar dat zal in de toekomst wel steeds meer gaan gebeuren. Voor kleine bedrijven is het nog minder vanzelfsprekend om actief bedrijfsprocessen te beheersen. Kleine en zelfstandige dienstverleners houden zich amper bezig met het voorspellen van bedrijfsprocessen. Men heeft niet de kennis noch de middelen om hier op in te zetten, daarbij komt dat het vaak onduidelijk is wat er tegenwoordig allemaal mogelijk is. Hierdoor loopt men de kans mis om bedrijfsprocessen te optimaliseren en te zorgen voor een stabielere, en dus betere, bedrijfsvoering. Men houdt vaak wel bij wat de prestaties en bedrijfsresultaten zijn, maar men kan er moeilijk beleid op afstemmen omdat er vaak geen directe patronen zichtbaar is. In dit onderzoek wordt een casus besproken. Het bedrijf dat word beschouwd is een praktijk voor eerstelijns hulpverlening. Hier zijn twee personen werkzaam op 2 verschillende Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 4

5 locaties. De bedrijfsprestaties van deze casus vormen de datasets voor dit onderzoek Doelstelling In dit onderzoek wordt gekeken naar de mogelijkheden van datamining technologieën, om zinnige conclusies te kunnen trekken uit de bestaande bedrijfsprestaties. Door gebruik te maken van lerende algoritmes op het gebied van datamining kan informatie worden vergaard uit - op het eerste oog - nietszeggende data. Kennis en inzicht zouden een ondernemer kunnen helpen om een betere beslissing te nemen. De Leeuw (1982) gaf 32 jaar geleden al aan dat informatie een van de belangrijkste middelen is die het management tot zijn beschikking heeft, dit gezien het feit dat de analyse van informatie helpt bij effectieve besluitvorming. Door datamining in te zetten kunnen bepaalde relaties aan het licht worden gebracht, die anders niet ontdekt zouden worden. De doelgroepen voor dit onderzoek zijn ondernemers en dienstverleners, die meer willen weten over de mogelijkheden van datamining technieken en de effectiviteit ervan. Verder is dit onderzoek gericht op Informatiekunde studenten die zich specialiseren in bedrijfskundige aspecten. Dit verslag is als volgt opgebouwd: in paragraaf 2.1 Data worden de datasets besproken en in paragraaf 2.2. Meting de gebruikte software en technieken. Deze paragrafen zijn bedoeld om een uitleg te geven over de gebruikte componenten in de experimenten en kan door een dataminingexpert wellicht worden overgeslagen. De uitvoering van de experimenten wordt in paragraaf 2.3. Procedure beschreven. Er is in de 2 e bijlage getracht om aan te geven welke stappen nodig zijn om tot eenzelfde experiment te komen. Vanaf hoofdstuk 3. Resultaten worden de vindingen besproken en de (deel)vragen beantwoord Onderzoeksvraag De belangrijkste voorwaarde voor de onderzoeksvraag is dat de experimenten resultaten opleveren die aantoonbaar inzicht geven om te gebruiken in bedrijfsprocessen. Om aan te tonen welke voordelen datamining zouden kunnen hebben, is de volgende vraagstelling opgesteld Vraagstelling Op welke manier kunnen datamining technieken ingezet worden voor het creëren van nieuwe beslissing gevende inzichten voor kleine dienstverleners? Om antwoord te geven op deze vraagstelling zijn de volgende deelvragen opgesteld Deelvragen Deze deelvragen zijn specifiek en meetbaar zodat deze met een experiment onderzocht kunnen worden: 1. Kan het aantal BillableHours voor het volgende kwartaal nauwkeurig voorspeld worden m.b.v. de WEKA forecasting plugin? 2. In welke mate hebben online en offline advertenties invloed op de voorspelling in deelvraag 1? 3. Heeft de verzekering van een patiënt invloed op het aantal zittingen? Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 5

6 1.4. Relevantie Door in dit onderzoek specifiek te richten op één casus geeft dit onderzoek informatie over de datamining mogelijkheden op een gedetailleerd niveau. Een breed onderzoek met meerdere casussen is omwille van tijd en verschillen in configuratie niet mogelijk. Echter, als blijkt dat er technieken zijn die bij één casus werken, dan is er een grote kans dat dit ook op andere casussen toepasbaar is. In de dienstensector spelen bij bedrijfsprocessen vaak dezelfde attributen een rol, de voorspellingen in dit onderzoek zijn daarom mogelijk dus ook relevant voor andere beroepsgroepen in de dienstensector. Er is in de literatuur onderzoek gedaan naar praktische toepassingen voor datamining gericht op bedrijfsprocessen. Het merendeel van de literatuur gaat over het ontwikkelen van frameworks en toepassingen voor grote bedrijven. Er lijkt echter nog weinig onderzoek te zijn gedaan naar de bruikbaarheid van datamining op kleine schaal of gericht op dienstverleners. De experimenten in dit onderzoek zijn uitgevoerd op basis van het framework zoals geformuleerd in het werk van Fayyad, Piatetsky-Shapiro (1996). Dit framework dwingt de dataminer bij elke stap een bepaald aantal keuzes te maken. Volgens Yang, et al. (2006) wordt Time Series datamining bemoeilijkt door de ruis, die inherent is aan Time Series data. In paragraaf Overlay word beschreven wat er is gedaan om dit probleem te omzeilen. Weka 3.7 Forecast plugin is het meest rechtse tabblad Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 6

7 2. Methode De onderzoeksfunctie van dit onderzoek is evaluerend, in dit onderzoek wordt geprobeerd een waarde te geven aan het gebruik van datamining technieken. Het onderliggende doel is te kijken of de technieken effectief genoeg zijn om iets over de werkelijkheid te kunnen zeggen. Verder wordt er gekeken naar verschillende beschikbare technieken en configuraties om de effectiviteit vast te stellen. In deze zin is de functie van dit onderzoek vergelijkend. Het is een kwantitatief onderzoek, voor het vaststellen van de effectiviteit is gebruik gemaakt van zo veel mogelijk data Data De datasets die in dit onderzoek gebruikt worden zijn afkomstig uit de boekhouding van de casus, de data zijn beschikbaar vanaf Voor dit onderzoek wordt gebruik gemaakt van verschillende datamining technieken die onder zijn gebracht in het programma WEKA 3.7 van de Universiteit van Waikato. De datasets zijn in gestructureerd in het ARFF formaat, waardoor deze direct te bruikbaar zijn in WEKA. In de volgende paragrafen worden de verschillende datasets besproken Datasets De Performance dataset is de primaire bron voor dit onderzoek en geeft informatie over het totaal aantal gewerkte uren en het aantal nieuwe aanmeldingen (eerste consulten) per maand in de periode januari 2007 t/m april De dataset telt 88 instances, gelijk aan het aantal maanden in deze periode. Alle attributen zijn per maand. Per maand is verder de hoeveel website bezoekers aangegeven, en de hoeveel bezoekers die afkomstig waren van online reclame zoals Adwords campagnes. Deze online advertenties, samen met de maandelijkse kosten van kranten advertenties, worden gebruikt om te bekijken in welke mate reclame invloed heeft op het aantal patiënten. De belangrijkste attributen zijn het aantal patiënten en het aantal nieuwe aanmeldingen in een periode. Alle attributen zijn beschreven in onderstaande tabel. Het primaire doel van de dataset is het aantal BillableHours voor de toekomstige maanden te kunnen voorspellen. Attributen FirstConsults Date AllViewsSiteA AllViewsSiteB PaidViewsSiteA PaidViewsSiteB BillableHours PaidAmountPapers Beschrijving Het aantal nieuwe aanmeldingen Alle maanden van januari 2007 t/m april 2014 in het formaat yyyy-mm-dd Totaal aantal bezoekers op de website van locatie A Totaal aantal bezoekers op de website van locatie B Aantal betaalde Adwords bezoekers op de website van locatie A Aantal betaalde Adwords bezoekers op de website van locatie B Het totaal aantal gefactureerde uren Bedrag in euro s betaald aan advertenties in kranten op verschillende locaties. Het gaat hier om het bedrag in de maand waarin de advertentie geplaatst is. Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 7

8 Naast de primaire performance dataset is er nog de kleinere verzekerings dataset, deze bestaat respectievelijk uit: het geslacht, een van de drie behandellocaties, verzekeraar, het type polis, de eerste behandeldatum en het aantal afspraken per patiënt. Er zijn geen persoonsgegevens opgenomen waardoor de dataset anoniem is. De dataset bestaat uit 69 instances. Het verzekeraar attribuut bevat 20 unieke verzekeraars, al dan niet in combinatie met een van de 4 geregistreerde aanvullende verzekeringen. Het doel van deze dataset is om de verzekering op basis van de andere attributen te voorspellen Meting Data Om in WEKA te kunnen voorspellen hoe de toekomst eruit ziet wordt de Time series and Forecast plugin gebruikt. Dit is nodig omdat WEKA zelf geen perioden in data kan herkennen. Hiervoor moeten Lags (time windows) gecreëerd worden. Een lag beslaat een bepaalde periode zoals een week, maand of kwartaal. De forecast plugin maakt automatisch verschillende lags aan op basis van de dataset. Lags kunnen elkaar completeren, zodat vier kwartalen samen twaalf maanden bevatten. Lags kunnen elkaar ook overlappen, in welk geval de eerste lag januari t/m april kan beslaan en de tweede lag februari t/m mei. Hoe meer lags er zijn hoe groter de kans dat er een patroon te vinden is. Echter, als er te veel lags gebruikt worden ligt overfitting op de loer, door ruis zal dit de kwaliteit van de voorspelling verlagen. De plugin berekent voor alle verschillende lags het gekozen algoritme en voorspelt aan de hand van de uitkomsten de toekomst Machine Learning Zonder datamining is het vaak lastig om diepliggende relaties uit grote datasets te vergaren. De machine learning technieken die in WEKA zijn ingebouwd kunnen ingewikkelde patronen herkennen en zijn voor dit project daarom uitermate geschikt. Welke techniek het beste werkt verschilt per probleem en dataset. Dit onderzoek richt zich op enkele bewezen effectieve algoritmen die goed werken op de besproken datasets, zoals MLP MultilayerPerceptron De MultilayerPerceptron (MLP) is een uitvoering van een neuraal netwerk waarbij het mogelijk is om meerdere nodes te gebruiken in de hidden layer. Door middel van backpropagation krijgen zwakke verbindingen minder waarde dan sterke verbindingen. In het boek Discovering Knowledge in Data, an Introduction to Data Mining (Larose, 2004) staat meer informatie over deze techniek en de begrippen. MLP werkt goed voor deze dataset omdat er geen onderliggend model gedefinieerd hoeft te worden die de dataset beschrijft. Het nadeel van modelloze technieken is dat de relatie tussen attributen niet direct duidelijk word. Dit soort voorspellingen wordt daarom, net zoals het weerbericht, steeds onbetrouwbaarder naar mate de tijd vordert. Door met behulp van overlay data extra informatie toe te voegen, kunnen de onderliggende modellen aan het licht worden gebracht. Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 8

9 Overlay data Omdat modelloze technieken geen onderliggende modellen gebruiken kan het zijn dat bias of ruis invloed heeft op de voorspelling. Yang, et al. (2006) beschrijven dit als volgt in hun zoektocht naar de 10 grootste datamining uitdagingen: Many time- series used for predictions are contaminated by noise, making it difficult to do accurate short-term and long-term predictions [ ] signal processing techniques, such as wavelet analysis and filtering, can be applied to remove the noise. Ter illustratie, een advertentie campagne kan pieken in resultaten veroorzaken. Als hier geen rekening mee wordt gehouden dan zal de MLP fouten maken door het model erop te fitten. Daarom wordt er gebruik gemaakt van overlay data. Er worden dan extra features toegevoegd die bepaalde afwijkingen compenseren en patronen zichtbaar maken. In de experimenten is BillableHours het te voorspellen attribuut, alle overige attributen worden gebruikt als overlay data. De attributen zijn gekozen vanwege hun voorspellende waarde en worden vanuit de literatuur intervention variables genoemd. Als er in een maand minder eerste consulten zijn, dan zullen er naar verwachting ook minder uren gemaakt worden. Ook moeten er externe factoren in beschouwing worden genomen: door de economische crisis die vanaf september 2008 tot op heden heerst zullen de bedrijfsresultaten lager uitvallen dan wanneer er geen crisis was geweest. De effecten van de crisis hebben effect op website bezoeken, daarom is de verwachting dat het aantal website bezoekers iets zegt over bedrijfsprestaties. Online en offline advertenties kunnen ervoor zorgen dat de prestaties tijdelijk hoger zijn dan normaal, door deze als intervention variables te gebruiken wordt er in de voorspelling van BillableHours rekening mee gehouden Gebeurtenissen Bepaalde gebeurtenissen hebben vaak direct invloed op het patroon in de dataset. Het blijkt in deze casus dat de praktijk sterk afhankelijk is van seizoen variatie, zoals vakantieperioden. Vergeleken met de andere maanden worden er in de maand juli weinig uren gemaakt, veel patiënten en zijn dan op vakantie en in sommige perioden is de praktijk enkele weken dicht. Normaal gesproken is de MLP prima in staat dit patroon te herkennen en word dit fenomeen automatisch meegenomen in de voorspelling. Echter, doordat de zomervakantie periode om de zoveel tijd rouleert, kan het zijn dat de MLP niet in staat is dit te herkennen. Dit kan worden opgelost door een extra attribuut aan de dataset toe te voegen dat aangeeft of de betreffende maand een vakantiemaand was. Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 9

10 2.3. Procedure De datamining stappen die zijn gevolgd zijn naar voorbeeld van het model van Fayyad, Piatetsky-Shapiro (1996). Hun framework lijkt op de, door de industrie ontwikkelde, proces modellen zoals CRISP-DM en SEMMA maar gebruiken een taal die meer gericht is op de eindgebruiker (Zorrilla, 2013). In bijlage 3 is de configuratie van WEKA beschreven, er is aangegeven welke waarden zijn gebruikt om tot het resultaat te komen One-step-ahead voorspelling Zoals eerder beschreven worden intervention variables gebruikt, zie paragraaf Overlay data. In dit onderzoek zijn dit: FirstConsults, AllViewsSiteA, AllViewsSiteB, PaidViewsSiteA, PaidViewsSiteB en PaidAmountPapers. Deze variabelen moeten bekend zijn voor de te voorspellen maand. De volgende maand (M+1) word bijvoorbeeld voorspeld op basis van de huidige maand (M) plus de 12 voorgaande maanden (M-12), dan zijn de intervention variables van M+1 nog onbekend. Immers, deze maand moet nog gaan plaatsvinden en bijvoorbeeld de website bezoeken kunnen nog niet zijn waargenomen. Om het aantal BillableHours te kunnen voorspellen moeten dus ook deze intervention variables voorspeld worden. Op het moment van schrijven is het niet mogelijk om dit in WEKA te automatiseren. Hieronder is de recursieve procedure beschreven om tot het resultaat te komen zoals beschreven in dit onderzoek. Men voorspelt de volgende maand telkens op basis van de huidige maand. Als men twee maanden (M+2) wil voorspellen, dan moet hiervoor eerst de volgende maand (M+1) voorspeld worden. Dit heet een one-step-ahead voorspelling. Handmatig ziet het proces er als volgt uit: 1. One-step-ahead voorspelling van BillableHours op basis van de genoemde intervention variables van de laatst bekende maand (M) 2. Per intervention variable een one-stepahead voorspelling op basis van de overige intervention variables plus BillableHours 3. Toevoegen van de verkregen waarden uit bovenstaande stappen voor de nieuwe maand M+1 aan de dataset 4. Dit proces x aantal keer herhalen voor het voorspellen van de maand M+x Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 10

11 3. Resultaten In dit hoofdstuk worden de resultaten van de WEKA forecaster plugin beschreven. De gebruikte dataset en instellingen zijn in bijlage 2 besproken. V1: Kan het aantal BillableHours voor het volgende kwartaal nauwkeurig voorspeld worden m.b.v. de WEKA forecasting plugin? In figuur 1 zijn in het rood de werkelijke waarden voor BillableHours te zien, de blauwe lijn is de MLP geleerde voorspelling. Hoe dichter deze twee lijnen bij elkaar liggen, hoe beter de MLP geleerd heeft en hoe zinvoller de resultaten zijn. Om te controleren of de voorspellingen betrouwbaar zijn, zijn de laatste 10 maanden uit de trainingset gehaald en worden deze maanden feitelijk als testset gebruikt om de effectiviteit te bepalen. Zoals duidelijk te zien is ligt de voorspelling erg dichtbij de werkelijke waarden. De root mean squared error (RMSE) voor de one-step-ahead voorspelling is 3,41. Dat wil zeggen dat de voorspelling voor juli op basis van juni 3,41 boven of onder de werkelijke waarde uit kan liggen. Voor dit onderzoek is dat een zeer acceptabele waarde. Figuur 1 De prestatie van de MLP (blauw) ten opzichte van de werkelijke waarden (rood) De attributen blijken een sterke correlatie te hebben. Date en FirstConsults gecombineerd hebben een correlatie coëfficiënt van r=0,657 op BillableHours met een RMSE van 25,58. Alle attributen samen hebben een correlatie coëfficiënt van r=0,722 en een RMSE van 23,48. Het bewijs van dit resultaat is te zien in figuur 5 en 6 in bijlage 1. Deze gevonden resultaten ondersteunen de voorspelling resultaten van de forecaster plugin, welke op basis van de overlay data rekening houdt met deze gevonden correlaties. Als de overlay data niet word gebruikt ziet het model er heel anders uit en word de fouten marge groter. De effectiviteit van het model neemt drastisch af zoals duidelijk te zien is in figuur 2. Het verschil tussen de voorspelling en de werkelijke waarden ligt tussen de 20 en 60 uur. In figuur 3 is een grafiek van BillableHours te zien mét overlay data, de prestaties zijn duidelijk beter. Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 11

12 Figuur 2 Prestatie zonder overlay data In figuur 3 zijn in het rood wederom de werkelijke waarden voor BillableHours te zien en is de blauwe lijn is de MLP geleerde voorspelling. Het blauwe gebied geeft aan waar de werkelijke voorspelling begint. Zoals goed te zien is volgt de voorspelling het patroon. De voorspelling ligt hoger dan werkelijk het geval is, in het volgende hoofdstuk wordt besproken waarom dit zo is. Figuur 3 Prestatie met overlay data Figuur 1 geeft aan in hoeverre: de MLP geleerd heeft, de werkelijke data correleert, bepaalde patronen te herkennen zijn. Hieronder worden de resultaten weergegeven van de voorspelling van één kwartaal. In figuur 4 zijn de stappen uit de procedure - beschreven in paragraaf toegepast voor de komende vier maanden, deze maanden vallen in het blauwe gebied. Het is duidelijk te zien dat de eerste maanden bijna exact overeenkomen. In februari 2014 is een foute voorspelling te zien, de voorspelde waarde ligt hier 28 uur onder de werkelijke waarde. Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 12

13 Figuur 4 Voorspelling van het volgende kwartaal V2: In welke mate hebben online en offline advertenties invloed op de voorspelling in deelvraag 1? In dit onderzoek is er met de gegeven dataset geen significante correlatie gevonden tussen de online attributen PaidViewsSiteA, PaidViewsSiteB en BillableHours. Er blijkt een zwakke positieve correlatie van r=0,129 te zijn tussen het offline attribuut PaidAmountPapers en BillableHours. Een klein deel van het aantal gefactureerde is dus te verklaren door krantenadvertenties. Verder blijkt er een zwakke positieve correlatie van r=0,319 te bestaan van PaidAmountPapers op AllViewsSiteA en AllViewsSiteB. Dit geeft aan dat er een verband is tussen offline richting online, het aantal website bezoekers kan voor een deel verklaard worden door offline advertenties. V3: Heeft de verzekering van een patiënt invloed op het aantal zittingen? Op basis van de verzekerings dataset is er gekeken naar de relatie tussen de verzekering en het aantal zittingen van patiënten. De andere attributen in de dataset (laatste deel van paragraaf 2.1.1) zijn gebruikt om onderscheid te kunnen maken in persoonseigenschappen, zoals geslacht. Er is een zeer zwakke correlatie van r=0,0021 gevonden tussen de verzekeringen van de patiënt en het aantal zittingen dat de patiënt in totaal heeft gehad. Een mogelijke verklaring van deze zwakke correlatie is het geringe aantal instances in de dataset. Als er een relatie te vinden zou zijn, dan zou er waarschijnlijk een veel groter aantal instances nodig zijn om dit aan te kunnen tonen. Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 13

14 4. Conclusie V1: Kan het aantal BillableHours voor het volgende kwartaal nauwkeurig voorspeld worden m.b.v. de WEKA forecasting plugin? De attributen in de dataset verklaren 52,1% (r = 0,722) van de totale variantie in BillableHours. Een deel wordt verklaard door het attribuut FirstConsults en is daardoor een goede indicator voor het managen van de bedrijfsprestatie. Dit komt waarschijnlijk omdat de aanmelding van een nieuwe patiënt over een langere periode voor een toename in uren zorgt, daarnaast telt dit eerste consult ook direct mee in het aantal gefactureerde uren. Het tellen van de patiënten aan het begin van de maand heeft dus een voorspellende waarde. Naar mate de maand vordert word het steeds duidelijker wat de prestatie van de maand zal zijn. De voorspelling in figuur 3 neigt boven de werkelijke waarden te zitten. Dit komt omdat het model de hoge pieken van de periode voor juli 2011 verwacht en minder waarde hecht aan de lagere periode in Indien er een subset wordt gemaakt van de periode , dan word ook de negatieve trend in deze jaren meegenomen in de voorspelling. De algemene trend die in figuur 3 te zien is, lijkt voor een groot deel overeen te komen met conjunctuur trends zoals het BBP en het consumentenvertrouwen van het CBS. In toekomstig onderzoek zouden deze als extra attributen kunnen functioneren, deze externe bronnen voegen extra informatie aan de dataset toe. De afwijking die in figuur 3 te zien is zou zo wellicht verkleind kunnen worden met deze extra data. Uit figuur 4 blijkt dat datamining technieken zoals MLP de toekomst van een periode zoals een kwartaal met een zekere accuraatheid kan voorspellen. Deze voorspellingen kunnen een cruciale rol spelen in het maken van de juiste voorspellingen. Dit beantwoordt de hoofdvraag op een positieve manier. Er moet wel aangetekend worden dat niet alle perioden even goed voorspeld kunnen worden, er zal altijd een onzekerheid zitten in de voorspellingen en deze onzekerheid zal groter worden naarmate de tijd vordert. Extra onderzoek zou meer inzicht kunnen geven in de houdbaarheid van de voorspellingen en het praktisch gebruik ervan. V2: In welke mate hebben online en offline advertenties invloed op de voorspelling in deelvraag 1? Er blijkt een kleine correlatie (r = 0,129) te zijn tussen krantenadvertenties en het aantal gemaakte uren. Slechts 1,7% van PaidAmountPapers verklaart de totale variantie van BillableHours. Dit wil niet meteen zeggen dat advertenties niet werken of overbodig zijn. Er kan niet verwacht worden dat advertenties direct resultaat hebben, het effect werkt vaak op de lange termijn, op het moment dat een patiënt de advertentie meerdere malen heeft gezien. Het effect op de voorspelling in deelvraag 1 is dus klein, maar dit aantoonbare inzicht is een bruikbaar Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 14

15 gegeven omdat men tijdens het adverteren in het achterhoofd kan houden dat het effect vertraagd is. Verder kan 10,2% (r = 0,319) van de totale variantie van de online betaalde bezoekers (AllViewsSiteA, AllViewsSiteB) verklaard worden door PaidAmountPapers. Krantenadvertenties bepalen dus voor een deel ook het aantal website bezoekers. Als men dus kijkt naar de prestaties van de website dan dient er rekening gehouden te worden met de invloed van krantenadvertenties in een bepaalde periode. V3: Heeft de verzekering van een patiënt invloed op het aantal zittingen? Aangenomen werd dat patiënten met een betere polis meer zittingen konden veroorloven. Dit kwam echter niet uit de resultaten naar voren. Een verklaring voor de resultaten is dat het aantal instances in de dataset te klein was voor een dergelijke voorspelling. Ook is het niet duidelijk of de aanvullende verzekeringen in de dataset compleet zijn. Als in de toekomst de gegevens van gelijksoortige casussen samengenomen zouden worden, dan zou er wellicht een relatie gevonden kunnen worden. Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 15

16 5. Discussie In dit onderzoek is een poging gedaan om een indruk te krijgen van de mogelijkheden en effectiviteit van enkele datamining algoritmen. Het doel was om mensen te informeren die weinig verstand hebben van de mogelijkheden. Indien men enigszins verstand heeft van datamining en met WEKA om kan gaan, dan is het niet moeilijk om de besproken experimenten zelf uit te voeren. De ervaring is wel dat er gemakkelijk fouten gemaakt kunnen worden. Ook kan het interpreteren van de resultaten problemen opleveren. Men kan, bij het gebrek aan specifieke kennis, om deze reden beter een (klein) consultancy bedrijf inhuren die zich met datamining bezighoudt. Zoals aangetoond kan de kennis van eigen bedrijfsprocessen het verschil maken en dus de investering terugverdienen. In de toekomst zullen er meer online datamining services ontstaan. In het onderzoek van Zorrilla, et al. (2013) heeft men gekeken naar de mogelijkheid om niet-experts te laten werken met een online Platform-as-a-Service datamining systeem. Doormiddel van zogeheten templates kan de gebruiker de juiste beslissingen maken. Dit werkt echter alleen voor generieke vraagstukken, voor specifieke problemen zal een datamining specialist ingehuurd moeten worden. Op het vlak van praktische en concrete toepassingen is nog meer onderzoek te verrichten. Een vervolgonderzoek zou grotere kwantiteiten data moeten bevatten evenals fijnmazigere data. Als bijvoorbeeld de te meten attributen op een kleinere schaal waren vastgelegd, zoals per dag in plaats van per maand, zou dit waarschijnlijk bij hebben gedragen aan accuratere voorspellingen en methoden. Verder hadden extra attributen, zoals het aantal vakantie dagen in een maand, meer informatie aan de dataset kunnen geven. Helaas was het niet mogelijk om alle vakantiedagen tot aan 2007 exact terug te vinden. De gegevens in de verzekeringsdataset waren niet representatief genoeg voor een gedegen onderzoek. Het is mogelijk dat er met een grotere hoeveelheid instances in deze dataset wél een resultaat geboekt had kunnen worden. De correlaties tussen de praktijkuren en de advertenties, zoals onderzocht in deelvraag 2, zijn erg zwak. Dit is te verklaren omdat enkel de waarden binnen een maand vergeleken zijn. In vervolgonderzoek zou er gekeken kunnen worden naar het effect van reclame op de bedrijfsprestaties over een langere periode zoals, bijvoorbeeld, een kwartaal. Door de juiste lags te creëren kan er wellicht een betere correlatie gevonden worden. Datamining is een wetenschappelijk onderzoeksveld maar gaat in de praktijk grotendeels over het tweaken van configuraties. Het toevoegen of weglaten van attributen heeft grote effecten op correlaties, om nog niet te spreken over het verschil tussen de verschillende lerende algoritmen. Het vinden van de juiste configuratie kost het Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 16

17 meeste tijd en kan vaak lang geperfectioneerd worden. In dit onderzoek is er gebruik gemaakt van de in WEKA ingebouwde technieken, dit programma is echter constant in ontwikkeling. In het datamining onderzoeksveld blijven ook nieuwe ontwikkelingen plaatsvinden. Andere (nieuwe) technieken kunnen wellicht voor nog betere resultaten zorgen. De resultaten uit dit onderzoek zouden voor een langere tijd geëvalueerd moeten worden om zeker te zijn van de accuraatheid. De modellen zijn pas echt bruikbaar voor business analytics op het moment dat de voorspelling leiden tot de juiste besluitvorming. Op het moment dat de modellen consequent af gaan wijken van de werkelijkheid zal er controle moeten worden uitgevoerd, mogelijk is er een nieuw factor bijgekomen met significante invloed die de resultaten veranderd. Het is dus raadzaam om altijd objectief te blijven controleren of de werkelijkheid nog met de voorspellingen overeenkomt. Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 17

18 6. Begrippen Adwords Adverteer programma van Google. Advertenties met door de adverteerder opgegeven zoekwoorden komen naast de gewone zoekresultaten te staan. De adverteerder betaalt per klik. Artificial Neural Network Computer model geïnspireerd op de neurale netwerken van hersenen. Deze netwerken van nodes (neuronen) kunnen patronen herkennen door te leren welke paden in het netwerk tot het juiste resultaat leiden. Paden die niet het gewenste effect opleveren krijgen doormiddel van backpropagation een lagere waarde. De hidden layer is een laag met een aantal nodes tussen de input nodes en de output node. BBP Bruto Binnenlands Product Business Intelligence tools Technieken en technologieën die data uit operationele systemen en externe bronnen analyseren. De informatie van verschillende bronnen genereert kennis voor het maken van beslissingen in bedrijven. Deze kunnen managers helpen om betere en effectieve beslissingen te nemen. Lagged variable Zorgt voor de relatie tussen de huidige tijd serie en de voorgaande tijd series. In WEKA zorgt deze variabele voor de hoeveelheid tijdseenheden, ook wel windows genoemd. Voor de periodiciteit van een maand wordt er bijv. een lag gemaakt alle maanden in de jaren of per kwartaal Overfitting Beschrijft een fenomeen waar een model fouten of ruis opneemt in plaats van de onderliggende relatie. Overfitting ligt op de loer als het model complexer dan nodig word. Platform as a service Het aanbieden van een computerplatform op een cloud computing netwerk. Het computerplatform bestaat uit verschillende software componenten die samen bepaalde taken op aanvraag kunnen uitvoeren. Root mean squared error (RMSE ) Het gemiddelde verschil tussen de voorspelde en geobserveerde waarden. Kan gebruikt worden om de accuraatheid van een attribuut van forecasting model met een ander model te vergelijken. Hoe kleiner de waarde, hoe groter de accuraatheid. Time series and Forecast plugin Plug-in voor WEKA 3.7, te installeren vanuit de package manager. Deze plug-in neemt een aantal problemen, die met Time series te maken hebben, uit handen. Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 18

19 7. Bibliografie Larose, D. T. (2005). Discovering Knowledge in Data: An Introduction to Data Mining. Wiley. Leeuw, A. d. (1982). Organisaties: management, analyse, ontwerp en verandering. Assen : Van Gorcum. U.M. Fayyad, G. P.-S. (1996). Advances in Knowledge Discovery and Data Mining. Boston: MIT Press. Yang, Q. W. (2006). 10 Challenging problems in data mining research. Journal of Information Technology & Decision Making 5, Zorrilla, M., & García-Saiz, D. (2013, April). A service oriented architecture to provide data mining services for non-expert data miners. Decision Support Systems, 55(1), pp Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 19

20 8. Bijlagen Bijlage 1 WEKA correlaties BillableHours Figuur 5 Figuur 6 Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 20

21 Bijlage 2 WEKA configuratie 2.1. Basis instellingen Voor het voorspellen van het verwachte aantal BillableHours in de komende maanden maken wordt er gebruik gemaakt van de WEKA Time series and Forecast plugin. In de basisinstellingen van deze plugin is BillableHours ingesteld als target, met als parameters het aantal te voorspellen maanden, het Date attribuut als timestamp, en maandelijks als periodicity. Om meer informatie te krijgen over de effectiviteit is ook perform evaluation aangevinkt. In de geavanceerde instellingen is gekozen voor de MultilayerPerceptron MLP Configuratie In het tabblad advanced configuration is bij base learner de MultilayerPerceptron ingesteld als classifier Geavanceerde configuratie De periodicity uit de basisinstellingen zorgt ervoor dat de lags in het tabblad lag creation al op de juiste manier ingesteld zijn. In het tabblad overlay data is alles aangevinkt, zie voor meer informatie over overlay data. Een voorwaarde voor overlay data is dat het te voorspellen attribuut onbekend is voor de voorspellen periode, terwijl de overlay attributen wél bekend moeten zijn. Dit is geïllustreerd in figuur 7, waar de te voorspellen BillableHours vanaf juli 2013 t/m april 2014 missen, in de ARFF datafile worden deze missende velden met een vraagteken gemarkeerd. Figuur 7 Weergave van de data Het is belangrijk dat in het tabblad evaluation het veld voor evaluate on hold out training overeenkomt met het aantal te voorspellen maanden, in bovenstaand geval is dat 10. Ook moet het veld number of time unit to forecast in de basisinstellingen overeenkomen. In het tabblad output zijn zowel output- als graph predictions at step aangevinkt en is voor beide instellingen het veld target to op BillableHours gezet. Het gebruik van datamining als predictive analytic voor dienstverleners Pagina 21

Nog meer weergeven