Voorspelling van Boodschappenlijstjes



Vergelijkbare documenten
11. Multipele Regressie en Correlatie

9. Lineaire Regressie en Correlatie

Data analyse Inleiding statistiek

College 2 Enkelvoudige Lineaire Regressie

laboratory for industrial mathematics eindhoven Endinet Regressie-analyse Energiekamer

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica Tentamen Statistiek voor T (2S070) op vrijdag 8 oktober 1999, uur De u

Classification - Prediction

Statistiek voor Natuurkunde Opgavenserie 4: Lineaire regressie

mlw stroom 2.1: Statistisch modelleren

HOOFDSTUK VII REGRESSIE ANALYSE

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

Hoofdstuk 10: Regressie

Hoofdstuk 12 : Regressie en correlatie. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent.

b) Het spreidingsdiagram ziet er als volgt uit (de getrokken lijn is de later uit te rekenen lineaire regressie-lijn): hoogte

Zowel correlatie als regressie meten statistische samenhang Correlatie: geen oorzakelijk verband verondersteld: X Y

College 7. Regressie-analyse en Variantie verklaren. Inleiding M&T Hemmo Smit

Hoofdstuk 12: Eenweg ANOVA

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamenopgaven Statistiek (2DD71) op xx-xx-xxxx, xx.00-xx.00 uur.

Cursus TEO: Theorie en Empirisch Onderzoek. Practicum 2: Herhaling BIS 11 februari 2015

Wiskunde B - Tentamen 2

Hoofdstuk 19. Voorspellende analyse bij marktonderzoek

Hoofdstuk 8: Multipele regressie Vragen

College 3 Meervoudige Lineaire Regressie

Tentamen Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 420 Dit is geen open boek tentamen.

Stochastiek 2. Inleiding in the Mathematische Statistiek. staff.fnwi.uva.nl/j.h.vanzanten

De gewenste woning binnen handbereik

Examen Statistische Modellen en Data-analyse. Derde Bachelor Wiskunde. 14 januari 2008

Opgave 1: (zowel 2DM40 als 2S390)

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag , uur.

HOOFDSTUK 6: INTRODUCTIE IN STATISTISCHE GEVOLGTREKKINGEN

Commerciële Sturing. Het vertalen van strategische doelen naar veelbelovende klantgroepen. Stageverslag Laura Klomparends

Oplossingen hoofdstuk XI

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 2 november 2011, uur

Oefenvragen bij Statistics for Business and Economics van Newbold

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Je kunt al: -de centrummaten en spreidingsmaten gebruiken -een spreidingsdiagram gebruiken als grafische weergave van twee variabelen

Het ALM beleid van Klaverblad

Hoofdstuk 3 Statistiek: het toetsen

Tentamen Biostatistiek 1 voor BMT (2DM40), op maandag 5 januari uur

Statistiek en Data Analyse Opgavenserie 3: Lineaire regressie

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek (2DD14) op vrijdag 17 maart 2006, uur.

Kansrekening en Statistiek

Cursus Statistiek Hoofdstuk 4. Statistiek voor Informatica Hoofdstuk 4: Verwachtingen. Definitie (Verwachting van discrete stochast) Voorbeeld (1)

5,4. Werkstuk door een scholier 1714 woorden 22 februari keer beoordeeld

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op vrijdag , 9-12 uur.

Formuleblad. Hoofdstuk 1: Gemiddelde berekenen: = x 1 + x 2 + x 3 + +x n / n Of: = 1/n Σ x i

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 27 oktober 2010, uur

We illustreren deze werkwijze opnieuw a.h.v. de steekproef van de geboortegewichten

Tentamen Inleiding Statistiek (WI2615) 10 april 2013, 9:00-12:00u

Aanpassingen takenboek! Statistische toetsen. Deze persoon in een verdeling. Iedereen in een verdeling

Hoofdstuk 5 Een populatie: parametrische toetsen

EIND TOETS TOEGEPASTE BIOSTATISTIEK I. 30 januari 2009

Les 5: Analysis of variance

1 Basisbegrippen, W / O voor waar/onwaar

Meetkunde en Lineaire Algebra

werkcollege 8 correlatie, regressie - D&P5: Summarizing Bivariate Data relatie tussen variabelen scattergram cursus Statistiek

Les 1: Waarschijnlijkheidrekening

Hoofdstuk 2: Verbanden

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica. Tentamen Statistiek 2 voor TeMa (2S195) op dinsdag ,

TECHNISCHE UNIVERSITEIT EINDHOVEN Faculteit Wiskunde en Informatica

EWMA Control Charts in Statistical Process Monitoring I.M. Zwetsloot

Meetkunde en Lineaire Algebra

Masterclass: advanced statistics. Bianca de Greef Sander van Kuijk Afdeling KEMTA

Statistiek in de alfa en gamma studies. Aansluiting wiskunde VWO-WO 16 april 2018

Profittest voor Autoportefeuilles. Voogd & Voogd

Robuustheid regressiemodel voor kapitaalkosten gebaseerd op aansluitdichtheid

ALGEMENE STATISTIEK. A.W. van der Vaart en anderen

Toegepaste Statistiek, Dag 7 1

(slope in het Engels) en het snijpunt met de y-as, b 0

Examen G0N34 Statistiek

Kansrekening en Statistiek

+ ( 1 4 )2 σ 2 X σ2. 36 σ2 terwijl V ar[x] = 11. Aangezien V ar[x] het kleinst is, is dit rekenkundig gemiddelde de meest efficiënte schatter.

College 6 Eenweg Variantie-Analyse

Tentamen Mathematische Statistiek (2WS05), vrijdag 29 oktober 2010, van uur.

Feedback examen Statistiek II Juni 2011

Kansrekening en statistiek wi2105in deel 2 16 april 2010, uur

Examen Statistiek I Feedback

6.1 Beschouw de populatie die wordt beschreven door onderstaande kansverdeling.

1. Reductie van error variantie en dus verhogen van power op F-test

Financiële economie. Opbrengsvoet en risico van een aandeel

Kansrekening en statistiek WI2211TI / WI2105IN deel 2 2 februari 2012, uur

Figuur 1: Voorbeelden van 95%-betrouwbaarheidsmarges van gemeten percentages.

1 vorig = omzet voorgaande jaar. Forward (Criterion: Probability-of-F-to-enter <=,050) 2 bezoek = aantal bezoeken vertegenwoordiger

Talking Facades. Bart van den Heiligenberg Ivan Kok. Chris de Kok

1. Statistiek gebruiken 1

HOOFDSTUK VIII VARIANTIE ANALYSE (ANOVA)

Formules Excel Bedrijfsstatistiek

Rapportage bijzondere bijstand 2014

Toets deel 2 Data-analyse en retrieval Vrijdag 30 Juni 2017:

Herkansing Inleiding Intelligente Data Analyse Datum: Tijd: , BBL 508 Dit is geen open boek tentamen.

Tentamen Biostatistiek 1 voor BMT (2DM40) woensdag 28 oktober 2009, uur

Meervoudige ANOVA Onderzoeksvraag Voorwaarden

Zomerschool Vakdidactisch Onderzoek Leuven, 8-10 september 2010 Sessie 8: Analyse van kwantitatieve data

Time series analysis. De business controller wilt graag de prognoses weten voor de volgende vier key metrics :

. Dan geldt P(B) = a d. 3 8

Uitwerkingen Mei Eindexamen VWO Wiskunde C. Nederlands Mathematisch Instituut Voor Onderwijs en Onderzoek

DH19 Bedrijfsstatistiek MC, 2e Bach Hir, Juni 2009

b. Bepaal b1 en b0 en geef de vergelijking van de kleinste-kwadratenlijn.

Privacy- en Cookiebeleid van Albert Heijn B.V.

Transcriptie:

Voorspelling van Boodschappenlijstjes Petra Tol Stageverslag

Voorspelling van Boodschappenlijstjes Petra Tol Stageverslag Universiteit: Vrije Universiteit Amsterdam Faculteit der Exacte Wetenschappen Boelelaan 1081 1081 HV Amsterdam Begeleiders: Marianne Jonker Rene Bekker Stagebedrijf: Albert Heijn Afdeling Business Analytics Provinciale weg 11 1506 MA Zaandam Begeleider: John-Paul van Doorn Juli 2009

Voorwoord Dit stageverslag vormt de afsluiting van mijn masteropleiding Mathematics aan de Vrije Universiteit te Amsterdam. Mijn zes maanden durende stage vond plaats bij Albert Heijn in Zaandam, op de afdeling Business Analytics. Hier heb ik mij beziggehouden met het opstellen van een wiskundig model waarmee boodschappenlijstjes van individuele klanten kunnen worden voorspeld, op basis van de aankoopgegevens in het verleden. Ik heb deze stage als een leerzame, maar zeker ook leuke afsluiting van mijn studie ervaren, dankzij de verschillende personen die mijn stage mede mogelijk hebben gemaakt. Ik wil Egbert Dijkstra bedanken voor het aanbieden van de stageplaats en John-Paul van Doorn voor de begeleiding vanuit Albert Heijn. Marianne Jonker en Rene Bekker wil ik bedanken voor de begeleiding vanuit de Vrije Universiteit. Ze wisten zeer regelmatig tijd te maken om mijn vorderingen met me door te spreken en nieuwe ideëen aan te dragen. Tot slot wil ik mijn collega s bij Albert Heijn bedanken voor de plezierige tijd, in het bijzonder de eerder genoemde personen en Maryam Miradi en Jeanine Schoonemann. Tevens wil ik Maryam bedanken voor de hulp bij het extra onderzoek aan het einde van mijn stage. Petra Tol Zaandam, juli 2009 iii

Samenvatting [vertrouwelijk] v

vi

Inhoudsopgave Voorwoord Samenvatting iii v 1 Inleiding 1 1.1 Albert Heijn.............................. 1 1.2 Bonuskaart.............................. 2 1.3 Probleemstelling........................... 2 1.4 Toegevoegde waarde voor Albert Heijn............... 2 1.5 Structuur van het verslag...................... 3 2 Inleidend onderzoek 5 3 Regressieanalyse 7 4 Nieuw model 9 5 Aanvullend onderzoek 11 6 Conclusies en aanbevelingen 13 A Wiskundige beschrijvingen 15 A.1 Begrippen............................... 15 A.2 Regressieanalyse........................... 16 A.3 Exponential Smoothing....................... 18 B Pseudo Code 21 C Schermvoorbeelden applicatie 23 D Resultaten aanvullend onderzoek 25 Bibliografie 27 vii

Hoofdstuk 1 Inleiding In deze inleiding beschrijven we ten eerste de geschiedenis van het bedrijf Albert Heijn en gaan we in op het concept bonuskaart en zijn toepassingen (zie ook de website van Albert Heijn, [1]). Vervolgens wordt de probleemstelling van deze stage beschreven, waarvan de oplossing een basis moet zijn voor een nieuwe toepassing van de bonuskaart. Ook de toegevoegde waarde van deze toepassing voor Albert Heijn wordt besproken. Ten slotte geven we een beschrijving van de structuur van dit stageverslag. 1.1 Albert Heijn De basis voor de supermarktketen Albert Heijn werd gelegd op 27 mei 1887 toen de 21-jarige Albert Heijn een klein kruidenierswinkeltje in Oostzaan overnam van zijn vader. Na zeven jaar breidt hij uit met een filiaal in Purmerend en zowel het assortiment als het aantal filialen groeit verder. Op 29 april 1920 draagt Albert Heijn de leiding van het bedrijf over aan zijn zoons Gerrit en Jan en schoonzoon Johan Hille. Op dat moment telt het bedrijf, dat altijd de naam van zijn oprichter is blijven dragen, zo n 75 filialen. In 1952 opent Albert Heijn de eerste zelfbedieningszaak en het bedrijf groeit uit tot de grootste supermarktketen van Nederland. Tegenwoordig is Albert Heijn een dochterbedrijf van Koninklijke Ahold en telt meer dan 750 winkels. Deze filialen zijn onderverdeeld in verschillende winkeltypes: wijkwinkels, AH XL, AH to go en Albert. Bij deze laatste bestel je je boodschappen via internet en laat ze tot in de keuken bezorgen. De huidige missie van het bedrijf is Het alledaagse betaalbaar, het bijzondere bereikbaar. Hiermee heeft het bedrijf eigenlijk dezelfde doelstelling voor ogen als de oprichter eens had: Prima Kwaliteit, Groote Omzet, Kleine Winst. Arm en rijk kunnen bij mij hun inkopen doen. Het bijzondere in de huidige missie doelt bijvoorbeeld op de bijzondere producten die Albert Heijn in het assortiment heeft, maar er zijn ook andere zaken waarin het bedrijf zich onderscheidt van de concurrentie. Zo zijn de mogelijkheid tot zelfscannen en het terugzien van je aangekochte producten op internet zaken waarmee Albert Heijn voorop loopt. Daarnaast hecht Albert Heijn er veel waarde aan om een bijdrage te leveren aan een gezonde en duurzame samenleving. Het uitgangspunt hierbij zijn 1

2 HOOFDSTUK 1. INLEIDING de vier belangrijke pijlers: betrokkenheid. gezondheid, duurzame handel, klimaat en lokale 1.2 Bonuskaart In 1997 werd de bonuskaart geïntroduceerd bij Albert Heijn. In totaal zijn er 10 miljoen kaarten uitgegeven, waarvan er 5,3 miljoen actief gebruikt worden. De bonuskaart is een persoonlijke kaart die de klant korting geeft op bonusaanbiedingen in alle winkels van Albert Heijn, inclusief de webwinkel. Met de kaart kunnen ook Air Miles worden gespaard en met behulp van de bonussleutelhanger kan een gevonden sleutelbos gratis worden opgestuurd naar het bij Albert Heijn opgegeven huisadres. Regelmatig worden groepen klanten met een bonuskaart, die aangegeven hebben daar interesse in te hebben, geselecteerd voor speciale aanbiedingen, uitnodigingen, proeverijen, enzovoorts. Het zelfscannen en de mogelijkheid tot het terugzien van je aankopen op internet gebeurt ook aan de hand van je bonuskaartnummer. Zo heeft de bonuskaart vele toepassingen en deze stage is het begin van een poging deze mogelijkheden nog verder uit te breiden. 1.3 Probleemstelling De centrale vraag tijdens deze stage luidt als volgt: Hoe kunnen de boodschappenlijstjes van Albert Heijns beste klanten op intelligente wijze worden voorspeld? Aan de hand van de aankoopgegevens per bonuskaartnummer zoeken we naar een model om voor een klant de aankopen voor de komende week te kunnen voorspellen. Daarbij zoeken we naar een balans tussen het aantal artikelen dat we op de boodschappenlijst plaatsen en de betrouwbaarheid van die lijst. We willen namelijk aan de ene kant zo veel mogelijk aankopen voorspellen, maar aan de andere kant willen we ook dat de lijst niet te veel producten bevat die de klant niet zal kopen. Verder moeten we er rekening mee houden dat producten specifieke artikelnamen ( ah biologische halfvolle melk 500 ml ) en groepsnamen ( melk ) hebben. Deze zogenaamde MIAC-groepen (Management Information And Control), zijn waarschijnlijk beter voorspelbaar, maar de omschrijving is voor de klant onherkenbaar. We zullen moeten beslissen hoeveel van deze groepsnamen we op de lijst willen zetten. 1.4 Toegevoegde waarde voor Albert Heijn Het voorspelde boodschappenlijstje dient in eerste instantie als service aan de klant en moet daarmee de klantloyaliteit verhogen. Verder wordt de toegevoegde waarde voor Albert Heijn gezocht in een hogere omzet per klant, doordat klanten herinnerd worden aan het meenemen van bepaalde producten. Als ze die producten vergeten, zullen ze die wellicht bij een andere supermarkt halen. Andere voorbeelden van mogelijke toepassingen van de boodschappenlijstjes zijn het geven van een optimale route door de winkel, het doen van persoonlijke

1.5. STRUCTUUR VAN HET VERSLAG 3 aanbiedingen en waarschuwen als een product op de boodschappenlijst niet voorradig is en de klant zo mogelijk een alternatief bieden. Het uitwerken van deze toepassingen is geen onderdeel van deze stage, het uitzoeken of het überhaupt mogelijk is om het aankoopgedrag van klanten te voorspellen is dat wel. 1.5 Structuur van het verslag We beginnen het onderzoek met verschillende inleidende onderzoeken naar het aankoopgedrag van klanten, beschreven in hoofdstuk 2. Hier zoeken we bijvoorbeeld naar een verband tussen de aankoophoeveelheden en de tussenaankooptijden. Ook kijken we hoe vaak de verschillende producten terugkeren in de lijst met aankopen van de klant. Om de opgestelde modellen uiteindelijk te kunnen beoordelen beschrijven we een aantal criteria welke we zullen gebruiken voor het vergelijken van de modellen. In hoofdstuk 3 testen we een eerder opgesteld model voor het voorspellen van boodschappenlijstjes. Vervolgens wordt in hoofdstuk 4 de ontwikkeling van een nieuw model beschreven en wordt deze vergeleken met het eerdere model. In hoofdstuk 5 beschrijven we enkele aanvullende onderzoeken naar het aankoopgedrag van klanten. Ten slotte zijn in hoofdstuk 6 de conclusies en aanbevelingen te vinden ten aanzien van het voorspellen van de boodschappenlijst met dit nieuwe model. Om het verslag ook leesbaar te houden voor de lezers zonder wiskundige achtergrond, zijn de uitgebreidere wiskundige beschrijvingen geplaatst in bijlage A. In bijlage B zijn de algoritmen om de gevonden modellen toe te passen op de data beschreven in pseudo-code, zodat deze eenvoudig te implementeren zijn in de gewenste programmeertaal. De overige bijlagen bevatten schermvoorbeelden van een mogelijke applicatie en resultaten van het aanvullende onderzoek.

4 HOOFDSTUK 1. INLEIDING

Hoofdstuk 2 Inleidend onderzoek [vertrouwelijk] 5

6 HOOFDSTUK 2. INLEIDEND ONDERZOEK

Hoofdstuk 3 Regressieanalyse [vertrouwelijk] 7

8 HOOFDSTUK 3. REGRESSIEANALYSE

Hoofdstuk 4 Nieuw model [vertrouwelijk] 9

10 HOOFDSTUK 4. NIEUW MODEL

Hoofdstuk 5 Aanvullend onderzoek [vertrouwelijk] 11

12 HOOFDSTUK 5. AANVULLEND ONDERZOEK

Hoofdstuk 6 Conclusies en aanbevelingen [vertrouwelijk] 13

14 HOOFDSTUK 6. CONCLUSIES EN AANBEVELINGEN

Bijlage A Wiskundige beschrijvingen In deze bijlage geven we eerst een beschrijving van de bekende en minder bekende gebruikte wiskundige begrippen in dit verslag. Vervolgens geven we een wiskundige beschrijving van de gebruikte modellen. A.1 Begrippen De hieronder beschreven begrippen zijn in diverse naslagwerken terug te vinden, bijvoorbeeld [5]. Bij de beschrijvingen van de begrippen zijn x = (x 1, x 2,..., x n ) en y = (y 1, y 2,..., y n ) twee steekproeven van n datapunten voor de grootheden X en Y. Verwachting Het verwachting van X wordt aangeduid met µ X steekproefgemiddelde x = n i=1 x i. en wordt geschat met het Variantie De variantie van X wordt aangeduid met σ 2 (X) en wordt geschat met de steekproefvariantie s 2 x = 1 n 1 n i=1 (x i x) 2. Standaardafwijking De standaardafwijking van X is gelijk aan de wortel van de variantie en daarom aangeduid met σ(x). De waarde wordt dan ook geschat met de wortel van de steekproefvariantie, s x. Relatieve standaardafwijking De relatieve standaardafwijking van X, oftewel de variatiecoëfficiënt, is gelijk aan de standaardafwijking gedeeld door de verwachting. Deze wordt dus geschat met sx x. Deze waarde maakt het mogelijk om voor verschillende grootheden de afwijking van het gemiddelde te vergelijken, wat met alleen de standaardafwijking niet zinvol is als de gemiddelden verschillen. 15

16 BIJLAGE A. WISKUNDIGE BESCHRIJVINGEN Covariantie De covariantie cov(x, Y ) is een maat voor het lineaire verband tussen twee variabelen X en Y. De covariantie geeft aan hoeveel de waarde van X zal toenemen als de waarde van Y toeneemt. Cov(X, Y ) wordt geschat door de steekproefcovariantie van x en y te bepalen, die wordt gegeven door c xy = 1 n n 1 i=1 (x i x)(y i ȳ). Correlatiecoëfficiënt Ook de correlatiecoëfficiënt ρ is een maat voor de samenhang tussen twee variabelen, echter in dit geval is de waarde geschaald zodat verschillende waarden onderling goed te vergelijken zijn. De correlatiecoëfficiënt van X en Y wordt gegeven door: ρ(x, Y ) = cov(x, Y ) σ(x)σ(y ). De schatter voor deze waarde, de steekproefcorrelatiecoëfficiënt, wordt dus gegeven door r xy = cxy s(x)s(y) De waarde van r xy ligt altijd in het interval [ 1, 1], waarbij een waarde van 1 of 1 duidt op een sterk negatief, respectievelijk positief lineair verband tussen x en y. Een waarde van 0 betekent dat er geen lineair verband is. Er kan dan nog wel een ander, bijvoorbeeld kwadratisch, verband bestaan. Met behulp van een correlatietoets kunnen we toetsen of de correlatiecoëfficiënt ρ verschilt van 0. De nulhypothese en de alternatieve hypothese definiëren we daarbij als volgt: H 0 : ρ = 0 H 1 : ρ 0 We meten hoe groot de kans is onder H 0 dat de afwijking van r ten opzichte 0 gebaseerd is op toeval. Is deze kans kleiner dan 0.05, dan verwerpen we de nulhypothese en noemen we de waarde van r significant verschillend van 0. Kunnen we de nulhypothese niet verwerpen, dan hebben we geen reden om aan te nemen dat er een lineair verband bestaat tussen x en y. Bij weinig waarnemingen is de waarde van r vaak niet significant. A.2 Regressieanalyse Regressieanalyse wordt gebruikt om te proberen het gedrag van een responsvariabele te beschrijven aan de hand van één of meer verklarende variabelen. De meest simpele vorm van regressieanalyse is enkelvoudige lineaire regressie (zie ook [6]), waarbij we verwachten dat er een rechtlijnig verband te vinden is tussen de responsvariabele y en één verklarende variabele x. De lijn die dit verband beschrijft wordt dan gegeven door de volgende vergelijking: y = α + βx. Hier is α de de zogenaamde intercept, oftewel de waarde van y als x gelijk is aan 0. De helling β geeft aan hoe de waarde van y verandert als x een eenheid

A.2. REGRESSIEANALYSE 17 verandert. Indien we de waarde van de parameters α en β weten, kunnen we voor elke waarneming van de verklarende variabele x, de waarde van de responsvariabele y bepalen. Stel nu dat we n waarnemingen hebben van de variabelen x en y, die we aangeven met (x i, y i ) voor i = 1,..., n. Deze datapunten zullen in werkelijkheid bijna nooit op een rechte lijn liggen. Het verschil tussen de waargenomen waarde voor y en de waarde die voorspeld werd door de regressielijn noemen we een statistische fout. Deze fouten kunnen onstaan door bijvoorbeeld meetfouten of effecten van variabelen die niet in het model zijn opgenomen. We nemen aan dat deze statistische fouten onderling ongecorreleerd zijn, met verwachting 0 en variantie σ 2. Het enkelvoudige lineaire regressiemodel kunnen we in het kort als volgt beschrijven: y i = α + βx i + e i i = 1, 2,..., n met E(e i ) = 0 var(e i ) = σ 2 cov(e i, e j ) = 0 i j Het residu ê i is een schatter voor e i en geeft de verticale afstand tussen de gevonden regressielijn en de waargenomen waarde y i. We willen natuurlijk graag dat deze afstand zo klein mogelijk is. Daarom zoeken we schattingen voor α en β die de som van de gekwadrateerde residuen minimaliseert. Die zogenaamde kleinste kwadratenschatters ˆα en ˆβ worden dus gegeven door die waarden van α en β die de volgende functie minimaliseren: n (y i (α + βx i )) 2 i=1 Deze schatters worden dan gegeven door n i=1 ˆβ = (x i x)(y i ȳ) n i=1 (x i x) 2 ˆα = ȳ β x. Hierbij zijn x en ȳ de gemiddelden van alle x i, respectievelijk y i (i = 1,..., n). Om te bepalen hoe goed het gedrag van de responsvariabele wordt beschreven door de regressielijn, kunnen we de waarde van de determinatiecoëfficiënt gebruiken, welke meestal R 2 genoemd wordt. R 2 is het deel van de variabiliteit in y dat wordt verklaard door regressie naar x en wordt gegeven door n R 2 i=1 = 1 (y i ŷ i ) 2 n i=1 (y i ȳ), 2 met ŷ i = ˆα + ˆβx i. De adjusted R 2 houdt rekening met het aantal variabelen p dat in het model wordt opgenomen en het aantal waarnemingen dat we gebruiken voor de regressie. In het geval van enkelvoudige regressie hebben we dus p = 1. De adjusted R 2 wordt gegeven door adjusted R 2 = 1 n 1 n p 1 (1 R2 ). en

18 BIJLAGE A. WISKUNDIGE BESCHRIJVINGEN Deze waarde is beter geschikt om te gebruiken bij een klein aantal waarnemingen en gebruiken we daarom in dit onderzoek. A.3 Exponential Smoothing Exponential smoothing is een voorspelmethode voor tijdreeksen, waarbij we elke voorspelling baseren op de voorgaande voorspelling en de werkelijke waarneming (zie ook [4]). Bij single exponential smoothing hebben we een voorspelling ŷ t voor de waarde van de tijdreeks op tijdstip t. Zodra we de werkelijke waarneming y t voor dat tijdstip hebben, weten we ook de grootte van de fout y t ŷ t. We passen de voorspelling dan aan met behulp van deze fout. De voorspelling voor het volgende tijdstip wordt dan gegeven door ŷ t+1 = ŷ t + α(y t ŷ t ) = αy t + (1 α)ŷ t, α [0, 1]. Hoe dichter α bij 1 ligt, hoe groter de invloed van de fout op de volgende voorspelling. Bij het voorspellen van de boodschappenlijstjes staat y t voor de verstreken tijd tussen aankoop t en t + 1 van een bepaald artikel en is ŷ t dus de voorspelde waarde van die tussentijd. De eerste voorspelling die we doen moeten we op een andere wijze dan hierboven bepalen, aangezien we deze niet kunnen baseren op de voorgaande voorspelling. Een algemene methode om deze waarde te bepalen is het gemiddelde nemen van de eerste k waarnemingen en dit als eerste voorspelling te gebruiken. In ons geval hebben we soms weinig waarnemingen, dus nemen we k = 1, oftewel ŷ 2 = y 1. We kunnen ŷ t nu schrijven als een functie van y 1,..., y t 1 : t 2 ŷ t = α (1 α) i 1 y t i + (1 α) t 2 y 1 i=1 We zouden graag de kwaliteit van verschillende voorspellingen willen vergelijken, zoals we dat bij lineaire regressie kunnen doen met behulp van de adjusted R 2. Bij exponential smoothing zijn er verschillende opties voor een dergelijke maat, bijvoorbeeld de sum of squared errors (SSE), mean squared error (MSE), de mean absolute percentage error (MAPE) of de mean absolute scaled error (MASE). Men is het er niet over eens welke van deze maten het beste geschikt is (zie ook [3]). Als we waarnemingen y 1,..., y n hebben, worden de verschillende maten als volgt bepaald: n SSE = (ŷ i y i ) 2 i=2 MSE = 1 n 1 n (ŷ i y i ) 2 i=2 MAP E = 1 n 1 MASE = 1 n 1 n 100 ŷi y i i=2 y i n ŷ i y i 1 n n 1 t=1 y t y t 1 i=2

A.3. EXPONENTIAL SMOOTHING 19 De grootte van de SSE en de MSE is afhankelijk van de grootte van de y-waardes en daarom niet geschikt om de resultaten van verschillende datasets te vergelijken. De MAPE en de MASE zijn wel geschaald naar de grootte van de waarneming en daarom beter geschikt voor dit doeleinde. De waarde van α wordt vaak van tevoren vastgesteld. Gewoonlijk ligt die waarde ergens tussen de 0.05 en 0.30 ([2], p.111). Als er voldoende observaties zijn kan α ook zo worden gekozen dat deze de MSE minimaliseert.

20 BIJLAGE A. WISKUNDIGE BESCHRIJVINGEN

Bijlage B Pseudo Code [vertrouwelijk] 21

22 BIJLAGE B. PSEUDO CODE

Bijlage C Schermvoorbeelden applicatie [vertrouwelijk] 23

24 BIJLAGE C. SCHERMVOORBEELDEN APPLICATIE

Bijlage D Resultaten aanvullend onderzoek [vertrouwelijk] 25

26 BIJLAGE D. RESULTATEN AANVULLEND ONDERZOEK

Bibliografie [1] Albert Heijn website, april 2009. http://www.ah.nl. [2] A.C. Harvey. Time series models. The MIT Press, 1993. [3] R.J. Hyndman and A.B. Koehler. Another look at measures of forecast accuracy. Monash University Australia, Mei 2005. [4] R.J. Hyndman, A.B. Koehler, J.K. Ord, and R.D. Snyder. Forecasting with exponential smoothing. Springer, 2008. [5] B.B. van der Genugten. Inleiding tot de waarschijnlijkheidsrekening en mathematische statistiek. Stenfert Kroese, 1986. [6] S. Weisberg. Applied linear regression. John Wiley & Sons, 1985. 27