November December Jan Meskens / Onderzoek

Transcriptie

1 Jan Meskens / Onderzoek 1

2 Wat is "Predictive Analytics"? Historische en/of huidige data Voorspellingen over de toekomst 2

3 Toepassing: fraudebestrijding Opsporen fraude met aanrijdingsformulieren [SAS] 3

4 Toepassing: marketing Gepersonaliseerde reclamefolder [Colruyt] 4

5 Toepassing: ehealth intensieve zorgen Nierfalen binnen de 3 dagen? Kans op ontsteking? Hoe lang op de afdeling blijven? UZ Gasthuisberg [Ramon et al.] 5

6 Toepassing: landbouw Slacht de dieren die volgend jaar het minste melk zullen geven [Witten et al.] 6

7 In deze infosessie Deel 1 Wat is predictive analytics? Courante predictieve modellen Toepassingen van deze modellen Deel 2 Predictive analytics tools Predictive analytics cases Wat hebben we geleerd? 7

9 Data warehouse Database Descriptive analytics Machine learning Statistics AI Predictive analytics Data mining 9

10 Data Mining Descriptive analytics Predictive analytics Data Statistiek, Database & DW, Machine learning & AI 10

12 Descriptive analytics: verklaar het verleden Taart diagram & histogram Kolom diagram 12

13 Descriptive analytics: verklaar het verleden Line chart Gemiddelde, ANOVA, t-test, standaard afwijking, Scatter plot matrix Beschrijvende statistiek 13

15 Predictive analytics: voorspel de toekomst Typische dataset: X 1 X 2 X 3 X 4 X 5 Y Onafhankelijke variabele(n) (Predictor variabelen(n)) Afhankelijke variabele(n) (Target variabele(n)) 15

16 Predictive analytics: voorspel de toekomst Fraude met aanrijdingsformulieren: Datum Schad e Plaats Fraude? YES YES NO Onafhankelijke variabele(n) (Predictor variabelen(n)) Afhankelijke variabele(n) (Target variabele(n)) 16

17 Predictive analytics: voorspel de toekomst X 1 X 2 X 3 X 4 X 5 Predictief Model f(x1,,x5) = y Y Bv. model bij fraude met aanrijdingsformulieren: f(datum,schade,plaats, ) = YES/NO 17

18 Predictive analytics vs. expert knowlegde Predictief model Model wordt uit de data gehaald Business rules Model wordt door expert gemaakt 18

19 Expert driven business rules Eenvoudige regel Complexere regel 19

20 Expert driven rules opstellen vaak onmogelijk Data zeer complex Meer dan twee dimensies Moeilijk om patronen manueel te definieren Wordt opgelost met predictive analytics! 20

21 Predictive analytics project aanpak 4. Feedback 3. Interpretatie en evaluatie 2. Predictive modeling 1. Voorbereiden data Kennis over de toekomst Data D1 D2 D3 D4 D5 Dataset Predictief model 21

22 Data voorbereiding Analyseren Welke variabelen? Verdeling data? Betekenis data? Data kwaliteit? Data Extraheren en omvormen D1 D2 D3 D4 Data Dataset 22

24 Predictive model opbouwen (=training) Input Output X 1 X 2 X 3 X 4 X 5 A 0,1 3 Yes 200 B 0,4 5 Yes 150 Trainingsdataset Y 2 4 Trainingsalgoritme vh predictief model Predictief model f(input) = output Accuraatheid % 24

25 Accuraatheid van het predictief model Confusion matrix: Predicted TRUE Predicted FALSE Actually TRUE Actually FALSE % True Positive (TP) % False Positive (FP) % False Negative (FN) % True Negative (TN) Accuraatheid = TP + TN 25

26 Interpretatie confusion matrix is belangrijk! Actually CANCER Actually NO CANCER Predicted CANCER % True Positive (TP) % False Positive (FP) Predicted NO CANCER % False Negative (FN) % True Negative (TN) Moet zo laag mogelijk zijn! 26

27 Is een predictief model generaliseerbaar? Hoe gedraagt het model zich bij data trainingsdata model accuraatheid Gaat enkel over trainingsdata Te optimistisch over performantie van het model 27

28 Naïve oplossing: trainingsdata opsplitsen Data Train: model leren Test: generaliseerbaarheid berekenen Probleem: 50% training, 50% test reduceert training set enorm 28

29 Oplossing: "cross validation" Data opslitsen in k delen (folds) k-1 trainingssets, 1 testset Train Test Test Test 29

31 Interpretatie en evaluatie model output X 1 X 2 X 3 X 4 X 5 A 0,1 2 Yes 200 B 0,7 6 Yes 150 A 0,2 8 No 300 Y??? Interpretatie Nieuwe data Predictief model Waarde van variabele Y 31

33 Feedback Output correct? Predictief model Waarde van variabele Y Model update Correct: JA/NEE 33

34 Feedback Fraude onderzoek Predictief model Fraude Model update Fraude: Ja/Nee 34

36 5 predictieve modellen Statistics Clustering Association rules Decision trees Neural networks 36

38 Statistische modellen Geen beschrijvende statistiek zoals gemiddelde, standaard afwijking, histogrammen, Wel voorspellende statistiek: Regressie analyse 38

39 Regressie analyse Simpele lineare regressie: y i = a + b. x i + r Multiple lineaire regressie: y i = b 0 + b 1. x 1 + b 2. x b m. x m + r i Non-lineaire regressie: polynomiale regressie, logistische regressie 39

40 Simpele lineare regressie met R Temp Pres

41 Simpele lineare regressie met R 41

42 Simpele lineare regressie met R Fitten lineaire functie 2 Plotten Temp~Lpres 3 Lijn weergeven van functie m1 42

43 Simpele lineare regressie met R Lage concentratie Hoge concentratie 43

44 Simpele lineare regressie met R Concentration Velocity

45 Simpele lineare regressie met R??? ytrans = conc/vel ytrans = a + b. conc Transformatie 45

46 Non-Lineare Regressie in R 46

48 Clustering 48

49 Clustering: K-Means algoritme Input: aantal clusters N 49

50 Clustering: K-Means algoritme Input: aantal clusters N 1. Kies N random cluster centra 50

51 Clustering: K-Means algoritme Input: aantal clusters N 1. Kies N random cluster centra 2. Verdeel in clusters 51

52 Clustering: K-Means algoritme Input: aantal clusters N 1. Kies N random cluster centra 2. Verdeel in clusters 52

53 Clustering: K-Means algoritme Input: aantal clusters N 1. Kies N random cluster centra 2. Verdeel in clusters 3. Bepaal N nieuwe cluster centra 53

54 Clustering: K-Means algoritme Input: aantal clusters N 1. Kies N random cluster centra 2. Verdeel in clusters 3. Bepaal N nieuwe cluster centra 4. N clusters gevonden 54

55 Clustering voorbeeld: IRIS dataset Iris setosa Iris versicolor Iris virginica 55

56 Clustering voorbeeld: IRIS dataset Sepallength Sepalwidth Petallength Petalwidth Class Setosa Setosa Versicolor Versicolor Viriginica Virginica Virginica 56

57 57

58 Voorspellen met Clustering Sepallength Sepalwidth Petallength Petalwidth Class ? ? ? 58

59 59

61 Association Rules ID milk bread butter beer Voorbeeld: Associaties tussen aankopen {Butter, Bread} => {Milk} {Milk} => {Bread} IF (Butter AND Bread) THEN Milk IF Milk THEN Bread 61

62 Association Rules {Butter, Bread} => {Milk} Antecedent Support: Hoeveel keer (in %) komt het antecedent voor? Consequent Confidence: Hoeveel keer (in %) volgt de consequent op de antecedent? 62

63 {Bread} => {Milk} ID milk bread butter beer Support: 3/5 = 60% Confidence: 2/3 = 66,7% 63

64 Associaties met het Apriori Algoritme Input: minimum support N 1 Bepaal support van elk element ID Support {Milk} 0,4 {Bread} 0,6 {Butter} 0,4 {Beer} 0,2 2 Schrap elementen met support < N 64

65 Associaties met het Apriori Algoritme Input: minimum support N ID Support {Milk} 0,4 {Bread} 0,6 {Butter} 0,4 {Beer} 0,2 3 4 Breid associaties uit met 1 element en bepaal support ID Support {Milk,Bread} 0,4 {Milk,Butter} 0,2 {Bread,Butter} 0,2 Schrap elementen met support < N 5 Herhaal tot er geen associaties met support >= N gevonden worden 65

66 Association rules in bankgegevens met SPSS Kinderen Auto Spaar rekening Lopende rekening Hypotheek PEP Leeftijd Geslacht Regio Inkomen Getrouwd 66

67 67

69 Decision trees Outlook Temp. Hum. Wind Play? Sunny F N Sunny T N Overcast F Y 69

70 Decision trees met Weka Sepallength Sepalwidth Petallength Petalwidth Class Setosa Setosa Versicolor Versicolor Viriginica Virginica Virginica 70

71 71

72 Decision trees in R > iris <- read.table("c:/iris.csv",header=t,sep=",") 1 Inlezen data 72

73 Decision trees in R > iris <- read.table("c:/iris.csv",header=t,sep=",") > fit <- rpart(class~sepallength+sepalwidth+petallength+petalwidth, data=iris,method="class") 2 Fitten decision tree 73

74 Decision trees in R > iris <- read.table("c:/iris.csv",header=t,sep=",") > fit <- rpart(class~sepallength+sepalwidth+petallength+petalwidth, data=iris,method="class") > plot(fit, uniform=true, main="iris tree") > text(fit, use.n=true, all=true, cex=.8) 3 Plotten resultaat 74

75 Decision trees in R > iris <- read.table("c:/iris.csv",header=t,sep=",") > fit <- rpart(class~sepallength+sepalwidth+petallength+petalwidth, data=iris,method="class") > plot(fit, uniform=true, main="iris tree") > text(fit, use.n=true, all=true, cex=.8) > pred <- predict(fit, newdata=data,type="class") > mc <-table(iris$class,pred) > print(mc) Iris-setosa Iris-versicolor Iris-virginica Iris-setosa Iris-versicolor Iris-virginica > err <- mc[1,2]+mc[1,3]+mc[2,1]+mc[2,3]+mc[3,1]+mc[3,2] > 1 - err/length(iris$class) [1] 0.96 > 4 Evalueren resultaat 75

76 Decision trees in R 76

78 Biologische vs. artificiele neurale netwerken I N P U T S O U T P U T S Synapse (verbinding) Neuron 78

79 Input layer I N P U T S O U T P U T S Hidden layers Output layer 79

80 Multi-Layer Perceptron (MLP) Node x1 x2 Verbinding x1 * w1 w1 w2 w3 x2 * w2 + x3 * w3 σ(u) u σ x3 80

81 Neurale netwerken in SPSS Sepallength Sepalwidth Petallength Petalwidth Class Setosa Setosa Versicolor Versicolor Viriginica Virginica Virginica 81

82 82

83 Association rules Statistics Decision trees Clustering Neural networks Makkelijke interpretatie Moeilijke interpretatie 83

84 Welk model is het beste: ROC Curve A > B > C Sensitivity: true positive rate 1-Specifity: false negative rate Predicted TRUE Predicted FALSE Actually TRUE Actually FALSE % True Positive (TP) % False Positive (FP) % False Negative (FN) % True Negative (TN) 84

85 Welk model is het beste: ROC Curve 85

88 Tools per analyse methode Scripting Form-based Visual programming S+ WEKA R Matlab Octave SPSS Modeler SAS Enterprise Miner Oracle Data Miner TIBCO Spotfire Miner Open source Commercial 88

90 S+ R Implementaties van de statistische programmeertaal "S" Commercieel Command shell Biedt ook forms aan die de shell afschermen Open source Command shell 90

91 Tree fitten in R vs. S+ R S+ 91

92 Matlab Mathworks Wiskundige omgeving Sterk in data visualisatie! Functionaliteit verpakt in "toolboxes" Toolboxes voor neurale netwerken, databases, statistics, Command line en forms Octave = OS alternatief 92

94 Weka Waikato Environment for Knowledge Analysis Open source tool van de Universiteit van Waikato Java Zeer veel algoritmes ter beschikking 94

96 Visual programming Tibco Spotfire Miner IBM SPSS Modeler Oracle Data Miner SAS Enterprise Miner 96

97 Gevolgd traject met deze tools Eerste stappen met predictive analytics Algoritmes leren kennen Parameters tunen Kleine datasets Lage instap (free) 97

98 Gevolgd traject met deze tools Eerste stappen met predictive analytics Eerste projecten Algoritmes met meer leren kennen data Visual programming Parameters tunen Methodes om data te Kleine datasets filteren, cleanen, Lage instap combineren, (free) Lage leercurve om algoritmes en data te koppelen Kunnen veel data formaten aan 98

99 Gevolgd traject met deze tools Eerste stappen met predictive analytics Eerste projecten Algoritmes met meer leren kennen data Parameters tunen Geavanceerd Methodes gebruik om data te Kleine datasets filteren, cleanen, Lage instap combineren, (free) Lage leercurve om algoritmes en data Scripting te koppelen Scripts zijn makkelijker Kunnen uitbreidbaar veel data ivgl met visual programming formaten aan De nodige extra functionaliteit kan geprogrammeerd worden Blijft een persoonlijke keuze: programmeren vs. modelleren Visual programming 99

100 Predictive analytics initiatieven SMALS CASE 1: Strijd tegen de sociale fraude CASE 2: Traceerbaarheid 100

102 Strijd tegen de sociale fraude: verhogen van de efficientie van de inspecties! predictive analytics potentiele fraude gevallen confirmed fraud? inspectiediensten RSZ 102

103 Predictive modeling bij sociale fraude Doel: frauduleuze associaties tussen bedrijven herkennen. Oplossing: Association rules met het apriori algoritme Fraud No fraud Failliet 103

104 Association rules? {Butter, Bread} => {Milk} Antecedent Support: Hoeveel keer (in %) komt het antecedent voor? Consequent Confidence: Hoeveel keer (in %) volgt de consequent op de antecedent? 104

105 Association rules met Apriori Apriori Dimona Repertorium Rules: { } => {F} { } => {NF} { } => {F} { } => {F} Dataset Support % / Confidence % 105

106 Fraude opsporen met deze association rules Confidence Nieuwe data Mogelijke fraude { { { } => {F} } => {F} } => {F} 100% 99,8% 95% Association rules geordend volgens confidence 106

107 Geimplementeerd in SPSS Documentatie noodzakelijk! 107

108 Status case "sociale fraudebestrijding" Eerste resultaten veel belovend! Fraude = zoeken naar uitzonderingen Alle data is nodig > 50 miljoen records Performantie problemen op "gewone Pc" Migreren naar zwaardere servers 108

110 Traceerbaarheid Wat is de impact van een beleidsmaatregel op variabele Y? Resultaat na invoering maatregel Resultaat als maatregel niet ingevoerd was (y) (y') Impact van een maatregel (y - y') 110

111 Traceerbaarheid Wat is de impact van een beleidsmaatregel op variabele Y? y Invoeren nieuwe maatregel y??? y' tijd y' berekenen we met Predictive Analytics Zonder invoering maatregel Na invoering maatregel Impact maatregel 111

112 Traceerbaarheid Wat is de impact van een beleidsmaatregel op variabele Y? X X 2 X 3 X 4 Y old a a c c d 1 d e e d 2 X 1 X 2 X 3 X 4 Y a a c e 4 a a c e 5 Chronologische dataset Data voor maatregel Invoering nieuwe maatregel! Data na maatregel 112

113 Berekenen Y' zonder invoering maatregel 1. Bereken predictief model bij data voor maatregel X 1 X 2 X 3 X 4 a a c d d e e d Predictief model Y old Pas model toe op data na de maatregel om Y' te bekomen X 1 X 2 X 3 X 4 a a c e a a c e Predictief model Y'

114 Berekenen impact maatregel Resultaat na invoering maatregel Resultaat als maatregel niet ingevoerd was (y) (y') Impact van een maatregel (y - y') Gevonden dmv "Predictive Analytics"! 114

115 Wat hebben we geleerd van deze predictive analytics cases? Voorbereiden van data neemt veel tijd in beslag 115

117 Data voorbereiding is een interdisciplinair proces Verschillende rollen nemen deel Business expert(s) Data quality expert(s) Database expert(s) Predictive analytics expert(s) Data warehouse expert(s) 117

118 Wat hebben we geleerd van deze predictive analytics cases? Predictive analytics is geen "black box" 118

119 Predictive Analytics als een "black box" Beste predictief model Data Predictive Analytics tool 119

120 Mogelijk in tools als SPSS en SAS Kan zeer lang duren (meerdere dagen) Trage feedback loop Betere optie: Predictive analytics kennis intern opbouwen Zelf meeredeneren 120

121 Wat hebben we geleerd van deze predictive analytics cases? Bouw predictive analytics projecten gradueel uit 121

122 Predictive analytics is geen magische oplossing Start met kleinschalige predictive analytics experimenten Bouw groter project uit Gradueel interesse wekken van potentiele stakeholders 122

123 Wat hebben we geleerd van deze predictive analytics cases? My name is Predictive Analyst 123

124 Specifieke rol nodig voor predictive analytics! Analytics kennis Business kennis IT kennis Communicatie!! 124

125 Aanbevolen literatuur 125

126 Aanbevolen literatuur Interactief overzicht van meest courante datamining technieken! 126

127 Vragen? Deel 1 Predictive analytics aanpak Courante predictieve modellen Toepassingen van deze modellen Deel 2 Predictive analytics tools Predictive analytics cases Wat hebben we geleerd? 127