Master HI Geavanceerde data wetenschappen 1ste deel - inclusief pgelste efeningen Q uickprinter Kningstraat 13 2000 Antwerpen www.quickprinter.be 182 3.50 EUR
Nieuw!!! Online samenvattingen kpen via www.quickprintershp.be
Geavanceerde data wetenschappen Prf D. Martens & Prf J. Springael Data science & Data mining Semester 1 Data science fr business What yu need t knw abut data mining and data-analytic thinking 0
Lecture 1 (Ch. 1 & 2 ) Chapter 1: Intrductin: Data-analytic thinking Terminlgy Data science/wetenschappen = fundamentele principes m kennis/inf te halen uit je data Data mining = autmatisch inf halen uit data via verschillende technlgieën; patrnen in data vinden Big data = z veel data dat de gewne, traditinele verwerkingssystemen er geen inf f kennis kunnen uithalen Quering = naar bepaalde data zeken in een gigantische dataset, je weet perfect waar je naar zekt (SQL) OLAP = On-Line Analytical Prcessing; multidimensinele analyse; je data wrdt visueel vrgesteld & je weet waar je naar zekt (SQL) (in tegenstelling tt data mining). Business Intelligence (BI) = juiste inf krijgen naar de juiste persn p het juiste mment Explanatry mdeling = hyptheses testen Predictive mdeling = z accuraat mgelijk vrspellingen maken Vrbeeld: Real time bidding = persn zit p een site waar adverteerders hun advertenties p kunnen zetten. Die adverteerders bieden p dat mment, dat de persn p de site zit, m hun advertentie daar te plaatsen. Ze gaan bieden naargelang ze denken dat die persn wel geïnteresseerd zu kunnen zijn in hun prduct. => persnlijke aanpak Data mining prcess = data mining is een prces want er heeft enrm veel mee te maken: creativiteit, geznd verstand, wetenschap, CRISP-DM = CRss Industry Standard Prcess fr Data Mining Mini cases Case 1: He kunnen kranten data gebruiken vr betere nline reclame? Wat gaan we vrspellen? In welke prducten de persnen geïnteresseerd zijn. Input: artikelen die gelezen wrden (rij = abnnee), p welke advertenties dus geklikt is, want dan is de kans dat ze geïnteresseerd zijn tch grter 1
Case 2: He kan een HR-afdeling van een grt bedrijf data mining gebruiken vr een betere retentie & aanwerving van werknemers? Wat gaan we vrspellen? De waarde van een persn in het bedrijf => meilijk m te berekenen. Dus beter het verlp vrspellen: gaan ze ntslag nemen f niet; ziekteverzuim; wrden ze ntslagen; Input: persnlijke gegevens, details van een persn (rij = persn) Data mining = tp trend Data mining is een enrme trend gewrden, enrm belangrijk, want tegenwrdig is er zveel infrmatie veral beschikbaar, mdat het tch niets kst m al die infrmatie p te slaan. Obama heeft bijvrbeeld bij de verkiezingen prberen vrspellen wie de twijfelaars zijn bij de stemmers. Diegene die al vr hem gingen stemmen, daar mest hij zijn campagne niet meer p afstellen, maar dus eerder p de mensen die twijfelden, zdat hij dan met een gepaste campagne die k ng zu kunnen verhalen m vr hem te stemmen. Mini cases II Telc (gsm prvider) heeft prblemen met klanten die verstappen naar de cncurrent. Welke data kunnen helpen m dit te managen? Input: hebben ze klacht in gediend; welke prducten hebben ze gekcht; wie heeft er gekcht (scidemgrafische data); prijs/cncurrentie vergelijken; he lang is de persn klant (geweest) ; sciaal netwerk (als vrienden bvb k zijn vergestapt) ; Recency, Frequency & Mnetary Del: gaat de klant weg f niet Data mining: pslag netwrking algritmes rekencapaciteit van pc Essentieel vr effectieve en succesvlle data mining 2
Wat zal er behandeld wrden in de lessen? Data mining lectures Pre-prcessing: Data eerst vrbereiden vr het data mining algritme. Prblemen: sms ntbrekende waarden, uitschieters, data van meerdere databases, Vrspellend Classificatie: Delvariabele zijn discreet Tepassingen: financieel, marketing, terrrisme Regressie: Cntinue delvariabele Tepassingen: financieel & marketing Beschrijvend Similarity matching: neem gelijke individuen waar gebaseerd p data die je ver hen hebt => basis vr aanbevelingen bij mensen Clustering: data verdelen in grepen die binnenin de grep allemaal gelijkend zijn, maar tussen de verschillende grepen zelf is er z weinig mgelijk gelijkenis (tepassing: segmentatie) Assciaties: veel vrkmende patrnen detecteren (vb. market basket analysis) Prfiling (& anmaly detectin): een typisch prfiel van een individu, grep f ppulatie typeren/kenmerken Link vrspellend: vrspel linken tussen verschillende data nderdelen => vrienden vrstellen p sciale netwerken Data reductie: vervang een grt deel van de data dr een klein deel die meeste van de infrmatie bevat Causal mdeling: welke dingen beïnvleden uiteindelijk elkaar Pst prcessing: interpreteren en valideren van de infrmatie: is het interessant, is het bruikbaar, wat is nze intuïtie erbij. Wat wrdt er verwacht vr de lessen & het examen? Lessen: hfdstukken p vrhand lezen & actief meeden in de les Examen: 1 e semester: D. Martens: Data science & data mining 2 e semester: J. Springael: Frecasting Zwel vr 1 e semester als vr 2 e semester slagen Mndeling examen Extra WEKA praktisch examen Data science challenge: ptineel, niet verplicht, kan je wel een extra punt mee verdienen 3