1 X Data Mining Arno Siebes
U en Databases 1 X Elke Nederlander zit in honderden databases: door uw bonuskaart weet AH precies wat U eet; elke keer dat U pint weet de bank waar U hoeveel geld uitgeeft; elk lidmaatschap en elk abonnement wordt bijgehouden; elke website weet hoe vaak U daar komt en wat U daar doet
Waarom houden ze dat bij? 2 X De reden is eigenlijk altijd hetzelfde: door die gegevens te minen kunnen zij beter op Uw wensen inspelen.
Waarom houden ze dat bij? 2 X De reden is eigenlijk altijd hetzelfde: door die gegevens te minen kunnen zij beter op Uw wensen inspelen. Nuchterder gezegd: door die gegevens te minen hopen zij meer aan U te verdienen.
Data Mining 3 X Het niet triviale proces om ware, nieuwe, potentieel bruikbare en uiteindelijk begrijpelijke patronen in data te vinden. (Fayyad et al)
Data Mining 3 X Het niet triviale proces om ware, nieuwe, potentieel bruikbare en uiteindelijk begrijpelijke patronen in data te vinden. (Fayyad et al) De secundaire analyse van data. (Hand)
Data Mining 3 X Het niet triviale proces om ware, nieuwe, potentieel bruikbare en uiteindelijk begrijpelijke patronen in data te vinden. (Fayyad et al) De secundaire analyse van data. (Hand) De inductie van begrijpelijke modellen en patronen uit databases.
At the Cross-Roads 4 X Statistiek Databases AI (Machine Learning) Patroon Herkenning Visualizatie
Modellen en Patronen 5 X Model een abstracte beschrijving van een Universe of Discourse.
Modellen en Patronen 5 X Model een abstracte beschrijving van een Universe of Discourse. Patroon een partieel model, bijvoorbeeld een model van maar een deel van het Universe of Discourse.
Modellen en Patronen 5 X Model een abstracte beschrijving van een Universe of Discourse. Patroon een partieel model, bijvoorbeeld een model van maar een deel van het Universe of Discourse. Ik zal model als generieke term gebruiken
Voorbeeld: Model 6 X Weer Regen Bewolkt Zonnig Wind Golf Vochtigheid Geen Veel Hoog Laag Golf Donald Duck Donald Duck Golf
Voorbeeld: Patroon 7 X Luiers Bier, support = 20%, confidence = 85% Een associatie regel die zegt dat: 20% van de klanten luiers en bier kopen; 85% van de klanten die luiers kopen, kopen ook bier.
Modelleren: Astronomie 8 X Ptolomeus: alles draait in cirkels om de aarde Copernicus: alles draait in cirkels om de zon Kepler: na data minen : geen cirkels maar ellipsen Galileo: uitvinder van de telescoop, vurig heliocentrist en de grondlegger van de mechanica Newton: bracht alles samen in het model gebaseerd op de zwaartekracht.
Begrijpelijke Modellen 9 X Er zijn twee (verweven) redenen om te modelleren: Inzicht: een model beschrijft hoe de werkelijkheid in elkaar zit.
Begrijpelijke Modellen 9 X Er zijn twee (verweven) redenen om te modelleren: Inzicht: een model beschrijft hoe de werkelijkheid in elkaar zit. Voorspellen: de klassieke reden om Astronomie te bedrijven is Astrologie.
Voorspellen 10 X Met de mechanica kun je soms wel en soms niet voorspellen:
Voorspellen 10 X Met de mechanica kun je soms wel en soms niet voorspellen: Wel: de eerste successen waren: de terugkeer van de komeet van Halley werd voorspelt; de baan van Neptunus werd voorspelt voor die planeet ontdekt werd.
Voorspellen 10 X Met de mechanica kun je soms wel en soms niet voorspellen: Wel: de eerste successen waren: de terugkeer van de komeet van Halley werd voorspelt; de baan van Neptunus werd voorspelt voor die planeet ontdekt werd. Niet: Poincarré bewees dat een stelsel met drie lichamen chaotisch is. En chaotische systemen laten zich slecht voorspellen.
Voorspellen is Moeilijk 11 X vooral als het de toekomst betreft (Yogi Berra):
Voorspellen is Moeilijk 11 X vooral als het de toekomst betreft (Yogi Berra): De Beurs: Elaine Garzarelli voorspelde de krach van 1987. Van haar volgende 13 voorspellingen waren er maar 5 goed (een kwartje...).
Voorspellen is Moeilijk 11 X vooral als het de toekomst betreft (Yogi Berra): De Beurs: Elaine Garzarelli voorspelde de krach van 1987. Van haar volgende 13 voorspellingen waren er maar 5 goed (een kwartje...). De Economie: Het CPB stelt voortdurend haar ramingen bij. Een fundamentele aanname is ceteris paribus en dat is bijna nooit zo...
Voorspellen is Moeilijk 11 X vooral als het de toekomst betreft (Yogi Berra): De Beurs: Elaine Garzarelli voorspelde de krach van 1987. Van haar volgende 13 voorspellingen waren er maar 5 goed (een kwartje...). De Economie: Het CPB stelt voortdurend haar ramingen bij. Een fundamentele aanname is ceteris paribus en dat is bijna nooit zo... Club van Rome: zelfs als een model goed is, kunnen de voorspellingen fout zijn omdat wij ons door die voorspelling anders gaan gedragen.
Want Modelleren is Moeilijk 12 X Er zijn twee redenen waarom modelleren moeilijk is: inductie geeft geen garanties; je moet het doen met de data die je hebt.
Inductie 13 X bij een beperkt aantal gegevens passen oneindig veel modellen. Oplossing: straf ingewikkelde modellen af. als je heel veel patronen test dan moeten er wel een aantal significant lijken. Oplossing: zet een deel van de data opzij om modellen te testen
De Data 14 X Soms lijkt een model goed omdat andere gegevens ontbreken Als je nog nooit in Australië bent geweest denk je dat alle zwanen wit zijn. Soms zit er een patroon in ruis Er is een stelling die zegt dat we wel sterrenbeelden moeten zien. Oplossing: die fouten moet een expert er uit halen.
Associatie Regels: de Tabel 15 X Een tabel met: binaire attributen (= benoemde kolommen van de tabel) representeren de artikelen. de tupels (= rijen) representeren mandjes: waarde 1 als dat artikel in het mandje zit; waarde 0 anders.
Support 16 X Voor X {A 1,..., A n } laat: s(x) de support van X aanduiden, dat wil zeggen, het aantal tuples met de waarde 1 voor alle artikelen in X. Met andere woorden, het aantal mandjes waarin in ieder geval de artikelen uit X in voorkomen.
Associatie Regels: Definitie 17 X Laat X, Y {A 1,..., A n }. Voor de associatie regel X Y, definiëren we: de support als s(xy ); de confidence als s(xy )/s(x).
Associatie Regels: Het Probleem 18 X Voor gegeven waarden t s en t c, vindt alle associatie regels X Y zodat: sup(x Y ) t s conf(x Y ) t c
CS 101 19 X Hoe los je dit op?
CS 101 19 X Hoe los je dit op? Bepaal alle frequente verzamelingen, dwz, Z {A 1,..., A n } : s(x) t s
CS 101 19 X Hoe los je dit op? Bepaal alle frequente verzamelingen, dwz, Z {A 1,..., A n } : s(x) t s haal hier alle associatie regels uit
Frequente Verzamelingen 20 X Een verzameling met n elementen heeft 2 n deelverzamelingen. als we 100 artikelen hebben en we kunnen 1000 verzamelingen/seconde checken
Frequente Verzamelingen 20 X Een verzameling met n elementen heeft 2 n deelverzamelingen. als we 100 artikelen hebben en we kunnen 1000 verzamelingen/seconde checken dan hebben we meer tijd nodig dan het universum oud is!
A Priori 21 X Gelukkig kunnen we slimmer zoeken: X Y frequent X frequent