Data Mining. Arno Siebes

Vergelijkbare documenten
ONS VERANDERENDE WERELDBEELD

WELKOM! Inleiding Astrofysica College 1 7 september Ignas Snellen

Tweede Bijeenkomst: Zoektocht naar het Verborgen Hemelbeeld. Rond de Waterput donderdag 31 oktober 2013 Allan R. de Monchy

Samenvatting ANW Hoofdstuk 6: het heelal

Higgs-deeltje. Peter Renaud Heideheeren. Inhoud

Lineaire Algebra voor ST

Uitwerking Tentamen Datamining (2II15) 26/06/09

Tentamen Data Mining

astrologie, wetenschap en onderzoek

Galileo Galileï

1 Rekenen in eindige precisie

start -> id (k (f c s) (g s c)) -> k (f c s) (g s c) -> f c s -> s c

PLANETEN- STELSELS. HC-1 Logistiek en warming up

In Vlaanderen bestaat er nog geen leerlijn programmeren! Hierdoor baseren wij ons op de leerlijn die men in Nederland toepast voor basisscholen.

Wat waren de sterren? Gaatjes in het hemelgewelf waardoor het hemelse vuur scheen? Kwade demonen die s nachts naar de mensen keken?

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

D-Day. 4 juni Joost Hulshof

Centrum Blended Learning

Wim Lintsen. Cursus De grote vragen van de Kosmos. Deel 2 De methode van de wetenschap

KOMETEN! wat zijn het? waar komen kometen vandaan? en waar gaan ze naar toe? Henny Lamers Universiteit van Amsterdam

7. Hamiltoniaanse systemen

Lineaire algebra 1 najaar Lineaire codes

Data mining Van boodschappenmandjes tot bio-informatica

Stelsels lineaire vergelijkingen

Numerieke aspecten van de vergelijking van Cantor. Opgedragen aan Th. J. Dekker. H. W. Lenstra, Jr.

Gravitatie en kosmologie

Wat weten we van ASTRONOMIE? Dr. Jonathan F. Henry

Canonieke Data Modellering op basis van ArchiMate. Canonieke Data Modellering op basis van Archimate Bert Dingemans

In deze les. Het experiment. Hoe bereid je het voor? Een beetje wetenschapsfilosofie. Literatuuronderzoek (1) Het onderwerp.

ONTDEK HET PLANETARIUM! DE ANTWOORDEN GROEP 5-6

De komeet Hale-Bobb.

Uitleg van de Hough transformatie

Samenvatting door een scholier 1365 woorden 2 juli keer beoordeeld. Hoofdstuk 3: blik op oneindig. 3.1: De aarde en de maan

2. Analyse van vraag en aanbod Huidige vraag naar golfrondes. Vraag in rondes

Tekstboek Module 1. Bewustwording

Getallensystemen, verzamelingen en relaties

NATUURLIJKE, GEHELE EN RATIONALE GETALLEN

1) Mercurius. 2) Zoek informatie over vallende sterren. Muurkrant opdracht in 2-tallen

Python voor dataanalyse

Planeten. Zweven in vaste banen om een ster heen. In ons zonnestelsel zweven acht planeten rond de zon. Maar wat maakt een planeet nou een planeet?

Discrete Wiskunde 2WC15, Lente Jan Draisma

Sterrenkunde in de prehistorie: Lascaux : COLLEGE II : RECAPITULATIE COLLEGE I. Ontzag voor hemelverschijnselen.

Inhoud. Neuronen. Synapsen. McCulloch-Pitts neuron. Sigmoids. De bouwstenen van het zenuwstelsel: neuronen en synapsen

Oplossingen Datamining 2II15 Juni 2008

thermometer, luchtvochtigheidsmeter met internet

Gemeente Rotterdam TNO Ministerie van OCW Ministerie van BZK. Rotterdamse Data Science Analyse Jeugd

Presentatie bij de cursusbrochure Sterrenkunde voor Jongeren

De wortel uit min één, Cardano, Kepler en Newton

The Elliott Wave Principle

Wetenschap hv123. CC Naamsvermelding-GelijkDelen 3.0 Nederland licentie.

Vierde college complexiteit. 14 februari Beslissingsbomen

Cursus Inleiding in de Sterrenkunde

Relationele Databases 2002/2003

Populair-wetenschappelijke samenvatting

Hoofdstuk 8 Hemelmechanica. Gemaakt als toevoeging op methode Natuurkunde Overal

Architectuur bij DNB. Voor NORA gebruikersraad. Martin van den Berg, Gert Eijkelboom, 13 maart 2018

Hoofdstuk 3. Equivalentierelaties. 3.1 Modulo Rekenen

WORLDWIDE MONITORING & CONTROL

Zoektocht naar het Higgs deeltje. De Large Hadron Collider in actie. Stan Bentvelsen

Samenvatting in het nederlands

Tentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6

De ruimte. Thema. Inhoud

Examen Datastructuren en Algoritmen II

ZELF DENKENDE WEBSHOP

Helden van de wiskunde: L.E.J. Brouwer Brouwers visie vanuit een logica-informatica perspectief

Kepler s Derde Wet en de Stabiliteit van het Zonnestelsel

HET POLICY LAB. Tjerk Timan. ScienceWorks 25 mei 2018

De mens verovert de ruimte!

Inhoudsopgave. Relaties geordend paar, cartesisch product, binaire relatie, inverse, functie, domein, bereik, karakteristieke functies

Keuzeopdracht natuurkunde voor 5/6vwo

Inzicht in kansen en effecten van re-integratie

HOE VIND JE EXOPLANETEN?

opgaven formele structuren deterministische eindige automaten

SQL Aantekeningen 3. Maarten de Rijke 22 mei 2003

HOVO statistiek November

Classification - Prediction

INZET VAN MACHINE LEARNING

Smart Maintenance. Het realiseren van een intelligente Maintenance inrichting door het slim gebruik van Data analytics

Quantum theorie voor Wiskundigen. Velden en Wegen in de Wiskunde

Lineaire Algebra voor ST

Samenvatting Levensbeschouwing Hoofdstuk 1, Heeft het leven zin?

Transcriptie:

1 X Data Mining Arno Siebes

U en Databases 1 X Elke Nederlander zit in honderden databases: door uw bonuskaart weet AH precies wat U eet; elke keer dat U pint weet de bank waar U hoeveel geld uitgeeft; elk lidmaatschap en elk abonnement wordt bijgehouden; elke website weet hoe vaak U daar komt en wat U daar doet

Waarom houden ze dat bij? 2 X De reden is eigenlijk altijd hetzelfde: door die gegevens te minen kunnen zij beter op Uw wensen inspelen.

Waarom houden ze dat bij? 2 X De reden is eigenlijk altijd hetzelfde: door die gegevens te minen kunnen zij beter op Uw wensen inspelen. Nuchterder gezegd: door die gegevens te minen hopen zij meer aan U te verdienen.

Data Mining 3 X Het niet triviale proces om ware, nieuwe, potentieel bruikbare en uiteindelijk begrijpelijke patronen in data te vinden. (Fayyad et al)

Data Mining 3 X Het niet triviale proces om ware, nieuwe, potentieel bruikbare en uiteindelijk begrijpelijke patronen in data te vinden. (Fayyad et al) De secundaire analyse van data. (Hand)

Data Mining 3 X Het niet triviale proces om ware, nieuwe, potentieel bruikbare en uiteindelijk begrijpelijke patronen in data te vinden. (Fayyad et al) De secundaire analyse van data. (Hand) De inductie van begrijpelijke modellen en patronen uit databases.

At the Cross-Roads 4 X Statistiek Databases AI (Machine Learning) Patroon Herkenning Visualizatie

Modellen en Patronen 5 X Model een abstracte beschrijving van een Universe of Discourse.

Modellen en Patronen 5 X Model een abstracte beschrijving van een Universe of Discourse. Patroon een partieel model, bijvoorbeeld een model van maar een deel van het Universe of Discourse.

Modellen en Patronen 5 X Model een abstracte beschrijving van een Universe of Discourse. Patroon een partieel model, bijvoorbeeld een model van maar een deel van het Universe of Discourse. Ik zal model als generieke term gebruiken

Voorbeeld: Model 6 X Weer Regen Bewolkt Zonnig Wind Golf Vochtigheid Geen Veel Hoog Laag Golf Donald Duck Donald Duck Golf

Voorbeeld: Patroon 7 X Luiers Bier, support = 20%, confidence = 85% Een associatie regel die zegt dat: 20% van de klanten luiers en bier kopen; 85% van de klanten die luiers kopen, kopen ook bier.

Modelleren: Astronomie 8 X Ptolomeus: alles draait in cirkels om de aarde Copernicus: alles draait in cirkels om de zon Kepler: na data minen : geen cirkels maar ellipsen Galileo: uitvinder van de telescoop, vurig heliocentrist en de grondlegger van de mechanica Newton: bracht alles samen in het model gebaseerd op de zwaartekracht.

Begrijpelijke Modellen 9 X Er zijn twee (verweven) redenen om te modelleren: Inzicht: een model beschrijft hoe de werkelijkheid in elkaar zit.

Begrijpelijke Modellen 9 X Er zijn twee (verweven) redenen om te modelleren: Inzicht: een model beschrijft hoe de werkelijkheid in elkaar zit. Voorspellen: de klassieke reden om Astronomie te bedrijven is Astrologie.

Voorspellen 10 X Met de mechanica kun je soms wel en soms niet voorspellen:

Voorspellen 10 X Met de mechanica kun je soms wel en soms niet voorspellen: Wel: de eerste successen waren: de terugkeer van de komeet van Halley werd voorspelt; de baan van Neptunus werd voorspelt voor die planeet ontdekt werd.

Voorspellen 10 X Met de mechanica kun je soms wel en soms niet voorspellen: Wel: de eerste successen waren: de terugkeer van de komeet van Halley werd voorspelt; de baan van Neptunus werd voorspelt voor die planeet ontdekt werd. Niet: Poincarré bewees dat een stelsel met drie lichamen chaotisch is. En chaotische systemen laten zich slecht voorspellen.

Voorspellen is Moeilijk 11 X vooral als het de toekomst betreft (Yogi Berra):

Voorspellen is Moeilijk 11 X vooral als het de toekomst betreft (Yogi Berra): De Beurs: Elaine Garzarelli voorspelde de krach van 1987. Van haar volgende 13 voorspellingen waren er maar 5 goed (een kwartje...).

Voorspellen is Moeilijk 11 X vooral als het de toekomst betreft (Yogi Berra): De Beurs: Elaine Garzarelli voorspelde de krach van 1987. Van haar volgende 13 voorspellingen waren er maar 5 goed (een kwartje...). De Economie: Het CPB stelt voortdurend haar ramingen bij. Een fundamentele aanname is ceteris paribus en dat is bijna nooit zo...

Voorspellen is Moeilijk 11 X vooral als het de toekomst betreft (Yogi Berra): De Beurs: Elaine Garzarelli voorspelde de krach van 1987. Van haar volgende 13 voorspellingen waren er maar 5 goed (een kwartje...). De Economie: Het CPB stelt voortdurend haar ramingen bij. Een fundamentele aanname is ceteris paribus en dat is bijna nooit zo... Club van Rome: zelfs als een model goed is, kunnen de voorspellingen fout zijn omdat wij ons door die voorspelling anders gaan gedragen.

Want Modelleren is Moeilijk 12 X Er zijn twee redenen waarom modelleren moeilijk is: inductie geeft geen garanties; je moet het doen met de data die je hebt.

Inductie 13 X bij een beperkt aantal gegevens passen oneindig veel modellen. Oplossing: straf ingewikkelde modellen af. als je heel veel patronen test dan moeten er wel een aantal significant lijken. Oplossing: zet een deel van de data opzij om modellen te testen

De Data 14 X Soms lijkt een model goed omdat andere gegevens ontbreken Als je nog nooit in Australië bent geweest denk je dat alle zwanen wit zijn. Soms zit er een patroon in ruis Er is een stelling die zegt dat we wel sterrenbeelden moeten zien. Oplossing: die fouten moet een expert er uit halen.

Associatie Regels: de Tabel 15 X Een tabel met: binaire attributen (= benoemde kolommen van de tabel) representeren de artikelen. de tupels (= rijen) representeren mandjes: waarde 1 als dat artikel in het mandje zit; waarde 0 anders.

Support 16 X Voor X {A 1,..., A n } laat: s(x) de support van X aanduiden, dat wil zeggen, het aantal tuples met de waarde 1 voor alle artikelen in X. Met andere woorden, het aantal mandjes waarin in ieder geval de artikelen uit X in voorkomen.

Associatie Regels: Definitie 17 X Laat X, Y {A 1,..., A n }. Voor de associatie regel X Y, definiëren we: de support als s(xy ); de confidence als s(xy )/s(x).

Associatie Regels: Het Probleem 18 X Voor gegeven waarden t s en t c, vindt alle associatie regels X Y zodat: sup(x Y ) t s conf(x Y ) t c

CS 101 19 X Hoe los je dit op?

CS 101 19 X Hoe los je dit op? Bepaal alle frequente verzamelingen, dwz, Z {A 1,..., A n } : s(x) t s

CS 101 19 X Hoe los je dit op? Bepaal alle frequente verzamelingen, dwz, Z {A 1,..., A n } : s(x) t s haal hier alle associatie regels uit

Frequente Verzamelingen 20 X Een verzameling met n elementen heeft 2 n deelverzamelingen. als we 100 artikelen hebben en we kunnen 1000 verzamelingen/seconde checken

Frequente Verzamelingen 20 X Een verzameling met n elementen heeft 2 n deelverzamelingen. als we 100 artikelen hebben en we kunnen 1000 verzamelingen/seconde checken dan hebben we meer tijd nodig dan het universum oud is!

A Priori 21 X Gelukkig kunnen we slimmer zoeken: X Y frequent X frequent