Inl. Adaptieve Systemen

Vergelijkbare documenten

Hoe AI kan ingezet worden voor de analyse van asbesthoudende daken

Opgave 2: Simplex-algoritme - oplossing

Inleiding Programmeren 2

Gerard Vreeswijk Automatisch redeneren College 13 [16], Slide 1 [21] Vandaag. 3. Aggregeren van support op regelniveau (accrual)

2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.

Inleiding Programmeren 2

Data Mining: Classificatie

Risico s binnen een project

LDA Topic Modeling. Informa5ekunde als hulpwetenschap. 9 maart 2015

Meetellen? Dromen, Durven, Doen!

Geheugenstrategieën, Leerstrategieën en Geheugenprestaties. Grace Ghafoer. Memory strategies, learning styles and memory achievement

Effectieve Communicatie

Tentamen Data Mining

Om te kijken of x, y, z samen een driehoek specificeren hoeven we alleen nog maar de driehoeksongelijkheid te controleren: x, y, z moeten voldoen

Computer Vision: Hoe Leer ik een Computer Zien?

De relatie tussen Stress Negatief Affect en Opvoedstijl. The relationship between Stress Negative Affect and Parenting Style

Transparanten bij het vak Inleiding Adaptieve Systemen: Introductie Machine Leren. M. Wiering

Creatief onderzoekend leren

Artificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Tentamen Kunstmatige Intelligentie (INFOB2KI)

Kansrekening en Statistiek

PHCC-G Walk-in. Optical Music recognition (niets? voor niets?) een samenvatting van een onderzoek uit 2008/2009

Uitleg van de Hough transformatie

De Modererende Invloed van Sociale Steun op de Relatie tussen Pesten op het Werk. en Lichamelijke Gezondheidsklachten

COGNITIEVE DISSONANTIE EN ROKERS COGNITIVE DISSONANCE AND SMOKERS

Deel 1: Uitleg MUSE Multi Sample Evaluation. Externe QC SKML score en rapportagesysteem Eric Vermeer Jurgen Riedl Francois Verheijen

Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:

Programma. Schaalconstructie. IRT: moeilijkheidsparameter. Intro: Het model achter het LOVS Mogelijkheden die het model biedt voor interpretatie

Inleiding Adaptieve Systemen Hoofdstuk 5: Ongesuperviseerd Leren

Het Effect van Gender op de Relatie tussen Persoonlijkheidskenmerken en Seksdrive

Gödels theorem An Incomplete Guide to Its Use and Abuse, Hoofdstuk 3

Circulair geld verdienen

Vierde college algoritmiek. 2 maart Toestand-actie-ruimte Exhaustive Search

Inleiding Adaptieve Systemen Hoofdstuk 5: Ongesuperviseerd Leren

Beoordeling van het PWS

Basisconcept VHDL. Digitaal Ontwerpen Tweede studiejaar. Wim Dolman. Engineering, leerroute Elektrotechniek Faculteit Techniek

Kansrekening en Statistiek

Gegevens invullen in HOOFDLETTERS en LEESBAAR, aub. Belgische Olympiades in de Informatica (duur : maximum 1u15 )

extra oefening algoritmiek - antwoorden

Het Effect van Verschil in Sociale Invloed van Ouders en Vrienden op het Alcoholgebruik van Adolescenten.

De pedagogische kwaliteit van SWPBS. Monique Nelen, PBS coach

Understanding and being understood begins with speaking Dutch

Firewall van de Speedtouch 789wl volledig uitschakelen?

(Big) Data in het sociaal domein

Het disciplinaire future self als bron van motivatie en activatie

Bijlage 1: het wetenschappelijk denk- en handelingsproces in het basisonderwijs 1

Master Competence Analysis. Feedback Rapport Demo (feedback)

Neurale Netwerken en Deep Learning. Tijmen Blankevoort

Samenvatting (Summary in Dutch)

Classification of triangles

Helden van de wiskunde: L.E.J. Brouwer Brouwers visie vanuit een logica-informatica perspectief

Diophantische vergelijkingen in het kerstpakket

Thinking of Development

TYPE EXAMENVRAGEN VOOR TOEGEPASTE STATISTIEK

Heeft positieve affectregulatie invloed op emotionele problemen na ingrijpende gebeurtenissen?

Modern Toezicht. Martin de Bree. GGN congres Het nieuwe incasseren 19 april 2019

Tentamen TI1300 en IN1305-A (Redeneren en) Logica

Sekseverschillen in Huilfrequentie en Psychosociale Problemen. bij Schoolgaande Kinderen van 6 tot 10 jaar

Outcome in zicht: JGZ? Erik Jan de Wilde, 16 maart 2015

College 4 Inspecteren van Data: Verdelingen

Kansrekening en Statistiek

S e v e n P h o t o s f o r O A S E. K r i j n d e K o n i n g

Werkinstructie Het opschonen van data bij schriftelijke en of online dataverzameling

Inleiding C++ Coding Conventions

(On)Doenlijke problemen

College 4: Gegeneraliseerde Kwantoren

TOEGANG VOOR NL / ENTRANCE FOR DUTCH : lator=c&camp=24759

Grammatica overzicht Theme 5+6

4. PDCA RICHTING DOEL-TOESTAND

CROSSMEDIATRACKER DEFENSIE VROUWEN MeMo². All rights reserved.

Examen Datastructuren en Algoritmen II

Pesten onder Leerlingen met Autisme Spectrum Stoornissen op de Middelbare School: de Participantrollen en het Verband met de Theory of Mind.

Running head: INVLOED MBSR-TRAINING OP STRESS EN ENERGIE 1. De Invloed van MBSR-training op Mindfulness, Ervaren Stress. en Energie bij Moeders

DATA MINING (TI2730-C)

Robotic accounting & machine learning

Diagnostiek van DVT en LE bij ouderen. Fred Haas

Introductie in flowcharts

SEQUENTIE-STRUCTUUR. Oefening: Dichtheid

Forensisch onderzoek aan handtekeningen. Linda Alewijnse

Transcriptie:

Inl. Adaptieve Systemen Gerard Vreeswijk Leerstoelgroep Intelligente Systemen, Departement Informatica en Informatiekunde, Faculteit Bètawetenschappen, Universiteit Utrecht. Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 1

1. Concepten uit machinaal leren. Inhoud 2. Uitputtend algoritme voor het leren van één regel: EGS. Heuristisch algoritme voor het leren van één regel: HGS. 3. Het leren van meerdere regels voor één conclusie. Het leren van meerdere regels zonder een vooraf bepaalde doelconclusie: ongesuperviseerd leren. Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 2

Motivatie is o.a. nuttig voor: 1. Sensemaking (ietwat modieuze term). Ongeveer: Het herkennen van regels en patronen in het op het eerste gezicht onoverzichtelijke berg gegevens. 2. Het automatisch vullen van de rulebase (kennisbank) van zg. (a) Expert systems (ook wel bekend als rule-based systems ). (b) Argumentatiesystemen. Dit zijn systemen waarmee computers kwalitatief kunnen redeneren op basis van onzekere en/of onvolledige kennis ( ROOK ). http://people.cs.uu.nl/gv/code/as/index.cgi. 3. Ter vergelijking van Holland s zg. learning classifier systems (LCS, XCS, ZCS). Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 3

Destilleren van regels uit situatiebeschrijvingen Voorbeeld van een set van situatiebeschrijvingen: Jaar. Gebeurtenissen. 2006: New president, DeNiro Movie, Eclipse 2007: Tour de France, Olympic Games, European Championship Football, New president, DeNiro Movie 2008: Tour de France, DeNiro Movie 2009: Tour de France, World Championship Football, DeNiro Movie 2010: Tour de France, DeNiro Movie 2011: Olympic Games, Tour de France, European Championship Football, DeNiro Movie.. Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 4

Jaar. Abstracte situatiebeschrijvingen Gebeurtenissen. 2006: a, b, d, g, j, k, m 2007: b, c, d, e, f, h, i, j 2008: a, c, d, e, f, k, l, m 2009: a, b, d, g, h, j, k, m 2010: b, c, e, f, g, i, j, n 2011: a, c, e, f, k, l, m.. Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 5

Jaar. Situatiebeschrijvingen in regelformaat Gebeurtenissen. 2006: a, b, d, g, j, k, m 2007: b, c, d, e, h, i, j > f 2008: a, c, d, e, k, l, m > f 2009: a, b, d, g, h, j, k, m 2010: b, c, e, g, i, j, n > f 2011: a, c, e, k, l, m > f.. Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 6

Basisconcepten Machinaal Leren Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 7

Basisconcepten machinaal leren Regels leren machinaal leren. Beschouw: 1. Instanties: punten in {0, 1, 2,..., 100} 2. 2. Mogelijke classificaties: positief (), negatief (), of ongedefinieerd. 3. Dataset: deelverzameling van instantieverzameling: (22, 25) (76, 54) (37, 23) (37, 37) (25, 80) (34, 75) (85, 78) (22, 38) (90, 10) 4. Gezocht: criterium om toekomstige instanties te classificeren. Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 8

Concepten uit machinaal leren 100 100 75 75 50 25 0 0 25 50 75 100 50 25 0 0 25 50 75 100 Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 9

Concepten uit machinaal leren (II) 100 75 50 25 0 0 25 50 75 100 Belangrijke concepten: Dataverzameling (= alle bekende instanties) Positieve instanties Negatieve instanties Instantieruimte (= alle mogelijk denkbare instanties) Hypothese (hier: gesloten rechthoek) Hypotheseruimte (= alle mogelijke hypothesen) Classificatie (hier: of ) Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 10

100 75 50 25 0 Concepten uit machinaal leren (III) 0 25 50 75 100 Belangrijke concepten: Match van H: correcte classificaties data-instanties H is consistent: match = 1 = 9 11 Bereik van H = mogelijk denkbare instanties gedekt door H 20 30 = 600 punten Overdekking van H: data in het in het bereik van H (5 punten) Accuratesse van H: ratio correct geclassificeerde data op bereik van H = 4/5 Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 11

Netlogo Machine Learning Lab Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 12

Regels leren Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 13

Het leren van één regel: algoritme EGS EGS = exhaustive general-to-specific. Voorbeeld: we willen een regel leren voor d op basis van de volgende vijf casussen: 1. a, c, b, d 4. a, b 2. b, a, d 5. a, d 3. b, c, d i. Positieve instanties: 1 en 2. ii. Negatieve instanties: 3 en 5. iii. Neutrale instantie: 4. Meest algemene regel voor d: d. Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 14

Het leren van één regel: specialisatie, stap één 1. a, c, b, d 4. a, b 2. b, a, d 5. a, d 3. b, c, d Specialisatie Prestatie Actie a d dekt negatieve instantie nr. 5 specialiseer verder b d dekt negatieve instantie nr. 3 specialiseer verder c d mist positieve instantie nr. 2 verwijder regel a d mist positieve instantie nr. 1 verwijder regel b d mist positieve instantie nr. 1 verwijder regel Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 15

Het leren van één regel: specialisatie, stap twee 1. a, c, b, d 4. a, b 2. b, a, d 5. a, d 3. b, c, d Specialisatie Prestatie Actie a, b d perfecte match behoud regel a, c d mist positieve instantie nr. 2 verwijder regel a, b d mist positieve instantie nr. 1 verwijder regel Regel a, b d is algemeen genoeg gebleven om 1 en 2 af te dekken, maar specifiek genoeg geworden om 3, 4 en 5 te missen. EGS is volledig: het vindt alle meest-algemene hypothesen die consistent zijn met de data. Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 16

Inconsistentie en ruis Diagram 1: inconsistente data. Diagram 2: ruis (zie element rechtsboven). 100 75 100 75 50 25 0 0 25 50 75 100 50 25 0 0 25 50 75 100 Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 17

Problemen met exhaustive general-to-specific (EGS) 1. Exploreert alle mogelijke specialisaties van regel-antecedenten combinatorische explosie zoekruimte. 2. Data met ruis oversized hypothesen. 3. Inconsistente data helemaal geen hypothesen. 4. Produceert alle consistente hypothesen meestal willen we alleen de beste(n)...... of ze nu consistent met de data zijn of niet. Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 18

Heuristic general-to-specific (HGS) 1. Uitputtend zoeken is... te uitputtend. Alternatief: ga op elk moment verder met de b beste regels. Dit wordt beam-search genoemd, b is de beam-grootte (of wijdte). Collectie van open hypothesen bestaat nu altijd uit b regels. 2. Consistentie als kwaliteitsmaat is te zwart-wit: alleen 0 (inconsistent) of 1 (consistent). Alternatief: pas reëelwaardige kwaliteitsmaat (score) toe, bijvoorbeeld score(h) = Def match(h). Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 19

z 0.40 a z 0.53 b z 0.47 c z 0.71 a, b z 0.57 a, c z 0.59...... c, a z 0.83 c, b z 0.76...... a, c, b z 0.53 (< 0.59) STOP a, c, b z 0.57 (< 0.59) c, a, b z 0.85.................. c, a, b, e z 0.89 Getallen geven regelscore aan. Regelscore kan de match zijn, de accuratesse, of een combinatie van deze twee factoren....... c, a, b, e, g z 0.94......... Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 20

Waarom meer dan één regel leren? Best scorende individuele regel. Best scorende regelverzameling. 100 75 50 25 0 0 25 50 75 100 100 75 50 25 0 0 25 50 75 100 Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 21

Het leren van regelverzamelingen Pas relatieve kwaliteitsmaat toe, toegespitst op accuratesse: Probleem: overfitting. Voorbeeld: score(h) = Def accuracy(h). 1. Gegeven: Onderwijzer tekent aantal punten, ongeveer in rechte lijn. 2. Algemene achterliggende concept: Een rechte lijn. 3. Overfitting: Leerling interpoleert punten met polygoon. Ander voorbeeld: a. Gegeven: Ouder toont drie rode objecten aan 2-jarig kind. b. Algemene achterliggende concept: Rood. c. Overfitting: Kind verwerpt alle andere rode dingen als rood, omdat het denkt dat alleen drie getoonde voorwerpen de eigenschap roodheid bezitten. Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 22

Meerdere regels: afweging tussen eenvoud en accuratesse Nauwkeurige maar complexe afdekking. Eenvoudige maar onnauwkeurige afdekking. Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 23

Sequentieel afdekken (sequential covering) Input: P, a list of positive instances Input: N, a list of negative instances Input: SCORE, a subroutine that computes the performance of an elementary hypothesis Input: l, a lower bound for what is acceptable as a score 1: - R := [ ]; 2: while P has elements do 3: - let r be the rule that is produced with HGS with parameters SCORE, P and N 4: - leave the while-loop if accuracy(r) > l; 5: - put r in R; 6: - remove all members of P that are covered by r; 7: return (R, P); # P contains all instances not covered by R Met veel scores kan bewezen worden dat P op t eind leeg is. Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 24

Parametrizeerbare scorefunctie score(h) = a accuracy(h) b range(h) c coverage(h) a b c geproduceerde regelset groot klein klein overfitting; veel regels met lange antecedenten; veel toekomstige instanties negatief klein groot klein weinig regels; korte regel-antecedenten; veel positieve data niet gedekt klein klein groot weinig regels; groot gedeelte van de data is gedekt Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 25

Geloofwaardigheid (DOB) en implicatiesterkte (strength) Notatie: DOB( x, y (0.91) z ) = 0.45 Geloofwaardigheid (DOB, hier 0.45) en implicatiesterkte (hier 0.91) worden aangeleverd door geleerde waarden: 1. Geloofwaardigheid door (relatieve) coverage: welk percentage van het bereik van de regel (gegeven door de regel-antecedent) is reeds bekend (is data)? 2. Implicatiesterkte door accuratesse: op welk percentage aan data classificeert regel correct? Tabel: Geloofwaardigheid (DOB) coverage(r)/range(r) implicatiesterkte accuracy(r) Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 26

Ongesuperviseerd leren Ongesuperviseerd leren: het leren van regels zonder dat je vooraf aangeeft naar welke conclusies je zoekt. Input: A, a (high 0.98) lower bound for rule accuracy 1: - set R all to [ ]; 2: for each literal L that occurs in the data do 3: - set P, the list of positive instances, for L 4: - set N, the list of negative instances, for L 5: - augment, trough sequential covering, R all with all rules learned for L, as accurate as A; 6: return R all ; # all rules are as accurate as A Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 27

Andere manieren om regels te leren 1. Batch vs. real-time verwerken van instanties. Ook bekend als off-line vs. on-line, of als incrementeel vs. non-incrementeel verwerken van instanties. Er werd besproken: batch. 2. General-to-specific vs. specific-to-general ontwikkeling van hypothesen. Er werd besproken: {E H}GS. Een combinatie van beiden (GS SG) kan ook (vgl. zg. versieruimten in machinaal leren). 3. Sequentieel afdekken vs. uitzondering-op-uitzondering. Er werd besproken: sequentieel afdekken. Uitzondering-op-uitzondering: 1e regel is ruwe benadering; 2e regel is correctie op 1e regel; 3e regel is correctie op 2e regel, enzovoort. Gerard Vreeswijk. Laatst gewijzigd op 15 juni 2011 om 10:54 uur Slide 28