Uitwerking Tentamen Datamining (2II15) 26/06/09

Transcriptie

1 Uitwerking Tentamen Datamining (2II15) 26/06/09 1. (3p) (Clustering) Welke van de volgende uitspraken zijn correct? Voor de correcte uitspraken: leg uit, voor de incorrecte: geef een tegenvoorbeeld. (a) Het k-means algoritme met de Euclidische afstandsmaat zal steeds convergeren, maar niet altijd naar dezelfde oplossing. Oplossing: Deze uitspraak is correct. Er is maar een eindig aantal keuzes voor de k cluster centroids (centroids worden bepaald als het gemiddelde van de cluster en het aantal clusters is beperkt tot het aantal deelverzamelingen van de relatie die geclusterd wordt). Bovendien daalt in elke iteratie van het k-means de SSE (sum of squared errors). Het algoritme stopt als de SSE twee iteraties na elkaar niet verandert. (b) Het DBSCAN algoritme convergeert steeds naar dezelfde oplossing, onafhankelijk van de ordening van de tuples in de relatie die geclusterd wordt. Oplossing: Deze uitspraak is niet waar; border-punten kunnen mogelijk densityreachable zijn vanuit twee core punten die zelf niet density-connected zijn. Afhankelijk van welk core-punt als eerste gekozen wordt zal het border punt tot de cluster met het ene dan wel het andere core-punt behoren. Een voorbeeld hiervan: Deze figuur toont 11 punten. De drie cirkels geven de afstand ɛ aan voor de drie middelste punten. Veronderstel dat minpts = 4. Afhankelijk van de volgorde waarin de punten beschouwd worden zal nu het middelste punt tot de linkse dan wel tot de rechtse cluster behoren. (c) Zowel k-means als DBSCAN zijn enkel geschikt om laag-dimensionale data te clusteren. Oplossing: Dit is niet waar. Met de correcte afstandsmaat kunnen beide algoritmes ook hoog-dimensionale data clusteren. De dimensionaliteit is vooral een probleem voor de afstandsmaten en niet voor de clustering-algoritmes zelf. De essentie hier is uiteraard de identificatie van het mogelijke probleem met afstandsmaten. Daarom werden antwoorden waarbij duidelijk het gebruik van de Euclidische afstandsmaat verondersteld werd ook goedgekeurd.

2 2. (3p) Beschouw de volgende dataset: TID Items 1 appel, banaan, bier, chips, melk, rum 2 banaan, bier, rum, peer 3 chips, melk, peer 4 banaan, melk, strip 5 appel, banaan, chips, rum, peer 6 banaan, melk, rum, strip 7 bier, chips, melk, rum 8 chips, rum, strip 9 appel, peer 10 banaan, bier, chips, rum (a) Illustreer het Apriori-algoritme door te tonen hoe dit algoritme alle itemsets met een minimale support van 50% in deze dataset vindt. Oplossing: In de eerste stap genereert het Apriori-algoritme alle sets van grootte 1: C 1 = {{appel}, {banaan}, {bier}, {chips}, {melk}, {rum}, {peer}, {strip}} Deze sets worden samen in 1 scan over de database geteld: De frequente 1-itemsets zijn dus: {appel}: 30% {banaan}: 60% {bier} : 40% {chips} : 60% {melk} : 50% {rum} : 70% {peer} : 40% {strip} : 30% F 1 = {{{banaan}, {chips}, {melk}, {rum}} Enkel die sets van lengte 2 waarvoor geldt dat al hun deelverzamelingen van lengte 1 frequent zijn worden als kandidaat beschouwd: C 2 = {{banaan, chips}, {banaan, melk}, {banaan, rum}, {chips, melk}, {chips, rum}, {melk, rum}} Deze sets worden samen in 1 scan over de database geteld: De frequente 2-itemsets zijn dus: {banaan,chips}: 30% {banaan,melk}: 30% {banaan,rum} : 50% {chips,melk} : 30% {chips,rum} : 50% {melk,rum} : 30% F 2 = {{banaan, rum}, {chips, rum}} Er worden geen kandidaten van lengte 3 gegenereerd, aangezien elke set van lengte 3 minstens 1 niet-frequente subset van lengte 2 heeft en dus wordt weggesnoeid. De uiteindelijke set van frequente itemsets is: F = {{}, {banaan}, {chips}, {melk}, {rum}, {banaan, rum}, {chips, rum}}

3 (b) Geef van elk de volgende constraints aan hoe ze efficiënt gebruikt kunnen worden bij het minen naar associatie-regels X Y. (Hint: het minen van associatie-regels wordt meestal opgesplitst in eerst het minen van de frequente itemsets en daarna het opdelen van de frequente itemsets in linker- en rechterkant van de regels. De constraints kunnen al in de eerste faze nuttig gebruikt worden.) X bevat banaan, X noch Y bevatten appel, Y bevat minstens een van de dranken (bier, melk of rum), X Y bevat minstens 3 items. Oplossing: X bevat banaan: verwijder alle transacties uit de database die geen banaan bevatten. Mine in deze gereduceerde dataset alle itemsets met dezelfde absolute minimale support als in de originele dataset. X noch Y bevatten appel: verwijder alle appels uit de database. Alle transacties met appel erin verwijderen is uiteraard fout. Y bevat minstens een van de dranken (bier, melk of rum): het verwijderen van alle transacties uit de database die geen enkele van de drie dranken bevatten, zoals dat wel kon voor banaan, is fout. Bij het bepalen van de confidence van de regel X Y hebben we de support van X nodig. Als we alle transacties zonder drank verwijderd hebben, dan wordt de support van X foutief berekend; de eigenschap waarop het schrappen van de transacties met drank gebaseerd is, is namelijk: als we alle transacties zonder drank verwijderen, verandert de absolute support van een itemset met een drank erin, niet. Dus: ofwel wordt deze constraint pas in de tweede faze uitgebuit door enkel frequente itemsets met een drank in op te splitsen en dit zo te doen dat deze drank in Y zit, of door eerst enkel de frequente itemsets met een van de dranken in de zoeken (nu kunnen wel de transacties zonder drank verwijderd worden) en daarna in een faze 1(b) de frequenties van alle subsets van deze sets zonder een drank erin te zoeken in de database waar de transacties zonder drank niet verwijderd zijn. Een voorbeeld: stel de database is: {(1, {rum, chips}), (2, {chips})} Als we eerst alle transacties zonder drank weghalen krijgen we: {(1, {rum, chips})} In deze dataset heeft chips een support van 1, wat leidt tot de foutieve conclusie dat de associatieregel chips rum een confidence van 1 heeft. X Y bevat minstens 3 items: om dezelfde reden als in het vorige punt is het verwijderen van alle transacties met minstens 3 items fout. Dus, opnieuw: deze constraint pas in de tweede faze uitbuiten door enkel frequente itemsets van lengte 3 op te splitsen, of door eerst enkel de frequente itemsets van minstens lengte 3 te zoeken en daarna in een faze 1(b) de frequenties van alle subsets van deze sets zoeken in de originele database. Voor oplossingen waar gekozen werd voor uitbuiting van de constraints in de tweede faze werd slechts 1 keer.25 punt toegekend.

4 (c) Zoek in deze dataset alle associatie-regels X Y met een minimale support van 30% en een minimale confidence van 80% die aan alle constraints uit (b) voldoen. Oplossing: We buiten eerst de constraints uit die zowel voor X als X Y gelden, zijnde: X (en dus ook X Y ) bevat banaan, X noch Y (en dus ook X Y niet) bevatten appel en de support van de regel X Y (en dus, bij definitie, de support van X Y en door het monotoniciteits principe X) is minstens 30%. Door het toepassen van de strategie beschreven in (b) kunnen we achtereenvolgens: i. alle transacties zonder banaan verwijderen (3, 7, 8 en 9) ii. het item appel uit alle overgebleven transacties verwijderen (constraint 2) iii. de items strip en peer verwijderen (wegens te lage frequentie) Dit geeft ons volgende gereduceerde database: D 2 := TID Items 1 banaan, bier, chips, melk, rum 2 banaan, bier, rum 4 banaan, melk 5 banaan, chips, rum 6 banaan, melk, rum 10 banaan, bier, chips, rum De associatieregels met support 30% en confidence 80% in de originele database die voldoen aan de constraints zijn exact dezelfde als in deze nieuwe met een minimale absolute support van 3 en een minimale confidence van 80%. We zouden nu in deze database alle frequente itemsets kunnen minen, maar om het werk verder te verminderen zullen we de strategie toepassen om eerst alle X Y te vinden en daarna de frequenties van de X-en die we nog missen te zoeken. Op X Y liggen nog bijkomende constraints: minstens een van de dranken moet aanwezig zijn en de lengte van de itemset moet minstens 3 zijn. We kunnen dus nog bijkomend volgende acties doen: i. alle te korte transacties verwijderen (enkel 4) ii. item melk verwijderen (te lage absolute support van 2) iii. opnieuw te korte transactie verwijderen (6) Dit levert volgende database op: D 3 := TID Items 1 banaan, bier, chips, rum 2 banaan, bier, rum 5 banaan, chips, rum 10 banaan, bier, chips, rum De itemsets van lengte 3 of meer zonder appel, met banaan, met een minimale absolute support van 3 die minstens een van de drie dranken bevatten zijn dezelfde als in de originele database. Zelfs hun support is hetzelfde. Merk op dat alle transacties zowel rum als banaan bevatten. In deze database geldt dus voor elke itemset I dat support(i) = support(i {banaan}) = support(i {rum}) = support(i {rum, banaan}) Daarom zoeken we enkel de frequente itemsets zonder deze twee items en vullen achteraf aan met alle combinaties van banaan en rum. Het is nu eenvoudig om te zien dat enkel de volgende itemsets zonder banaan en rum frequent zijn: {} : 4, {bier} : 3, {chips} : 3

5 Dus, de enige itemsets van lengte minstens 3 die een minimale absolute support van minimaal 3 hebben in deze dataset zijn: {banaan, bier, rum} : 3, {banaan, chips, rum} : 3 Nu moeten we nog alle supports van de subsets X met banaan van deze twee sets zoeken in D 2 (!! niet in D 3!! Door een gelukkig toeval kwam dit in deze database wel op hetzelfde neer). Dit levert volgende supports: {banaan} : 6, {banaan, bier} : 3, {banaan, rum} : 5, {banaan, chips} : 3 We hebben dus enkel volgende twee association rules met minimale support 30% en minimale confidence 80% die aan alle constraints voldoen: {banaan, bier} {rum} {banaan, chips} {rum}

6 3. (4p) Een onderzoeksteam stelt een nieuw algoritme voor om categorische data te classificeren. Hun onderzoeksresultaten zijn beschreven in de bijlage. Lees deze bijlage aandachtig en maak een kritische analyse van het onderzoek. (a) Algoritme. Zijn de keuzes voor de classificatie algoritmes (Naive Bayes en Nearest Neighbor met Euclidische afstand) logisch? Leg uit. (b) Experimenten. Is de experimentele opzet correct? In het bijzonder, is wat gemeten wordt relevant en ondersteunen de experimenten de claims die gemaakt worden? (c) Conclusies. Zijn de conclusies en de gegeven verklaringen correct? Indien niet, waarom? Geef voor elk negatief punt kort aan hoe dit opgelost zou kunnen worden. Bij een uitzonderlijk goed antwoord op deze vraag kan een bonus-punt verdiend worden. Oplossing: Omdat verschillende problemen zowel onder (a), (b), als (c) konden geplaatst worden, splitsen we de lijst niet volgens deze categorieën op. Mogelijke oplossingen zijn in italics gegeven. We identificeren drie grote problemen (elk 1 punt waard): De keuze voor het gebruik van de Euclidische afstand is zonder meer desastreus. Deze afstandsmaat is absoluut niet geschikt voor zulke hoog-dimensionale data en levert quasi random resultaten op. Dit kan trouwens goed gezien worden in de experimenten: 75% van de mails is spam en 25% is niet-spam. Indien de afstandsmaat random is zou je dus verwachten dat in 75% van de gevallen de dichtste buur spam is en in 25% nonspam. Het label spam is in 75% van de gevallen het correcte label tegen 25% voor nietspam. De te verwachten accuraatheid bij 1-NN met een random afstandsmaat is dus: (0, 75) 2 + (0, 25) 2 = 62, 5%. Bij 10-NN of 100-NN wordt het meest voorkomende label van de 10 respectievelijk 100 dichtste buren voorspeld. In het geval van een random afstandsmaat zal dit bijna altijd het label spam zijn, wat in 75% van de gevallen correct is. De accuraatheden verkregen in de experimenten bevestigen deze trend. Sowieso is het heel erg verdacht als 1-NN slechter scoort dan de baseline classifier die steeds de grootste klasse voorspelt. De daling in accuraatheid van de NN classifier is dus waarschijnlijk helemaal niet te wijten aan ruis (hoewel de stelling minder buren leidt tot hogere gevoeligheid voor ruis wel correct is). De hogere accuraatheid bij een hoger aantal buren is in dit geval naar alle waarschijnlijkheid enkel en alleen te wijten aan het feit dat bij een hoger aantal buren en een random afstandsmaat, NN steeds dichter bij de base-line classifier komt. Gebruik een andere afstandsmaat, b.v.b. Jaccard, SMC, cosine, weighted Euclidian distance (let op: optimalisatie gewichten binnen cross-validatie doen) Elk van de afzonderlijke experimenten is correct uitgevoerd met cross-validation, maar de optimalisatie van de parameters (minimale support en aantal buren) gebeurt buiten de test procedure. Als dusdanig kunnen we geen besluiten trekken over de verschillende parameter settings heen; de experimenten ondersteunen de claim van 81% accuraatheid voor de Naive Bayes classifier en 77% voor de Nearest neighbor classifier niet. Let op: het probleem hier is niet dat in de afzonderlijke experimenten dezelfde data wordt gebruikt voor testen en trainen. 10-fold cross validation is een perfect veilige bescherming tegen over-fitting en is zelfs een betere methode dan opsplitsen in een testen training-set. Houd een deel van de data apart en test daarop enkel de meest veelbelovende parameter setting met cross-validatie.

7 Het totaal ontbreken van enig vergelijkingspunt is een duidelijk gemis in deze methode. Hoe kan men nu serieus claimen dat de methode veelbelovend is indien ze niet eens vergeleken wordt met de Naive Bayes en NN classifiers uitgevoerd op de oorspronkelijke, niet-aangepaste dataset? Misschien (waarschijnlijk zelfs) is de aanpassing om eerst de dataset te transformeren zelfs nadelig voor de accuraatheid! Een simpele vergelijking met de baseline classifier (die steeds spam voorspelt) leidt reeds tot de conclusie dat de resultaten helemaal niet zo fantastisch zijn; de baseline classifier heeft een accuraatheid van maar liefst 75%. De 77% van de NN classifier duidt als eerder op over-fitting omdat de parameter optimalisatie buiten de cross-validatie gehouden wordt. Ook bij de 81% kunnen vraagtekens geplaatst worden. Vergelijk met de baseline classifier en met classifiers op de originele database. Enkele kleinere punten (elk 0.5 punten waard) De keuze voor een even aantal buren bij NN (10 en 100) is niet logisch omdat dit betekent dat we soms ties kunnen hebben in de voorspellingen: van de 10 dichtste buren zijn er 5 spam en 5 niet-spam. Gebruik 11 en 101. Op de keuze voor de Naive Bayes classifier valt weinig op te merken. Eventueel kan er opgemerkt worden dat de attributen niet class-independent zijn, maar dat is vaak zo in toepassingen waar deze methode dan toch goed scoort; vaak blijven de voorspellingen correct en is enkel de waarschijnlijkheid die berekend wordt minder betrouwbaar. De keuze om frequente itemsets te gebruiken is vrij ongelukkig. Het valt te verwachten dat er weinig itemsets frequent gaan zijn die typisch voor niet-spam mails zijn aangezien zij maar 25% van de database uitmaken. Overigens zou het interessanter zijn om itemsets te scoren op het verschil in frequentie in beide klassen i.p.v. op frequentie over beide klassen heen. De relatief lage accuraatheid van de Naive Bayes classifier lijkt inderdaad te wijzen in de richting van een slechte attribuut-selectie. Selecteer de meest veelbelovende itemsets door hun correlatie met het klasse-attribuut te berekenen en enkel de hoogste te weerhouden. Voor het domein spam detectie is accuraatheid geen goede maat, omdat accuraatheid veronderstelt dat elk type van fout even belangrijk is. In deze dataset is dat echter niet het geval; een spam mail classificeren als niet-spam is minder erg dan omgekeerd. Al kan hier wel geargumenteerd worden dat de bedoeling van de experimenten in de eerste plaats het valideren van de methode is, eerder dan een zo goed mogelijke classifier voor spam mails te maken. Bij de laatste conclusie is de verklaring nonsens: de Naive Bayes classifier heeft helemaal geen last van onafhankelijke of grote aantallen attributen. Hoewel het terugdringen van het aantal features (in dit geval het aantal maximale frequente itemsets) een bijzonder goed idee is, zal het nemen van enkel closed maximal itemsets weinig soelaas bieden; elke maximaal frequente itemset is closed aangezien een maximaal frequente itemset zelf frequent is en al zijn subsets infrequent zijn en dus niet dezelfde support kunnen hebben. Ook lijken de auteurs van het rapport impliciet aan te nemen dat het aantal maximale sets steeds zal dalen indien de minimale support stijgt, maar dat hoeft helemaal zo niet te zijn. Daarnaast werden nog aanvullende puntjes gegeven die ook elk 0.5 punten opleverden indien correct/aannemelijk.