Data Mining. Eindverslag 7 juni 2009
|
|
|
- Godelieve de Veen
- 9 jaren geleden
- Aantal bezoeken:
Transcriptie
1 Data Mining Eindverslag 7 juni 2009 Naam: Mathijs de Langen Stijn Koopal Marvin Raaijmakers Giel Oerlemans [email protected] [email protected] [email protected] [email protected]
2 Hoofdstuk 1 Tussentijds rapportage 1.1 Inleiding In dit tussentijds rapportage van het datamining project zullen we beginnen met een aanpassing aan de taken die we op de dataset willen verrichten. Dit heeft te maken met de keuze van de dataset. Aangezien enkel de general demographics dataset beschikbaar is via de vak-website kunnen vragen met betrekking tot privacy niet beantwoord worden. Naderhand wordt een beschrijving gegeven van de door ons gebruikte dataset, met daarbij de attribuuttypen, relaties, ontbrekende waarden, geschikte afstandsmaten en eenvoudige visualisaties van de data. Vervolgens geven we een overzicht van uit te voeren data-mining taken en de benodigde preprocessing die voor deze taken vereist is. Voor deze taken zullen wij gebruik maken van het software pakket RapidMiner [2]. 1.2 Herziening te verrichten taken Zoals in de inleiding reeds vermeld is, zijn we met de general demographics dataset niet alle onderzoeksvragen te beantwoorden. We schrappen de volgende vraag: We willen weten met welke attributen we de wens naar privacy kunnen classificeren. 1.3 Onderzoeksvragen We willen de volgende classificaties onderzoeken: k1 We willen weten met welke attributen we de redenen om niet aan online purchasing te doen kunnen classificeren. k2 We willen weten met welke attributen we het internet gebruik van een persoon kunnen classificeren. Met internet gebruik bedoelen we de tijd dat de persoon al internet gebruikt. k3 We willen weten met welke attributen we het gebruikte operating system kunnen classificeren. 1
3 We willen de volgende associaties onderzoeken: a1 Welke invloed heeft het geslacht op andere attributen. a2 Welke invloed heeft de sexuele voorkeur op andere attributen. a3 Welke invloed heeft het ras op andere attributen. 1.4 Beschrijving dataset De dataset die wij gebruiken komt voort uit een survey die is gehouden onder een grote populatie mensen. Dit wordt verder besproken in hoofdstuk Aan de hand van deze survey is een dataset gecreëerd die wij gaan analyseren. Onze dataset bestaat uit 72 attributen en heeft geen ontbrekende waarden volgens de initiële beschrijving van de dataset. We hebben te maken met gevallen, we kunnen dus zeggen dat de dataset eruit ziet als rijen met 72 kolommen. Er zijn verschillende attribuuttypes. We hebben te maken met booleanwaarden, enumeraties en integerwaarden. Met enumeraties wordt bedoeld dat een persoon kan kiezen uit een lijst van opties Survey De dataset is verkregen uit een survey onder meer dan tienduizend personen. De complete survey is te vinden op de website van GVU (Graphics, Visualization, & Usability Center) [1]. Zoals gezegd is gekozen voor de General Demographics dataset. Hierin worden meer algemene vragen gesteld met betrekking tot internetgebruik. Verschillende onderwerpen komen aan bod, van meer persoonlijke vragen naar leeftijd en moedertaal, tot meer technische vragen over het gebruikte besturingssysteem. Enkele interessante vragen waarvan wij de antwoorden gaan proberen te beschrijven aan de hand van de overige attributen zullen hier gegeven worden: 1. Why don t you purchase more products and services on the web, either for yourself or for your work business? Deze vraag biedt een uitgebreide lijst antwoordmogelijkheden met redenen om niet meer producten via web-services te kopen. Deze vraag zal van belang zijn bij het beantwoorden van onderzoeksvraag k1. Omdat de antwoorden allen door aparte kolommen in de data-set gerepresenteerd worden, moet er nog het een en ander aan pre-processing gebeuren, voordat de antwoordenverzameling geschikt is om als target attribuut te gebruiken. 2. How long have you been using the Internet (including using , gopher, ftp, etc.)? Bij het beantwoorden van onderzoeksvraag k2 kunnen de antwoorden op deze vraag als uitgangsclassen gebruikt worden. Het feit dat het hier om een ordinale classenindeling gaat, maakt de antwoorden uitermate geschikt als classificatie. 3. What is your primary computing platform? De mogelijke lijst antwoorden is vrij groot (en gedateerd) en is ook geschikt om als target attribuut te gebruiken bij het beantwoorden van onderzoeksvraag k3 2
4 4. What is your sex? Een interessante vraag voor het beantwoorden van onderzoeksvraag a1. De enige mogelijkheden zijn man of vrouw. We gaan uitzoeken of er typische mannen of vrouwen dingen bestaan met betrekking tot het internet. 5. How would you classify yourself? Deze vraag wordt pas duidelijk wanneer men de mogelijke antwoorden bekijkt. De vraag heeft betrekking op de sexuele voorkeur, mogelijke antwoorden zijn: None of your business!, heterosexual, gay male, lesbian, bisexual, transgender. De laatste is nogal dubbelzinnig, aangezien het niet duidelijk is of het hier gaat om het transseksueel zijn, of het vallen op transseksuelen. We nemen hier de eerste definitie Het transseksueel zijn. De vraag speelt een belangrijke rol bij het beantwoorden van onderzoeksvraag a2. 6. How would you classify yourself? Hoewel de vraag exact hetzelfde is als de vorige is hij toch uniek. Wederom kijken we naar de antwoorden en constateren we dat het hier gaat om de vraag tot welk ras de persoon behoort. Bij het beantwoorden van onderzoeksvraag a3 staat deze vraag centraal Data visualisatie Voordat we de data daadwerkelijk gaan minen, zullen we eerst een deel van de relevante data visualiseren aan de hand van histogrammen en schijfdiagrammen. Door deze visualisatie kunnen we de verdeling van een aantal eigenschappen binnen de dataset bekijken. We bekijken dus leeftijd, geslacht, inkomen, welk besturingssysteem er wordt gebruikt, het ras en de seksuele voorkeur van de ondervraagden, omdat dit relevante informatie is voor onze onderzoeksvragen. Zo kunnen we in Figuur 1.3 duidelijk zien dat de gemiddelde leeftijd van de ondervraagden net boven de dertig jaar zit. Ook is het duidelijk dat er meer mannen dan vrouwen zijn ondervraagd (Figuur 1.5). In Figuur 1.6 kunnen we zien dat een redelijk aantal mensen niets over hun inkomen vrij wilde geven. De meeste mensen verdienen tussen de $ en $ Meer dan de helft van de ondervraagden gebruikt het besturingssysteem Windows 95, wat te zien is in Figuur 1.7. Na Windows scoort Macintosch nog redelijk hoog. Als we kijken naar het ras van de ondervraagden zien we dat bijna alle ondervraagden blank zijn. Dit is te zien in Figuur 1.8. Als laatste hebben we een schijfdiagram van de seksuele voorkeur (Figuur 1.9) van de mensen die de enquette hebben ingevuld en daar is te zien dat het grootste aantal personen hetroseksueel is. Het aantal lesbiennes is drie maal zo klein als het aantal homofiele mannen Preprocessing Er is niet veel preprocessing nodig op deze dataset. Er bestaan geen (vooraf bepaalde) afhankelijkheden tussen de verschillende vragen. De enige situatie waar we we in de problemen geraken zijn vragen waarbij meerdere antwoorden gegeven kunnen worden. Deze antwoorden vertegenwoordigen allen een attribuut in de dataset, wat het classificeren van deze attributen vermoeilijkt. Een goed voorbeeld van dit probleem is de vraag waarom men niet aan online purchasing zou doen. Hierop zijn negentien antwoorden mogelijk. We zitten met drie opties: 3
5 1. 19 binaire classificatie taken beschouwen 2. Elke subset labelen 3. Natuurlijk hierarchy in de antwoorden ontdekken In het eerste geval zou de interpretatie van de resultaten voor veel problemen kunnen zorgen, omdat 19 verschillende classificaties erg onoverzichtelijk zijn. In het tweede geval krijgen we 2 19 subsets, wat ook niet wenselijk is. We zijn dan ook aangewezen op optie nummer drie, waarvoor het bestaan van een natuurlijke hierarchy een vereiste is. We hebben zo n hierarchy weten te ontdekken. Deze wordt afgebeeld in Figuren 1.1 en 1.2. Figuur 1.1: Hierarchy online purchasing antwoorden 4
6 Figuur 1.2: Hierarchy online purchasing antwoorden 5
7 Figuur 1.3: Box plot van de leeftijd van de ondervraagden. 6
8 Figuur 1.4: Histogram van de leeftijd van de ondervraagden. 7
9 Figuur 1.5: Schijfdiagram van het geslacht van de ondervraagden. 8
10 Figuur 1.6: Schijfdiagram van de inkomensverdeling van de ondervraagden. 9
11 Figuur 1.7: Schijfdiagram van de gebruikte besturingssystemen van de ondervraagden. 10
12 Figuur 1.8: Schijfdiagram van het ras van de ondervraagden. 11
13 Figuur 1.9: Schijfdiagram van de sexuele voorkeur van de ondervraagden. 12
14 Hoofdstuk 2 Mining 2.1 Introductie In de laatste fase van het project gaan we de dataset daadwerkelijk mijnen. Zoals reeds in Hoofdstuk 1 vermeldt, zullen we dit doen met behulp van de software RapidMiner. In dit hoofdstuk zal de gebruikte methodiek bij iedere onderzoeksvraag nader toegelicht worden. Vervolgens zullen kort de resultaten die de betrekkelijke methode produceert worden doorgenomen en de hieruit getrokken conclusies worden behandeld. 2.2 Classificaties algemeen Voor de classificaties wordt in RapidMiner gebruik gemaakt van de operator chain zoals weergegeven in Figure 2.1. Allereerst wordt de data ingeladen met de operator Example Figuur 2.1: The operator chain as it is used for classifications in RapidMiner Source. Daarna worden de attributen gewogen gesampled door de Equallabelweighting en 13
15 WeightedBootstrappingValidation operatoren. De trainingchain bevat de miningsoperator. Voor de classificaties minen we met de DecisionTree operator en de NaiveBayes operator. De validatorchain bevat een ModelApplier, die het model klaar maakt om te valideren. Dit valideren wordt gedaan door de ClassificationPerformance operator, waarbij een belangrijk criteria Accuracy is. 2.3 Classificatie één (k1) We willen weten met welke attributen we de redenen om niet aan online purchasing te doen kunnen classificeren. De data die nodig is om deze classificatie te maken is verdeeld over meerdere kolommen. Elk van deze kolommmen geeft een rede weer waarom iemand niet aan online purchasing zou doen, per rij kan dit veld 1 of 0 bevatten Preproccessing Een aantal rijen uit de dataset waren niet goed ingevuld. Het kwam namelijk voor dat voor één rij zowel Not P urchasing Not applicable als een andere reden was ingevuld. Dat zou dus betekenen dat een gebruiker wél aan online purchasing zou doen, maar toch een reden opgeeft waarom hij er niet aan doet. We zijn dus genoodzaakt deze incorrecte rijen uit de dataset weg te filteren zodat deze de classificatie niet beïnvloeden. Omdat we in RapidMiner geen operator konden vinden die dit voor ons zou doen hebben we zelf hiervoor een scriptje geschreven. Dit script kijkt per rij of Not P urchasing Not applicable samen met nog een andere reden is ingevuld en als dat het geval is zal het deze rij verwijderen Mining Deze classificatie maken was nog niet zo makkelijk omdat de data verdeeld staat over 19 kolommen. Het is dus niet mogelijk om 1 classificatie te maken als we niks met de data doen. Daarvoor hebben we gekozen om een hiërarchische classificatie te maken. Uitleg hierover is te vinden in Subsectie We delen eerst de kolommen op in twee groepen: Not P urchasing Not applicable en Not P urchasing Applicable. Wat laten dus eigenlijk alle kolommen die aan Not P urchasing. voldoen weg uit de dataset (behalve Not P urchasing Not applicable) en gaan dan classificeren. Voor het weghalen van deze attributen hebben we de FeatureNameFilter operator gebruikt. Vervolgens zijn we een beslissingsboom gaan maken met de volgende parameters: criterion Gini Index minimal size for split 12 minimal leaf size 10 minimal gain 0.1 confidence 0.5 De beslissingsboom die hieruit kwam is te vinden in Figuur
16 Figuur 2.2: De beslissingsboom horende bij onderzoeksvraag k1 15
17 True: class precision pred ,27% pred % class recall 60.68% 46.67% Tabel 2.1: Accuracy resultaten voor onderzoeksvraag k Bevindingen De verkregen boom is niet overdreven groot en is daardoor goed te lezen. Toch lijkt de boom nutteloos omdat in elk blad van de boom de kansverdeling (blauw is 0.0, rood is 1.0) van de waarde rond de 50/50 ligt, wat niet erg betekenisvol is Validation Als validator wordt de standaard ClassificationPerformance gebruikt, waarbij gekeken wordt naar de accuracy en classification error. De resultaten zijn te vinden in Tabel 2.1. De totale accuracy van het model heeft een gemiddelde score van 60,32 % ± 7,18 % die kleiner is dat de baseline van %. De range wordt veroorzaakt door de WeightedBootstrappingValidator, die zorgt voor twee validaties. Een toepassing van deze onderzoeksvraag zou te vinden kunnen zijn bij bedrijven die online producten aanbieden. Deze bedrijven zijn uiteraard enkel geïnteresseerd in bezoekers die aan online purchasing doen, dus waarbij de waarde van het label 1.0 bedraagt. Zo een bedrijf zou er voor kunnen kiezen om pop-up reclames enkel aan deze bezoekers te tonen. In dit geval is het uiteraard onwenselijk om de bezoekers die wel degelijk geïnteresseerd zijn (dus waarde 1.0 hebben), te voorspellen als personen die geen interesse hebben (voorspelling heeft dan de waarde 0.0). In de confusion matrix van Tabel 2.1 is dit resultaat echter niet bevredigend. De penalty op de cell (pred 0.0, true 1.0 ) is in bovenstaande toepassing hoger dan die van de andere cellen. Gezien het feit dat we vaker fout dan goed voorspellen wanneer de echte waarde 1.0 bedraagt, kunnen we concluderen dat het model ook voor deze toepassing niet geschikt is Conclusie Volgens ons is het verkregen model waardeloos. We hebben berekend wat de baseline van de dataset is, daarbij zijn we uitgekomen op 87.60%, de accuracy van dit model is 60.32%.Het is dus beter om altijd uit te gaan van Not P urchasing Applicable dan van ons model, aangezien er meer kans is om dan goed te voorspellen. Zoals al eerder gezegd zijn we aan de slag gegaan met een hiërarchische classificatie. We zouden dus eerst onderscheid maken tussen Not P urchasing Not Applicable en Not P urchasing Applicable, om daarna verder te gaan met onderscheid te maken met de rest van de attributen. De tegenvallende resultaten bij deze groep hebben ertoe geleid dat we de dieper gelegen delen van de hiërarchie niet meer verder uitgewerkt hebben. 16
18 2.4 Classificatie twee (k2) We willen weten met welke attributen we het internet gebruik van een persoon kunnen classificeren. Met internet gebruik bedoelen we de tijd dat de persoon al internet gebruikt. De mogelijke waarden voor dit nominale attribuut zijn: under 6 months 6-12 months 1-3 year 4-6 year over 7 year Preprocessing De meest voorkomende (default) waarde is 1-3 year, de categorie die ook mooi in het midden van de ordening ligt. Helaas komt dit ook terug wanneer een decision-tree gebouwd wordt. Bijna alle labels komen uit op overheersend de categorie 1-3 year. Er bestaat dus een noodzaak om preprocessing uit te voeren op de dataset, zodat een degelijke classificatie gemaakt kan worden. Dit wordt gedaan door in RapidMiner eerst de EqualLabelWeighting operator toe te passen, gevolgd door de WeightedBootstrappingValidator operator. Hierdoor ontstaat een sample van de dataset, waarin alle classen voor een gelijk deel present zijn. De trainingset bestaat uit 70% van de totale dataset Mining Vervolgens wordt een normale beslissing-boom van de sample-data gebouwd. Voor de eerste mining-operatie worden de volgende parameters genomen: criterion Gain Ratio minimal size for split 6 minimal leaf size 4 minimal gain 0.1 confidence 0.5 De resulterende beslissing-boom wordt weergegeven in Figuur Bevindingen Uit de beslissing-boom in Figuur 2.3 wordt duidelijk geclassificeerd op basis van het al dan niet bezig zijn met Web page creation. Opvallend is dat ongeveer de helft van de mensen in de categorie Yes valt en dat (naar verwachting) deze mensen over het algemeen reeds lang actief zijn op het internet. Zo zijn 1022 van de 3557 mensen al 4 tot 6 jaar actief en 1233 van de 3557 mensen al 7 jaar of meer actief. Wanneer iemand zich dus bezighoud met het maken van webpagina s, dan kun je vrij zeker zeggen dat deze persoon al langere tijd actief is op het internet. 17
19 Figuur 2.3: De beslissingsboom horende bij onderzoeksvraag k2 18
20 True: 1-3 yr Under 6 mo 4-6 yr 6-12 mo Over 7 yr class precision 1-3 yr % Under 6 mo % 4-6 yr: % 6-12 mo % Over 7 yr % class recall 12.26% 80.72% 12.71% 10.11% 67.74% Tabel 2.2: Accuracy resultaten voor onderzoeksvraag k Validation Als validator wordt de standaard ClassificationPerformance gebruikt, waarbij gekeken wordt naar de accuracy en classification error. De resultaten zijn te vinden in Tabel 2.2. De totale accuracy van het model is een bedroevend lage score van % ± 6.22 %. De range wordt veroorzaakt door de WeightedBootstrappingValidator, die zorgt voor twee validaties. Zouden we alle personen classificeren in de groep 1-3 jaar, dan zouden we een accuracy van 38 % behalen, aangezien 38 % van de deelnemers tot deze groep behoort. Alle bevindingen dus ten spijt, is dit model niet geschikt om het internetgebruik te classificeren. Ook het uitvoeren van het NaiveBayes algoritme levert een model op met een accuracy van slechts 31 %. Gezien de bevindingen van deze test lijkt het samenvoegen van een aantal classen een logische stap. Allereerst hebben we drie classen ingedeeld. Onder 6 maanden en 6 tot 12 maanden worden samengevoegd, evenals de classen 4 tot 6 jaar en 7 jaar of langer. De derde classe bestaat uit 1 tot 3 jaar. De accuracy komt in na uitvoering van de test uit op een schamele 40 tot 45 %. Hoewel het beter is dan de initiële indeling, is het resultaat nog steeds niet voldoende. We hebben ervoor gekozen om vervolgens de groepen: Under 6 mo, 6-12 mo, 1-3 yr en 4-6 yr, Over 7 yr samen te voegen. Dit levert na het uitvoeren de nieuwe validatiecyclus een accuracy van om en nabij 66 % (70% met Bayes) op, wat al een significante verbetering is. Echter de baseline is ook verschoven naar zo n 75 % door het samenvoegen van classen. Uit de resulterende boom, komt wel wederom naar voren dat het creëren van webpagina s een redelijke classifier is (Zie Figuur 2.4) Conclusie Het internetgebruik is niet te classificeren met behulp van een beslissingsboom of het uitvoeren van het NaiveBayes algormitme. Na het samenvoegen van een aantal classen lijkt de internetduur uit het al dan niet creëren van webpagina s af te leiden te zijn. Dit is een logisch verband in onze ogen. 2.5 Classificatie drie (k3) We willen weten met welke attributen we het gebruikte operating system kunnen classificeren. 19
21 Figuur 2.4: Beslissingsboom ter classificatie van het internetgebruik in twee classen verdeelt De mogelijk waarden voor dit nominale attribuut zijn: Macintosh Win95 Windows DOS OS2 Unix NT Don t know 20
22 PC Unix VT100 Other Preproccessing De meest voorkomende (default) waarde is Windows en deze komt ook in meer dan de helft van de dataset voor. Om een degelijke classificatie te maken hebben we dus een preprocessingstap toe moeten voegen. Deze bestaat uit de EqualLabelWeighting operator, gevolgd door de WeightedBootstrappingValidator operator. Hierdoor ontstaat een sample van de dataset, waarin alle classen voor een gelijk deel present zijn. De trainingset bestaat uit 70% van de totale dataset Mining Voor deze classificatie hebben we gekozen voor het Naive Bayes algoritme. Voor de eerste mining operatie geven we de volgende parameters mee: keep example set false laplace correction true Bevindingen Uit de resultaten was op het oog nagenoeg niets af te leiden Validation Als validator wordt de standaard ClassificationPerformance gebruikt, waarbij gekeken wordt naar de accuracy en classification error. De resultaten zijn te vinden in Tabel 2.3. De totale accuracy van het model is een bedroevend lage score van % Conclusie Het gevonden model helpt niet bij het classificeren van gebruikte besturingssystemen, aangezien de baseline 43% is en de accuraatheid van het model hier bijna 10% onder ligt. 2.6 Associatie regels We hebben eerst geprobeerd om met RapidMiner rules te genereren, maar blijkbaar doet RapidMiner dit op één of andere manier verkeerd. Zo genereerde RapidMiner bijvoorbeeld regels als Gender = Male Gender = F emale. Daarom hebben we een andere tool gebruikt voor het vinden van frequente item sets en de rules. Voor het genereren van de frequente item sets hebben gebruik gemaakt van een implementatie van het LCM2 [3] algoritme. 21
23 True: Macintosh Win95 Windows DOS OS2 Unix NT Dont Know Don t Know PC Unix Other VT100 class precision Macintosh % Win % Windows % DOS % OS % Unix % NT % Dont Know % Don t Know % PC Unix % Other % VT % class recall 67.12% 31.39% 50.87% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% Tabel 2.3: Accuracy resultaten voor onderzoeksvraag k3 22
24 2.6.1 Preprocessing Omdat niet alle attributen van het type boolean zijn, zetten we eerst alle attributen om naar boolean attributen. Als een attribuut met de naam a, de mogelijke waarden v 1, v 2,..., v n heeft dan wordt dit attribuut vervangen door n boolean attributen met de namen a = v 1, a = v 2,..., a = v n. Zo wordt bijvoorbeeld het attribuut Gender omgezet naar de twee attributen Gender = Male en Gender = Female. Omdat we voor alle drie onderzoeksvragen m.b.t. associaties willen onderzoeken, of een bepaald attribuut a invloed heeft op de waarde van andere atributen, zijn we dus opzoek naar associaties van het type A B met a A. Een probleem bij het vinden van regels die af zijn te leiden van bijvoorbeeld de sexuele voorkeur, is dat het overgrote deel van de ondervraagden hetero als sexuele voorkeur hebben. Zo zijn er 8869 hetero s tegenover 371 gay males (zie Figuur 1.9). Daarom zal bij het zoeken naar frequent item sets een minimal support van ten hoogste 371 moeten zijn om ook regels te kunnen vinden voor homosexuelen. Wanneer we dat doen zullen we echter ook veel meer frequente item sets krijgen voor heterosexuelen, omdat ten opzichte van 8869 een minimal support van 371 weer heel laag is. Het resultaat is dan een grote hoeveelheid frequent item sets die zelfs zo groot is dat de association rule generator deze niet aankan en crashed. Dit probleem hebben we opgelost door voor iedere classe van sexuele voorkeur ( hetero, gay male en lesbian ) eerst de dataset te filteren zodat we alleen nog maar records van die classe overhouden. Vervolgens zoeken we voor die gefilterde dataset de frequent item sets, waarbij we een minimal support kiezen die gelijk is aan 50% van de grootte van de classe. Met deze frequent item sets worden de regels gegenereerd. We hoeven slechts de gefilterde dataset te gebruiken voor het vinden van associaties voor een classe a, omdat regels A B met a A alleen gegenereerd worden met regels waarin a voor komt. De confidence van een regel wordt berekend volgens: conf(a B) = supp(a B) sup(a) (2.1) Bij deze berekening moet dus het support van de itemsets A B en A bekend zijn en in alle twee van deze itemset zit a Postprocessing Om te kijken hoe goed onze gevonden association-rules zijn, hebben we aan postprocessing gedaan. We hebben een script gemaakt om de lift uit te rekenen van de association-rules betreffende de sexuele voorkeuren van hetero, gay male en lesbians, van de rassen white, black en asian en van de geslachten male en female Resultaten Voor de verschillende association-rules hebben we de dus lift bepaald om te kijken hoe goed de gevonden regels zijn. Deze subsectie geeft voor iedere associatie-onderzoeksvraag de gevonden regels met de hoogste lift. 23
25 (a1) Welke invloed heeft het geslacht op andere attributen? Male: Primary Place of WWW Access = Home AND Gender=Male AND Major Geographical Location = USA Who Pays for Access Self AND Primary Language = English (sup=2045, conf= ) (lift= ) Primary Place of WWW Access = Home AND Gender=Male AND Race = White Who Pays for Access Self AND Primary Language = English (sup=2027, conf= ) (lift= ) Primary Place of WWW Access = Home AND Gender=Male AND Race = White AND Primary Language = English Who Pays for Access Self (sup=2027, conf= ) (lift= ) Primary Place of WWW Access = Home AND Gender=Male AND Major Geographical Location = USA AND Primary Language = English Who Pays for Access Self (sup=2045, conf= ) (lift= ) Female: Gender=Female AND Who Pays for Access Self AND Registered to Vote = Yes AND Primary Language = English Major Geographical Location = USA (sup=2032, conf= ) (lift= ) Gender=Female AND Who Pays for Access Self AND Registered to Vote = Yes Major Geographical Location = USA AND Primary Language = English (sup=2032, conf= ) (lift= ) Gender=Female AND Who Pays for Access Self AND Sexual Preference = Heterosexual AND Primary Language = English Major Geographical Location = USA (sup=2040, conf= ) (lift= ) Gender=Female AND Who Pays for Access Self AND Primary Language = English Major Geographical Location = USA (sup=2325, conf= ) (lift= ) (a2) Welke invloed heeft de sexuele voorkeur op andere attributen? Hetero: Who Pays for Access Self AND Registered to Vote = Yes AND Disability Not Impaired Race = White (sup=4372, conf= ) (lift= ) Web Ordering = Yes AND Registered to Vote = Yes AND Disability Not Impaired Race = White (sup=4210, conf= ) (lift= ) Who Pays for Access Self AND Registered to Vote = Yes Race = White (sup=4804, conf= ) (lift= ) Web Ordering = Yes AND Registered to Vote = Yes Race = White (sup=4583, conf= ) (lift= ) Gay male: Web Ordering = Yes AND Disability Not Impaired Race = White AND Gender=Male (sup=256, conf= ) (lift= ) Web Ordering = Yes AND Who Pays for Access Self AND Disability Not Impaired Race = White AND Gender=Male (sup=219, conf= ) (lift= ) Web Ordering = Yes Race = White AND Gender=Male (sup=277, conf= ) (lift= ) Web Ordering = Yes AND Who Pays for Access Self Race = White AND Gender=Male (sup=240, conf= ) (lift= ) Lesbian: Marital Status = Other AND Race = White Disability Not Impaired AND Registered to Vote = Yes AND Gender=Female (sup=50, conf= ) (lift= ) Web Ordering = Yes AND Disability Not Impaired AND Gender=Female Race = White AND Registered to Vote = Yes (sup=71, conf= ) (lift= ) Falsification of Information = Never AND Web Ordering = Yes Gender=Female AND Race = White (lift= ) Falsification of Information = Never AND Web Ordering = Yes AND Gender=Female Race = White (sup=50, conf=1) (lift= ) 24
26 (a3) Welke invloed heeft het ras op andere attributen? White: Who Pays for Access Self AND Registered to Vote = Yes AND Primary Language = English Major Geographical Location = USA (sup=4825, conf= ) (lift= ) Web Page Creation = No AND Primary Language = English Major Geographical Location = USA (sup=4238, conf= ) (lift= ) Who Pays for Access Self AND Primary Language = English Major Geographical Location = USA (sup=5545, conf= ) (lift= ) Who Pays for Access Self AND Sexual Preference = Heterosexual AND Primary Language = English Major Geographical Location = USA (sup=4800, conf= ) (lift= ) Black: Primary Place of WWW Access = Home Who Pays for Access Self AND Major Geographical Location = USA (sup=90, conf= ) (lift= ) Primary Place of WWW Access = Home Who Pays for Access Self (sup=91, conf= ) (lift= ) Primary Place of WWW Access = Home AND Major Geographical Location = USA Who Pays for Access Self (sup=90, conf= ) (lift= ) Primary Place of WWW Access = Home AND Primary Language = English Who Pays for Access Self (sup=90, conf= ) (lift= ) Asian: Web Ordering = Yes Disability Not Impaired (sup=158, conf= ) (lift= ) Gender=Male Disability Not Impaired (sup=179, conf= ) (lift= ) Primary Language = English Disability Not Impaired (sup=183, conf= ) (lift= ) Major Geographical Location = USA Disability Not Impaired (sup=171, conf= ) (lift= ) Conclusie Zoals te zien is, zijn de hoogst gevonden lifts niet hoger dan Hieruit kunnen we concluderen dat de gemaakte associatie regels niet heel erg nuttig zijn. We kunnen dus niet echt regels vinden die voor een specifieke groep van geslacht, sexuele voorkeur of ras gelden. 25
27 Bibliografie [1] GVU, GVU s General Information Questionnaire Form, surveys/survey /questions/general.html [2] Rapid Miner, Rapid Miner website, [3] LCM2, Frequent Itemset Mining Implementations Repository, 26
2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren.
1. Veronderstel dat je als datamining consultant werkt voor een Internet Search Engine bedrijf. Beschrijf hoe datamining het bedrijf kan helpen door voorbeelden te geven van specifieke toepassingen van
Oplossingen Datamining 2II15 Juni 2008
Oplossingen Datamining II1 Juni 008 1. (Associatieregels) (a) Zijn de volgende beweringen juist of fout? Geef een korte verklaring voor alle juiste beweringen en een tegenvoorbeeld voor alle foute be-weringen:
Data Mining: Classificatie
Data Mining: Classificatie docent: dr. Toon Calders Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining Overzicht Wat is classificatie? Leren van een beslissingsboom. Problemen
DATA MINING (TI2730-C)
Technische Universiteit Delft Elektrotechniek, Wiskunde en Informatica Secties: Pattern Recognition & Bioinformatics & Multimedia Signal Processing DATA MINING (TI2730-C) Schriftelijk (her)tentomen. Dinsdag
Tentamen Data Mining
Tentamen Data Mining Algemene Opmerkingen Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. Laat bij het uitvoeren van berekeningen zien hoe je aan een antwoord gekomen bent.
Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016:
Toets deel 2 Data-analyse en retrieval Vrijdag 1 Juli 2016: 11.00-13.00 Algemene aanwijzingen 1. Het is toegestaan een aan beide zijden beschreven A4 met aantekeningen te raadplegen. 2. Het is toegestaan
Uitwerking Tentamen Datamining (2II15) 26/06/09
Uitwerking Tentamen Datamining (2II15) 26/06/09 1. (3p) (Clustering) Welke van de volgende uitspraken zijn correct? Voor de correcte uitspraken: leg uit, voor de incorrecte: geef een tegenvoorbeeld. (a)
Cover Page. The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation.
Cover Page The handle http://hdl.handle.net/1887/20358 holds various files of this Leiden University dissertation. Author: Witsenburg, Tijn Title: Hybrid similarities : a method to insert relational information
Smart Export data analyse
Smart Export data analyse Versie 1.0 Introductie In Finchline is het mogelijk om over ingestelde topics een uitgebreide export in Excel te ontvangen. Op basis van de instellingen binnen het topic wordt
Tentamen Data Mining. Algemene Opmerkingen. Opgave L. Korte vragen (L6 punten) Tijd: 14:00-17:00. Datum: 4januai20l6
Tentamen Data Mining Datum: 4januai2l6 Tijd: 4: - 7: Algemene Opmerkingen e Dit is geen open boek tentamen, noch mogen er aantekeningen gebruikt worden. o Laat bij het uitvoeren van berekeningen zien hoeje
Het Groninger Stadspanel over LGBT. Meningen over bi- en homoseksualiteit en transgender in Groningen stad
Het Groninger Stadspanel over LGBT Meningen over bi- en homoseksualiteit en transgender in Groningen stad Onderzoek en Statistiek Groningen heeft als kernactiviteiten instrumentontwikkeling voor en uitvoering
8. Analyseren van samenhang tussen categorische variabelen
8. Analyseren van samenhang tussen categorische variabelen Er bestaat een samenhang tussen twee variabelen als de verdeling van de respons (afhankelijke) variabele verandert op het moment dat de waarde
GS1 Data Source Handleiding afnemer-interface Datum: 24 juni 2015, versienummer 3.2.0
GS1 Data Source Handleiding afnemer-interface Datum: 24 juni 2015, versienummer 3.2.0 Inhoud 1 GS1 Data Source afnemer-interface 4 1.1 Inloggen 4 1.2 Aanmaken abonnementen 5 1.3 Mijn artikelen 7 1.4 GS1
Classification - Prediction
Classification - Prediction Tot hiertoe: vooral classification Naive Bayes k-nearest Neighbours... Op basis van predictor variabelen X 1, X 2,..., X p klasse Y (= discreet) proberen te bepalen. Training
MyDHL+ Van Non-Corporate naar Corporate
MyDHL+ Van Non-Corporate naar Corporate Van Non-Corporate naar Corporate In MyDHL+ is het mogelijk om meerdere gebruikers aan uw set-up toe te voegen. Wanneer er bijvoorbeeld meerdere collega s van dezelfde
AdVISHE: Assessment of the Validation Status of Health- Economic Decision Models
AdVISHE: Assessment of the Validation Status of Health- Economic Decision Models Pepijn Vemer, George van Voorn, Isaac Corro Ramos, Maiwenn Al, Talitha Feenstra Rationale In theorie: Doe alles! Een model
MyDHL+ ProView activeren in MyDHL+
MyDHL+ ProView activeren in MyDHL+ ProView activeren in MyDHL+ In MyDHL+ is het mogelijk om van uw zendingen, die op uw accountnummer zijn aangemaakt, de status te zien. Daarnaast is het ook mogelijk om
Trainingsmateriaal Osiris 6. Admission Office International Office
Trainingsmateriaal Osiris 6. Admission Office International Office Utwente, 6-2-2014 i Inhoudsopgave Inhoudsopgave ii 1. Algemene handeling Osiris 6 1 1.1 Menu structuur. 1 1.2 Favorieten indelen 2 1.3
SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I
SPSS 15.0 in praktische stappen voor AGW-bachelors Uitwerkingen Stap 7: Oefenen I Hieronder volgen de SPSS uitvoer en de antwoorden van de opgaven van Stap 7: Oefenen I. Daarnaast wordt bij elke opgave
Data mining Van boodschappenmandjes tot bio-informatica
Data mining Van boodschappenmandjes tot bio-informatica Walter Kosters Informatica, Universiteit Leiden donderdag 6 april 2006 http://www.liacs.nl/home/kosters/ 1 Wat is Data mining? Data mining probeert
Combinatorische Algoritmen: Binary Decision Diagrams, Deel III
Combinatorische Algoritmen: Binary Decision Diagrams, Deel III Sjoerd van Egmond LIACS, Leiden University, The Netherlands [email protected] 2 juni 2010 Samenvatting Deze notitie beschrijft een nederlandse
ALL-CRM Gebruikershandleiding AC-DataCumulator
ALL-CRM Gebruikershandleiding AC-DataCumulator Author: Bas Dijk Date: 23-04-2013 Version: v1.2 Reference: 2013, All-CRM 1 Inhoudsopgave 1 Inhoudsopgave 2 2 Inleiding 3 3 Gebruikershandleiding Windows Forms
Global TV Canada s Pulse 2011
Global TV Canada s Pulse 2011 Winnipeg Nobody s Unpredictable Methodology These are the findings of an Ipsos Reid poll conducted between August 26 to September 1, 2011 on behalf of Global Television. For
Meervoudige ANOVA Onderzoeksvraag Voorwaarden
Er is onderzoek gedaan naar rouw na het overlijden van een huisdier (contactpersoon: Karolijne van der Houwen (Klinische Psychologie)). Mensen konden op internet een vragenlijst invullen. Daarin werd gevraagd
Teststrategie met behulp van heuristieken
Workshop TestNet Teststrategie met behulp van heuristieken www.improveqs.nl ([email protected]) Versie 2.0 1 Acknowledgements Met dank aan: Ruud Cox voor de vele discussies over dit onderwerp Fiona Charles
Adverteren op Linkedin
Adverteren op Linkedin Linkedin heeft op iedere profiel en persoonlijke startpagina een positie gereserveerd voor advertenties. Dit kan een reguliere banner, Linkedin promo of een tekstadvertentie zijn
TMA 360º feedback Flexibel en online. TMA 360º feedback werkboek. Dank u voor het gebruiken van de TMA 360º feedback competentie-analyse
Haal het maximale uit de TMA 360º fb competentieanalyse Dank u voor het gebruiken van de TMA 360º feedback competentie-analyse 360º feedback is een krachtig instrument, maar dient op de juiste wijze gebruikt
Dienstbeschrijving Managed Mobile. Versie: 2.0 Aantal bladen: 10
Dienstbeschrijving Managed Mobile Versie: 2.0 Aantal bladen: 10 Inhoud 1. Inleiding...3 Introductie...3 Positionering dienst Managed Mobile...3 Positionering dienst Managed Mobile Complete...4 2. Overzicht
Data Mining: Opdracht 2
Data Mining: Opdracht 2 7 juli 2006 Egbert Kroese (#0134252) Paul Lammertsma (#0305235) Inhoudsopgave 1. De datasets...3 1.1 Iris...3 1.2 Vote...3 1.3 Autos...4 2. De algoritmen...4 2.1 Naive Bayes...4
Help er gaat iets mis
Help er gaat iets mis Krijg je een foutmelding tijdens het gebruik van SURFconext? De kans is groot dat het een van onderstaande foutmeldingen betreft. Lees hier meer over wat de foutmelding betekent en
Exact. Orbis Software. Integration Tools
Orbis Software Exact Integration Tools Dit document bevat de Release Notes voor: - Exact Globe Integration Tool v1.1.9.405 / v1.1.9.396 - Synergy Integration Tool v1.1.3 - Synergy Enterprise Integration
Doel. Spel. www.ihots.nl. Duur: - Groep - Individueel. Laat je inspireren door de voorbeeld vragen in deze spiekbrief.
www.ihots.nl Doel Laat je inspireren door de voorbeeld vragen in deze spiekbrief Spel Alle spellen Gebruik deze spiekbrief telkens wanneer je een spel start in de ihots app. Laat je inspireren door de
Hieronder volgt een overzicht van relevante contactpersonen binnen KPN.
Index Contactpersonen Aangevraagde informatie bekijken in uw inbox Foutmeldingen Contactpersonen Hieronder volgt een overzicht van relevante contactpersonen binnen KPN. Indien u technische problemen heeft,
Location Based Media
Location Based Media Introductie met 7scenes Minor Create Your Future Nieuwe Media 2028 Studiejaar 2011-2012 Inhoud 1 Inleiding en uitleg opdracht... 3 1.1 Wat gaan we doen?... 3 1.2 Over 7scenes... 3
Major Design This! Me and My. Guillaume May Studentnummer: 0751863 Klas: 4A
Major Design This! Me and My Guillaume May Studentnummer: 0751863 Klas: 4A Inhoudsopgave OPDRACHT OMSCHRIJVING: 3 ME AND MY 3 LEERDOELEN, COMPETENTIES EN GEDRAGSINDICATOREN. 3 LEERDOELEN 3 COMPETENTIES
We berekenen nog de effectgrootte aan de hand van formule 4.2 en rapporteren:
INDUCTIEVE STATISTIEK VOOR DE GEDRAGSWETENSCHAPPEN OPLOSSINGEN BIJ HOOFDSTUK 4 1. Toets met behulp van SPSS de hypothese van Evelien in verband met de baardlengte van metalfans. Ga na of je dezelfde conclusies
Met een LightSwitch applicatie een OData service uit de Windows Azure Marketplace consumeren
Met een LightSwitch applicatie een OData service uit de Windows Azure Marketplace consumeren Om eens wat ervaring op te doen met de Windows Azure Marketplace heb ik een publieke en gratis databron gekozen
Toetsen in Blackboard
Toetsen in Blackboard Met de tool Test kun je toetsvragen maken en afnemen. In dit document wordt uitgelegd 1. Hoe een toets gemaakt kan worden. 2. Hoe een toets bewerkt kan worden. 3. Hoe een toets beschikbaar
KAS-Web Handleiding Self Service Portal / Versie 0.2 KAS BANK N.V. 1
1. Log In... 2 1.1. Self Service Portal log in... 2 2. Opties binnen de Self Service Portal... 5 2.1. I d like to change my Entrust IdentityGuard password... 5 2.2. I have permanently lost my smart credential
End-to-End testen: de laatste horde
End-to-End testen: de laatste horde Dieter Arnouts Agenda Begrip End-to-End testen in het test proces Praktische aanpak End-to-End Test Omgeving Uitdagingen End-to-End testen: De laatste horde 11/10/2010
Artificial Intelligence in uw dagelijkse praktijk. Hilversum, 22 September 2016
Artificial Intelligence in uw dagelijkse praktijk Hilversum, 22 September 2016 Agenda 09:30 Welkom en introductie 09:35 Artificial Intelligence, al meer dan 50 jaar een actief onderzoeksgebied Jaap van
Social Action Research Plan
Social Action Research Plan Social media project Studenten Dennis Visschedijk 438332 Aileen Temming 474094 Stefan Ortsen 481295 Niels Konings 449822 Renee Preijde 482835 Opdrachtgever Stal te Bokkel Daniëlle
KAS-Web Handleiding Self Service Portal / Version 2 KAS BANK N.V. 1
1. Login 2 1.1 Self Service Portal log in 2 2. Opties binnen de Self Service Portal 5 2.1 I d like to change my Entrust IdentityGuard password 5 2.2 I have permanently lost my smart credential or it has
Plan van Aanpak. Plan van Aanpak. November 2003. Student Naam: David Fremeijer Studentnr: 0249432 E-mail: [email protected]
Plan van Aanpak Plan van Aanpak November 2003 Student Naam: David Fremeijer Studentnr: 0249432 E-mail: [email protected] Universiteit Nijmegen Begeleider: Theo van der Weide Referent: Gert Veldhuijzen
9. Lineaire Regressie en Correlatie
9. Lineaire Regressie en Correlatie Lineaire verbanden In dit hoofdstuk worden methoden gepresenteerd waarmee je kwantitatieve respons variabelen (afhankelijk) en verklarende variabelen (onafhankelijk)
Testverslag Project Design for Space Robbert Kooiman en Merlijn de Vries Playability Emiel Kampen 11-12-2014
Testverslag Project Design for Space Robbert Kooiman en Merlijn de Vries Playability Emiel Kampen 11-12-2014 Inhoud Testverslag... 3 Doelgroep... 3 Leeftijd... 3 Geslacht... 3 Game Designers... 3 Tijdens
Rapportages instellen
Versie 2.0 Introductie In Finchline is het mogelijk om over de ingestelde widgets (grafische weergaven) een rapportage te ontvangen en versturen in PDF of Excel. In deze handleiding komen alle opties,
LDA Topic Modeling. Informa5ekunde als hulpwetenschap. 9 maart 2015
LDA Topic Modeling Informa5ekunde als hulpwetenschap 9 maart 2015 LDA Voor de pauze: Wat is LDA? Wat kan je er mee? Hoe werkt het (Gibbs sampling)? Na de pauze Achterliggende concepten à Dirichlet distribu5e
Cloud2 Online Backup - CrashplanPRO
Cloud2 Online Backup - CrashplanPRO Handleiding- CrashplanPRO - Online Backup Download de clients hier: Windows 32- bit: http://content.cloud2.nl/downloads/back01- cra.backupnoc.nl/crashplan_x86.exe Windows
Gemaakt door: Lysanne Wolbers Menno Akkerman Tessa Heijerman
Gemaakt door: Lysanne Wolbers Menno Akkerman Tessa Heijerman FSU Oktober 2011 Inhoudsopgave Voorwoord 3 Verantwoording...4 Conclusies...5 De cijfers op een rij.9 Knelpunten/oplossingen 15 Positieve punten.16
Module QGIS Overstromingsrisico
Module QGIS Overstromingsrisico Doel van de module In het Maasdal bij Venlo is de Maas onbedijkt. Dit houdt in dat er geen dijken zijn die het land beschermen tegen overstromingen door de Maas. Rijkswaterstaat
Trainingsmateriaal Osiris 6. Admission Office International Office
Trainingsmateriaal Osiris 6. Admission Office International Office Utwente, 6-2-2014 i Inhoudsopgave Inhoudsopgave ii 1. Algemene handeling Osiris 6 1 1.1 Menu structuur. 1 1.2 Favorieten indelen 2 1.3
Handleiding CMS. Auteur: J. Bijl Coldfusion Consultant
Handleiding CMS Auteur: J. Bijl Coldfusion Consultant Inhoudsopgave 1.0 Inleiding 3 2.0 Introductie CMS en websites 4 3.0 Inloggen in beheer 5 4.0 Dashboard 6 4.1 Bezoekers totalen 6 4.2 Bezoekers 7 4.3
W H I T E P A P E R I N 5 M I N U T E N J U N I 2 0 1 3. 07. De app in een goede mobiele strategie
W H I T E P A P E R I N 5 M I N U T E N J U N I 2 0 1 3 07. De app in een goede mobiele strategie Introductie We ontwikkelden de afgelopen jaren verschillende consumenten apps. De wens van bedrijven om
Data Handling Ron van Lammeren - Wageningen UR
Data Handling 1 2010-2011 Ron van Lammeren - Wageningen UR Can I answer my scientific questions? Geo-data cycle Data handling / introduction classes of data handling data action models (ISAC) Queries (data
Data Definition Language
Data Definition Language We gaan hier dezelfde database gebruiken als in de vorige les. Nu gaan we deze echter maken met behulp van DDL gedeelte van SQL. Om in het SQL deel van Microsoft Access te komen
Sparse columns in SQL server 2008
Sparse columns in SQL server 2008 Object persistentie eenvoudig gemaakt Bert Dingemans, e-mail : [email protected] www : http:// 1 Content SPARSE COLUMNS IN SQL SERVER 2008... 1 OBJECT PERSISTENTIE EENVOUDIG
Inhoud KAS-WEB: HANDLEIDING IDG OPERATOR
KAS-WEB: HANDLEIDING IDG OPERATOR Inhoud 1. IdentityGuard starten... 2 2. User beheer via IdentityGuard Administration... 3 2.1 User Accounts... 3 2.1.1. Go To Account... 3 2.1.2. Find Accounts... 4 2.2
ICT en grote datasets havo wiskunde A en vwo wiskunde A/C
ICT en grote datasets havo wiskunde A en vwo wiskunde A/C Workshop Noordhoff wiskundecongres 19 november 2015 Matthijs van Maarseveen, Stijn Voets en Mark Haneveld Opbouw workshop 1. Demonstratie Exceltabellen
Firewall van de Speedtouch 789wl volledig uitschakelen?
Firewall van de Speedtouch 789wl volledig uitschakelen? De firewall van de Speedtouch 789 (wl) kan niet volledig uitgeschakeld worden via de Web interface: De firewall blijft namelijk op stateful staan
Qlik Sense Healthcare. Document 16052
Qlik Sense Healthcare Document 16052 Inhoud 1. Introductie... 3 1.1 Qlik Sense... 3 1.2 Qlik Sense Healthcare... 3 1.3 Qlik Sense als product... 3 2 Overview healthcare module... 4 2.1 De opbouw van de
BMI lab WERKBLAD BUSINESS MODEL NAVIGATOR. University of St. Gallen
BMI lab Growth by Innovation University of St. Gallen WERKBLAD BUSINESS MODEL NAVIGATOR pas je de Business Model Navigator toe in je bedrijf? Dit werkblad is een soort checklist die je helpt je eigen strategie
feedback Flexibel en online Robuust 360º Werkboek Robuus Hartelijk dank voor het gebruiken van Robuust 360º Haal het maximale uit 360º
Robuus Robuust 360º Werkboek e Haal het maximale uit Hartelijk dank voor het gebruiken van Robuust 360º 360º feedback is een krachtig instrument, maar dient op de juiste wijze gebruikt te worden. Lees
Handleiding SWIFT MyStandard Readiness Portal. Juni 2016
Handleiding SWIFT MyStandard Readiness Portal Juni 2016 Introductie In dit document worden de stappen tot het gebruik van de MyStandard Readiness Portal beschreven. Het gebruik van de Portal is redelijk
Financial planning voor ondernemers. Heb jij al poen voor je pensioen?
Financial planning voor ondernemers Heb jij al poen voor je pensioen? 1! van 12! Voorwoord De pensioenen van ondernemers zijn al langere tijd onderwerp van discussie. Terwijl in Den Haag wordt gediscussieerd
Internet of Things (IoT)
Internet of Things (IoT) KNX visie en strategische richting Een nieuwe kijk op KNX implementaties Martin van Ling, Hestia Domotica B.V. KNX Professionals, 22 juni 2017 KNX IoT Huidige KNX ecosysteem (KNXnet/
NHibernate als ORM oplossing
NHibernate als ORM oplossing Weg met de SQL Queries Wat is ORM? ORM staat in dit geval voor Object Relational Mapping, niet te verwarren met Object Role Modeling. ORM vertaalt een objectmodel naar een
03. Statistieken van Mobiele apps
W H I T E PA P E R I N 5 M I N U T E N J U L I 2 0 1 2 03. Statistieken van Mobiele apps Apps zijn er in vele soorten en maten. Een app met één simpele functionaliteit, een uitgebreide service-app, een
Whitepaper. Personal Targeting Platform. De juiste content Op het juiste moment Aan de juiste persoon
Whitepaper Personal Targeting Platform De juiste content Op het juiste moment Aan de juiste persoon Introductie 2 Geïntegreerde personalisering 2 Het opbouwen van een profiel 2 Segmenteren en personaliseren
smartops people analytics
smartops people analytics Introductie De organisatie zoals we die kennen is aan het veranderen. Technologische ontwikkelingen en nieuwe mogelijkheden zorgen dat onze manier van werken verandert. Waar veel
Travel Survey Questionnaires
Travel Survey Questionnaires Prot of Rotterdam and TU Delft, 16 June, 2009 Introduction To improve the accessibility to the Rotterdam Port and the efficiency of the public transport systems at the Rotterdam
Hoofdvraag. Hoe kan interne en externe data gebruikt worden voor ziektepreventie bij klanten van DFZ?
Hoofdvraag Hoe kan interne en externe data gebruikt worden voor ziektepreventie bij klanten van DFZ? Data visualisatie (Grafieken, dashboards); Kwantitatieve analyse (cijfers, statistiek); Software Inzichten
4.2. Evaluatie van de respons op de postenquêtes. In dit deel gaan we in op de respons op instellingsniveau en op respondentenniveau.
4.2. Evaluatie van de respons op de postenquêtes 4.2.1. Algemeen In dit deel gaan we in op de respons op instellingsniveau en op respondentenniveau. Instellingsniveau (vragenlijst coördinator) provincie,
InforValue. Laat de waarde van Informatie uw bedrijfsdoelstellingen versterken. Informatie Management
Laat de waarde van Informatie uw bedrijfsdoelstellingen versterken Informatie Informatie on Demand Referentie Architectuur Informatie Technologie is belangrijk voor Informatie. Uw organisatie heeft stabiele
Liefde door de sport Het ontstaan van liefdesrelaties in de sport
Liefde door de sport Het ontstaan van liefdesrelaties in de sport David Romijn Mulier Instituut Mulier Instituut, Utrecht May 2013 Inhoud Introduction - Liefde door de sport? Een verkennende studie Theoretische
Workshop: Selection of the perfect S&OP software. Freek Aertsen Martin Daudey
Workshop: Selection of the perfect S&OP software Freek Aertsen Martin Daudey How to become successful in S&OP Processes Tools People 2 3 The magic quadrant! Traditional view on software ERP?? Forecasting
DATAMODELLERING SCORE MATRIX
DATAMODELLERING SCORE MATRIX Inleiding In dit whitepaper wordt de datamodelleervorm Score Matrix beschreven. Deze modelleervorm staat in verhouding tot een aantal andere modelleervormen. Wil je een beeld
Bestaat er een betekenisvol verband tussen het geslacht en het voorkomen van dyslexie? Gebruik de Chi-kwadraattoets voor kruistabellen.
Oplossingen hoofdstuk IX 1. Bestaat er een verband tussen het geslacht en het voorkomen van dyslexie? Uit een aselecte steekproef van 00 leerlingen (waarvan 50% jongens en 50% meisjes) uit het basisonderwijs
Voorspellen van webwinkel aankopen met een Random Forest
Voorspellen van webwinkel aankopen met een Random Forest Dorenda Slof Erasmus Universiteit Rotterdam Econometrie en Operationele Research 30 juni 2014 Samenvatting In dit empirische onderzoek voorspellen
OpenText RightFax. Intuitive Business Intelligence. Whitepaper. BI/Dashboard oplossing voor OpenText RightFax
OpenText RightFax Intuitive Business Intelligence Whitepaper BI/Dashboard oplossing voor OpenText RightFax Beschrijving van de oplossing, functionaliteit & implementatie Inhoud 1 Introductie 2 Kenmerken
Self-Service Portal Registeren, downloaden & activeren van een soft token
Self-Service Portal Registeren, downloaden & activeren van een soft token Document versie: 3.2 Uitgavedatum: september 2014 Inhoud Introductie... 3 Over 2 e factor authenticatie... 3 Over egrid authenticatie...
DATABASEBEHEER IN EXCEL
DATABASEBEHEER IN EXCEL 1. LIJSTEN Een lijst is een reeks van rijen met gelijksoortige gegevens waarvan de eerste rij de labels (veldnamen) bevat. Een voorbeeld: Je kunt een lijst beschouwen als een eenvoudige
WERKDRUK. Onderzoek op basis van de Zorgloonwijzer. in opdracht van de ABVAKABO FNV IN DE ZORGSECTOR 2004
AMSTERDAMS INSTITUUT VOOR ARBEIDSSTUDIES (AIAS) UNIVERSITEIT VAN AMSTERDAM WERKDRUK IN DE ZORGSECTOR 004 Onderzoek op basis van de Zorgloonwijzer in opdracht van de ABVAKABO FNV Kea Tijdens, AIAS, Universiteit
DE CRM PAKKETSELECTIE LEIDRAAD
DE CRM PAKKETSELECTIE LEIDRAAD de kracht van inzicht Inleiding Er zijn online vele mogelijkheden om CRM pakketten met elkaar te vergelijken. Dit is heel erg nuttig, het geeft veel informatie en het brengt
