Mini Whitepaper KENNIS IS DE SLEUTEL TOT IDENTIFICATIE



Vergelijkbare documenten
Top 7 dataproblemen. De waarde van data in topconditie. Mini-whitepaper. By: Esther Labrie. WHITEPAPER I Top 7 dataproblemen Human Inference

Rapportage Expertonderzoek Klantgericht Ondernemen - 6 juni klantgericht ondernemen leidt tot kritischer klanten

Zes Succesvolle Suggesties

GOEDE DOELEN VERDIENEN BETER

START VANDAAG MET UW INTEGRAAL

Handleiding Exact On-line

Regeling van de Staatssecretaris van Economische Zaken houdende de vaststelling van de tarieven voor het bel-me-niet-register en de bestandsindeling

De top 100 van de familienamen in Nederland Leendert Brouwer

hoe u kunt zoeken naar informatie; hoe u gevonden informatie kunt beoordelen op betrouwbaarheid.

Voorstelformulier voor een Koninklijke onderscheiding

Omzeil het gebruik van mappen en bestanden over Wiki s en het werken in de 21 e eeuw

Nationale Social Media Onderzoek 2015

Nationale Social Media Onderzoek 2016

Quickstart handleiding

GEBRUIKERSHANDLEIDING UPLOADEN RESPONDENTEN FARMACIE

Btw staat voor: "Belasting toegevoegde waarde", ook wel "Omzetbelasting"

Vers van de Visser. Resultaten LEI-enquête. Kees Taal en Mike Turenhout. April 2014

Seminar Meer rendement uit duurzame energie 20 april 2016 Van Beek Arnhem

Als u klachten heeft...

Overeenkomst Periodieke gift in geld

Sociale media in Nederland Door: Newcom Research & Consultancy

Instructie en voorbeelden bij Amsterdamse monumenten

Woordvindstoornissen. Neem altijd uw verzekeringsgegevens en identiteitsbewijs mee!

Nationale Social Media Onderzoek 2014

EEN ZAKELIJKE BRIEF SCHRIJVEN NEDERLANDS

Uploaden/wijzigen van meerdere kaarthouders tegelijk

Aanvraagformulier voor het aanvragen voor het toekennen van een boom aan een persoon in het prominentenpark

Als u klachten heeft...

Kwaliteitsverbetering methode Eigendomsbepaling. F. Faqiri

Eyefactory heeft de eerste stap op weg naar optimale datakwaliteit gezet. Gefeliciteerd!

Big Data Halen we wijsheid uit de datalawine of laten we ons IeTs wijsmaken? Willem Brethouwer RM INDI Platform 10 oktober 2014

Onderzoek in het kader van de 100 ste editie van de Internationale Vierdaagse Afstandsmarsen Nijmegen. Nienke Lammertink en Koen Breedveld

Legal Intelligence, een nieuwe dienst voor juristen

GRATIS Excemplaar HET OUDE SKÛTSJE

Professioneel Communiceren. Advies rapport : Online betalen X- treme 21. Titelblad. Klas: CMD2C. Rick van Willigen Jonathan Reijneveld

Handleiding voor implementatie WEBSERVICE GEOCODEREN

Centrum Basiseducatie Brusselleer Oefenmap lezen en schrijven p. 1 Gezondheid Lang leve de fiets Niveau 3

Werkinstructies voor de CQI Verpleging, Verzorging en Thuiszorg CQI VV&T (VV-ZT) Werkinstructies voor CQI Zorg thuis voor de landelijke meting

Lorem Ipsum. Stichting Honderd-Duizend-Keereen-Tientje (HDKT) Belastingen & Giften. Overeenkomst Periodieke gift in geld. Giften

gravita PSUR-C conversie en import van relaties in PSU Relatiebeheer Algemeen

Exact Synery Add-on Adres Validatie

Versie maart 2015

Inleiding CUSTOMER TOUCH MODEL. Is het mogelijk klanten zo goed te kennen dat je kunt voorspellen wat ze gaan kopen voordat ze dat zelf weten?

HELPTEKST ENTITEIT BIDPRENTJES

AUTEURS- EN PERSOONSNAMEN IN HET PICA FORMAAT

Uitleg conversie bestand

Acceptatieformulier beleggingsdiensten. zakelijk

Werkinstructies voor de CQI Huisartsenposten

FileFrame Integratie campagne management

Beheeradvies BasisRegistratie (BRS)

Een data-driven analyse van binnenlandse migratie in de regio Tilburg & Rotterdam tussen 1815 en 1900

Waarom Access. In de onderstaande afbeelding ziet u een begin van de lijst met cliëntgegevens van de diëtiste.

Werk en vestigingen in Nederland, CBS-regiobase en LISA vergeleken

Cognitive Tools RECHTSVORMEN. Transparantie in besluitvorming

copyright 2010 Blinker BV

BRIDGIS EN DE BAG Opgesteld door Bridgis Geoservices BV Datum Mei 2013

Patiëntgerichte zorg voor mensen met gevorderde kanker of een ernstige chronische aandoening

Het effect van Social Media op de doorlooptijd van vacatures. Lead Benefits December 2015

PRESENTATIE WOZ KAART

Nieuwsbrief Services

Dit voorbeeldproject beschrijft het gebruik van web services (open standaarden) voor de ontsluiting van kernregistraties bij de gemeente Den Haag.

Wijzigingsformulier Nummerbureau: Wijziging gegevens nummerhouder

International Business Check. User Guide

TAXONOMIE HISTORISCH DENKEN

Contract 088 Bedrijfsnummers

1e Plaats. Als u bewust kiest voor beleggen, helpt onderstaande vragenlijst u om uw beleggingsprofiel vast te stellen.

Inleiding. Record. Specificatie ToPX 2.1

Leuk en veilig op social media, hoe doe je dat? Twitter, Facebook, LinkedIn

Wijzigingsformulier Nummerbureau: Wijziging gegevens nummerhouder

Human Inference Data Quality

EyeOptics heeft de eerste stap op weg naar optimale datakwaliteit gezet. Gefeliciteerd!

Kortere doorlooptijden in uw project Hogere kwaliteit software

V.O.F. Administratie- en Belastingadvieskantoor W. De Jonge Failliet of Surseance. Status. Actief. Actief. nee

Uploaden/wijzigen van meerdere kaarthouders tegelijk

VRAAGVORMEN OPTIMAAL GEBRUIKEN INSTRUCTIE VOOR VRAAGONTWIKKELAARS TESTVISION ONLINE

Formulier Nummerbureau: 088-bedrijfsnummers

Handleiding Abakus compleet

Factsheet BEHEER CONSULTANCY Managed Services

Publiek in zicht inzicht in publiek

De Openbare Bibliotheek en de catalogus

F. Verheij & C. Verheij-Overbeek V.O.F Failliet of Surseance. Status. Actief. Actief. nee

Aanvraagformulier MotorZekerPakket

Formulier Nummerbureau: 088-bedrijfsnummers

LAVS uploaden adressenlijst

Getallen 1F Doelen Voorbeelden 2F Doelen Voorbeelden

Samenvoegen Brieven. Word en Excel gegevens samenvoegen. Adresgegevens van Excel samenvoegen met een brief in Word.

Stichting Nationaal Ouderenfonds. het overlijden van de schenker. 2a Wat is de looptijd van de gift? 5 jaar jaar (minimaal 5 jaar) onbepaalde tijd

Formulier Nummerbureau: 088-bedrijfsnummers

Handleiding Op Maat Wizard.

NIEUWE SJABLONEN VOOR KLEOS GEBRUIKERSINSTRUCTIE

Overeenkomst periodieke gift in geld

Waardecreatie is niet langer gebonden aan tijd, plaats en middelen:

Tariefkaart Consumentendata. Uitgave 1 januari 2017

per jaar, die gedurende minstens vijf jaar worden uitgekeerd en uiterlijk eindigen bij:

15.30 uur Welkomstwoord door Wilma Koch, HIP (Health Innovation Park)

* * Overeenkomst Periodieke gift in geld. Belastingdienst. euro. Exemplaar voor de schenker. 1 Verklaring gift

Toelichting 6-cijferige postcodes. 1. Inleiding

Handleiding Afdrukken samenvoegen

Schrijven. U leert een kaartje te schrijven OPDRACHTKAART.

Transcriptie:

Mini Whitepaper KENNIS IS DE SLEUTEL TOT IDENTIFICATIE

Kennis is de sleutel tot idenfica/e Steeds meer bedrijven erkennen het belang van goede verwerking van relatiegegevens. Of het nu gaat om ontdubbeling van bestan- den, online zoeken, invoercontrole of het samenvoegen van doublures: het is de be- doeling relaties al dan niet als gelijken te identi>iceren. Om een betrouwbare en zin- volle uitspraak over de mate van overeen- komst te kunnen doen, is toegevoegde ken- nis vereist. Kennis over de relatiegegevens en de omgeving en de cultuur waarin zij voorkomen. Deze kennis moet op een consis- tente en intelligente manier worden verza- meld en vastgelegd en vervolgens in de iden- ti>icatiemethode worden geïncorporeerd. Dat is feitelijk de enige juiste manier van verwerking van relatiegegevens. Tradi&onele methoden Het gebruik van iden3fica3emethoden als matchcodes, trefwoorden, postcode- huisnummer en rela3enum- mers, vaak in combina3e met andere gegevens zoals een geboortedatum, levert in vele gevallen niet het gewenste resultaat. De gevonden overeenkomsten zijn in veel gevallen onbetrouwbaar en niet specifiek ge- noeg (mismatches en missed matches). De matchcode BAAGEN73 levert in 2013 veel 40- jarige kandidaten uit Gendringen en Genemuiden op, maar houdt geen reke- ning met de fonologische overeenkomst tussen me- vrouw Van Balen en mevrouw Baalen. Een groot gevaar bij het gebruik van trefwoorden is, dat degene die het trefwoord kiest, vaak iemand anders is, dan degene die de rela3e later opzoekt. Hoeveel mensen geven niet bij het zoeken naar rela3es uit Bourtange het trefwoord BOE op? Een combina3e van postcode en huisnummer zegt wel iets over een loca3e, maar niets over de men- sen die er wonen of hebben gewoond. Daarnaast is het in Nederland ook nog eens zo dat er meerdere straten bij een bepaalde postcode kunnen horen. Het gaat hierbij om zo n drieduizend postcodes. De combina3e met het huisnummer is dan dus niet meer uniek. Over de foutgevoeligheid van rela3enummers is al veel ge- schreven. Maar bedenk ook dat de gegevens van elke Nederlander in gemiddeld negenhonderd bestanden zijn opgeslagen. Hiermee krijgt iedere inwoner zoveel unieke nummers toegekend, dat de klantvriendelijkheid ver te zoeken is. Conclusie: het zoeken met tradi3onele methoden kent vele nadelen. Er worden te veel niet relevante rela3es gevonden en/of de werkelijk gezochte rela3es worden gemist. Traditionele zoekmethoden zijn onvolledig Mathema&sche vergelijking Wanneer men de vergelijking van rela3es baseert op zuiver mathema3sche methoden, gebeurt dit op basis van een overeenkomst in het aantal en de volgorde van bepaalde lewers. Er wordt echter geen rekening gehou- den met de betekenis van die reeksen van lewers. Ook het gebruik van axor3ngen en acroniemen blijy bij de- ze manier van vergelijken buiten beschouwing. Zo lijkt bij een dergelijke methode de lewerreeks allr meer op 2

de familienaam Aller dan op de axor3ng van het bij- voeglijke bedrijfswoord allround. Ook bestaat er wei- nig overeenkomst tussen de bedrijfsnaam Eerste Ne- derlandse Taxi- en Automobielmaatschappij en het hiervan afgeleide acroniem ENTAMij. Dit gebrek aan kennis over de betekenis van de rela3e- gegevens zorgt bij puur mathema3sche vergelijkings- methoden voor veel overkill en underkill (onterecht gevonden matches en onterecht niet gevonden mat- ches). Betekenis Bij het analyseren van rela3egegevens kunnen we o.a. de volgende betekeniscategorieën onderscheiden: /tulatuur: Firma Bakker, Gebroeders De Boer, Mevrouw Versteegh /tels: Drs. Philip van Meerdingen, Carel baron Sloet tot Oldenhave, Willem Wanders MSc voornamen: David Bertelink, Kim Kaasjager, Marie- Louise van Houwelingen voorlelers: H.A.F.M.O. van Mierlo, M. Boogerd voor- en tussenvoegsels: Jan van der Graaf, Theo RuLen meergenaamd Roethof familienamen: Sophie Beer, Annelies van Aakster Bussen toevoegingen: J. Holsboer & Co. IT- services, Gerard Hamming Hzn., Walter Delleman jr. beroepsaanduidingen: B. Vink cardioloog, Ton de Vos informa/eanalist geografische aanduidingen: Tilburgse Betonmortelfabr. BEMOTI, Drankenhandel Vd Spek Arnhem rechtsvormen: Human Inference Enterprise BV, Jansen & Tilanus GmbH bedrijfswoorden: Arnhemse Steenfabriek, Oudman & Partners Planologische Consultancy BV bedrijfseigennamen: MarktSelect BV, Zuivelfabriek Campina, Kledingherstelbedrijf Van der Naald rangtelwoorden en /jdsaanduidingen: Eerste Twentse Stoomspinnerij Anno 1907 Bij het vastleggen van de betekenissen moet men ook rekening houden met de ambiguïteit van verschillende onderdelen van de tenaamstelling. Zo is het item art zowel voornaam, familienaam als (afgekort) bedrijfs- woord <zie figuur 1>. Een item dat wordt vastgelegd in de kennis moet dus in al zijn betekenissen worden vastgelegd. Alleen op deze wijze kan eenduidige interpreta3e plaatsvinden en worden er geen appels met peren vergeleken. Daarnaast speelt ook de omgeving waarin een item zich bevindt een rol. In het laatste voorbeeld van figuur 1 zien we bijvoorbeeld dat het item art wordt gevolgd door een punt en een voorzetsel. Contextanalyse leert dat we in dergelijke gevallen zeer waarschijnlijk met een bedrijfswoord te maken hebben. De heer Art de Vries Mevrouw J. Art- de Vries Art Gallery de Vries Art. voor Kunstnijverheid De Vries BV Fig. 1: Betekenisambiguïteit van het item art Bij het vergelijken van rela3egegevens zijn de context en het verschil in betekenis van groot belang voor de mate van overeenkomst van de records. Regels Naast het vastleggen van kennis in bepaalde beteke- niscategorieën, is de nota3ewijze van de verschillende onderdelen van de tenaamstelling van groot belang. Hierbij hebben we te maken met geschreven en onge- schreven landspecifieke regels. Zaken als meervouds- vorming, axor3ngen, acroniemvorming, synoniemen, 3

de vorming van samenstellingen en bijvoeglijke aflei- dingen zijn hierbij belangrijke factoren. Wanneer een tenaamstelling in verschillende databestanden voor- komt, dan is de kans groot dat de nota3e zal verschillen. Enkele voorbeelden? Int. Transp. Ond. is gelijk aan Interna3onale Trans- portonderneming en niet aan Intern Transplan3eon- derwijs. ENTAMij is het afgeleide acroniem van Eerste Neder- landse Automobiel- en Taximaatschappij. De afgekorte string arnh in de tenaamstelling Arnh. Zuivelcoöpera3e Van OWen & Zonen zal taalkundig gezien een bijvoeglijke geografische afleiding moeten zijn: Arnhemse Zuivelcoöpera3e Van OWen & Zonen. Het gaat dus ook om het verzamelen en intelligent vast- leggen van kennis over de kennis. Figuur 2 en 3 illustreren hoe het ontbreken van kennis en regels de mate van overeenkomst kan beïnvloeden. B.V. Sloten Amsterdam Bedrijfsauto s <- - > B. v. Amsterdam Autobedrijven Sloten Interna3onaal Transport Idema <- - > Int. Transp. I. de Man A.B.H. Dekker- de Goey <- - > H.A.B. de Goey- Dekkers Fig. 2: Onterecht hoge overeenkomst van de relatieparen door het ontbreken van kennis en regels Gar. Van Sloten A dam BV <- - > Amsterdams Automob. Bedr. Sloten VOF Cebuco <- - > Centraal Bureau voor Courantenpubliciteit Esveha <- - > SVH Het zal duidelijk zijn, dat het gebruik van kennis en re- gels over deze kennis in alle gevallen een beter iden3fi- ca3eresultaat tot gevolg heey. Alterna&even? Er zijn uiteraard iden3fica3emethoden, waarbij de ge- bruiker zelf kennis kan toevoegen. Dit heey echter een aantal evidente nadelen. Het vastleggen en onderhouden van kennis is, zoals uit het voorgaande al blijkt, een dynamisch en complex proces, waarbij deskundigheid is vereist. Wanneer de gebruiker zelf kennis invoert om een kennisloze iden3fica3emethode te op3maliseren, levert hij uitein- delijk een grotere 3jdsinspanning met een kwalita3ef minder resultaat. Het toevoegen van kennis alleen is immers niet genoeg. Ook contextanalyse en kennis van taalkundige regels zijn nodig voor een goede iden3fica- 3e. Fig. 3: Onterecht lage overeenkomst van de relatieparen door het ontbreken van kennis en regels 4

Op deze manier maakt het bedrijf uiteindelijk hogere kosten dan aanvankelijk voorzien. Het zelf toevoegen, onderhouden en nabewerken van kennis komt de ge- bruiker in kwes3e lewerlijk duur te staan. Feitelijk is er geen alterna3ef. Een goede iden3fica3e- methode maakt gebruik van geïncorporeerde kennis over rela3egegevens en de omgeving en de cultuur waarin zij voorkomen. Ook in uw organisa3e. Over Human Inference Human Inference helpt al meer dan 25 jaar over- heid en bedrijfsleven om beter met hun klanten om te gaan, door hen alle pijn rondom klantgege- vens en informa/ekwaliteit uit handen te nemen. Zo kan de Belas&ngdienst vooraf uw juiste gege- vens invullen. Centerparcs stuurt u een persoonlijk aanbod, waardoor zij 20% meer rendement op hun market- ing halen. ING kon pijnloos samengaan met de Postbank. Nutricia realiseerde in 3 maanden de basis voor nog gezondere marke/ngcampagnes. En Aegon, ING Lease, SNS property Finance en vele anderen voorkomen miljoenen aan fraude, ieder kwartaal opnieuw. 5