Koppelen van persoonsnamen uit historische bestanden. Gerrit Bloothooft UiL-OTS Universiteit Utrecht

Vergelijkbare documenten
voornamen, familienamen en een historische basisadministratie

Cover Page. The handle holds various files of this Leiden University dissertation.

Hoe populair is mijn naam?

Namen en Cultuur. Familienamen gebaseerd op Ebeling (1993) en Kunze (1998) Gerrit Bloothooft

Naamkwaliteit in de Gemeentelijke Basisadministratie

Workshop Netwerk Naamkunde 15 december 2006

de wet van Zipf de wet van Zipf voor eigennamen op allerlei terreinen ruwe data naamgegevens de wet van Zipf is een machtsfunctie (power law)

Aldfaer. Goed fout Gedcom Meerdere databases Dubbele personen Groeperen/Selecties Oude versie en opwaarderen (upgraden) Kopiëren

Onderwijs- en examenregeling

Een data-driven analyse van binnenlandse migratie in de regio Tilburg & Rotterdam tussen 1815 en 1900

Divena. Digitalisering van veldnamen. Doreen Gerritzen, Marc van Oostendorp. GIS Expertmeeting DIVA, Meertens Instituut/KNAW, Amsterdam

Minor Landschapsgeschiedenis

EEN LEAR N I NG ANALYTICS S ER VI CE JOHAN JEUR ING

Collectievormingsprofiel Engelse taal en cultuur

Spraaktechnologie. Gerrit Bloothooft.

Online presentatie van gegevens over voornamen en familienamen

MARC21 en RDA in het GGC

Medewerkers en werkrelaties [beheer Metis]

Bijlage 3 Overzicht majorcombinaties

Zakelijk Professioneel (PROF) - B2

DATE ICT & AGROLOGISTIEK. Harrij Schmeitz WINST UIT AGROLOGISTIEK; 16 februari Platform Agro-Logsitiek. Westlandse Druif

Begrippenlijst Inzicht in de wereld van big data, marketing en analyse

Uw digitale werkplek met de beste bedrijfssoftware

Academische taal & gesprekken over techniek met kleuters

Webservices - CRM Connector Company.info

Keynote-lezing door Jan van der Male: Informatieverlies of informatieverrijking Veranderingen in particuliere archiefvorming en de gevolgen daarvan

Modularisering van meertalige en multiculturele academische communicatievaardigheden voor BA en MA niveau

De nieuwe dimensie in meten ZO EXACT WAS HET NOG NOOIT

Informatieblad Doop-, Trouw- en Begraafboeken (DTB's)

Basisbegrippen van de taalwetenschap: Variatielinguïstiek

IST Standaard. Intelligentie Structuur Test. meneer 1

Metadata mogelijkheden, ambities en praktijk

Invoerinstructie Utrechtse notariële akten ( ) Versie

Educatief Professioneel (EDUP) - C1

Inleiding taalkunde. Inleiding - 23 april 2013 Marieke Schouwstra

Nieuw in GensDataPro 2.7

AFO 113 Authoritybeheer

TRAIN SERVICE & SHUNTING PLANNER

variantie: achtergronden en berekening

Real Time Monitoring & Adaptive Cyber Intelligence SBIR13C038

PROFIELSCHETS NIEUWE BURGEMEESTER

Het verbeteren van de integratie van zieke werknemers door aandacht voor hun dubbele rol (Universiteit Utrecht) Projectleider: Prof. dr.

Begrippenlijst Inzicht in de wereld van big data, marketing en analyse

3. Familiegegevens zoeken Rapporten in Aldfaer

DOOP-, TROUW- EN BEGRAAFREGISTERS (DTB)

8. Afasie [1/2] Bedenk tenminste drie verschillende problemen die je met taal zou kunnen hebben (drie soorten afasie).

Versie maart 2015

abstract jaar verandering in het aantal voornamen officiële naam en roepnaam voornaamkeuze van traditie naar mode % traditionele vernoeming

CRPA Nieuwe Stijl. Door Marieke Kroonen

De invloed van Lean interventies over meerdere jaren op laboratorium performance

Woordenboekencomponent van de Geïntegreerde Taalbank (GTB): het WNT en VMNW met andere databestanden geïntegreerd in 1 zoeksysteem demo gtb.inl.

Educatief Startbekwaam (STRT) - B2

Genderverschillen in de ervaren zorgbelasting van partner-mantelzorgers over de tijd

In Vlaanderen bestaat er nog geen leerlijn programmeren! Hierdoor baseren wij ons op de leerlijn die men in Nederland toepast voor basisscholen.

Laatste wijziging: 19 december Algemene richtlijnen

Mijn doel is zover als mogelijk is de voorouders vanuit onze kinderen terug te zoeken.

Ligt uw uitdaging in het aansluiten op de voorzieningen en de distributie van basisgegevens?

Tabel competentiereferentiesysteem

Web-deductie voor het onderwijs in formeel denken

De KU Leuven vroeg een oplossing voor het bewaren op lange termijn van de vergaderdocumenten van de belangrijkste raden van de universiteit

De info is nog niet veelzeggend maar

Bibliotheektechnisch medewerker

Wie is leidend of lijdend?

Databank Digitale Dagbladen

Controleinstructies Vele Handen WieWasWie - Bevolkingsregisters

De volgorde van de hieronder vermelde stappen hoef je niet per definitie te volgen.het zijn de belangrijkste bronnen voor familieonderzoek.

Robotic accounting & machine learning

Research & development

Basisverzameling of collecte door de bevolkingsdienst

Laatste wijziging: 17 mei Algemene richtlijnen

Enquête noden van de scholen. Eerste verwerking

Partnerkeuze en huwelijkssluiting onder migranten

FineZapper. Andreas van Cranenburgh & Kaspar de Geus Sat Oct 2 15:58:23 CEST Inleiding 1. 2 Eisen 1. 3 Werking 2

Genealogie voor Beginners. Ik wil mijn familiegeschiedenis onderzoeken. Hoe doe ik dat?

Het (on)meetbare brein

Onderzoek naar de informatiehuishouding. Twee vragenlijsten vergeleken

MultimediaN E-Culture en Prenten Kabinet Online

De migratie naar SEPA

De AVG en het CBS. Max Booleman Functionaris gegevensbescherming van het CBS NORA, 29 mei 2018

2. Basisgegevens invoeren

Vragenlijst deelnemers Vlaams Lerend Netwerk STEM SO

Examen HAVO. maatschappijwetenschappen (pilot) tijdvak 1 vrijdag 25 mei uur. Bij dit examen hoort een bijlage.

Rol institutionele beleggers in relatie tot bestuur en commissarissen Een driehoeksverkenning

CATCHPlus D2.7.2 Lokale triple store DELIVERABLE. D Lokale triple store. René van der Ark Sara van Bussel

studie waarmee we de principes van de analyse willen demonstreren. Een volledig beschrijving van de algoritmen en de resultaten zijn te vinden in

Accountancy in 2020: visie op ict-ontwikkelingen

1. Databanken. Wat is een databank? Verschillende opslagmethodes

Onderwijs- en examenregeling geldig vanaf 1 september 2011

Programmaschema BA Taalwetenschap. Traject Taalbeschrijving

Letters zoals de S kunnen van uiterlijk veranderen afhankelijk van hun positie in het woord.

Online presentatie van gegevens over voornamen en familienamen

Zaakgericht archiveren met Blockchain

Inhoud. 1 Spelling 10

Informatieblad Doop-, Trouw- en Begraafboeken

Instructies annotatie experiment

Richtlijnen adrestoekenning en opslag. Het adres als sleutel voor een vlotte dienstverlening in uw stad of gemeente.

Studeren aan de Universiteit Utrecht Welkom bij de opleiding Frans

BLOCKCHAIN TECHNOLOGIE IN HET ONDERWIJS Teun van Essen

Efficiënt Verspanen 9 oktober 2007 Gereedschapbeheer, behaal uw voordeel! Klaas Feijen

Meer met Minder Dankzij Een Visie op de Elektronische overheid

Transcriptie:

Koppelen van persoonsnamen uit historische bestanden Gerrit Bloothooft UiL-OTS Universiteit Utrecht

Het probleem Bijeenbrengen van vermeldingen van één persoon, in één of meerdere bronnen, die elektronisch beschikbaar zijn, waarbij de naam niet steeds op dezelfde manier geschreven is 22/11/02 Naamkunde Gegevenskoppeling op naam 2

Interdisciplinair karakter Naamkunde Geschiedenis Taalwetenschap Computationele taalkunde Kunstmatige intelligentie Databasetechnologie 22/11/02 Naamkunde Gegevenskoppeling op naam 3

Bronnen van variatie Opgave van naam door individu Afhankelijk van doel (kerkelijk, zakelijk, informeel, ) Sociale wenselijkheid Op schrift stellen Luisterfouten, interpretatiefouten Spellingsvariatie Lezen van de bron Leesfouten (overeenkomst geschreven letters) Interpretatiefout (verwarring van naamonderdelen) Intypen van de naam in database Typefouten (misslagen toetsenbord) 22/11/02 Naamkunde Gegevenskoppeling op naam 4

Een voorbeeld Een familienaam in 17e eeuwse bronnen Beecque, del Delbeecque Becque, de la Delbeque Beke, de le Delbeke Beque, Berque, Beecq, Beeck, 22/11/02 Naamkunde Gegevenskoppeling op naam 5

Invalshoeken naamstandaardisatie ambiguiteiten onbekende namen en varianten kansberekening wat is de kans twee namen op dezelfde persoon betrekking hebben oplossingen in context 22/11/02 Naamkunde Gegevenskoppeling op naam 6

Onbekende namen % voornamen in bron genoemd in vd Schaar: Poorters Amsterdam 1531-1611 38% 1.725 / 24k DTB Amsterdam 1776-1811 19% 11.826 /343k Brabant var. 17-19e eeuw 39% 5.674 /584k 1947 volkstelling steekproef 64% 4.584 / 86k 22/11/02 Naamkunde Gegevenskoppeling op naam 7

Zinvolle standaardisatie normaliseert naamvarianten die in de praktijk - in dezelfde tijd - door elkaar gebruikt worden probleem grondvorm is dan lang niet altijd zinvol er is nauwelijks informatie over contemporaine varianten 22/11/02 Naamkunde Gegevenskoppeling op naam 8

Beperkte standaardisatie is nuttig Spellingsvereenvoudiging semi-fonetisch Suffixreductie affixreductie bij voornamen patroniemreductie tot voornaam aangehecht voorvoegsel familienamen 22/11/02 Naamkunde Gegevenskoppeling op naam 9

Semi-fonetische vorm (voorbeelden) j Rajmund raimund tweeklank Andreas andræs, Oaries årys ph Alphons alfons z Atze atse q Quirina kwirina c Oscar oskar, Alice alise x Alexia aleksia ck Rijcklof rijklof ch Christiaan kristiaan, Aardsche aardse h Theun teun, Deborah debora #i Ian jan 22/11/02 Naamkunde Gegevenskoppeling op naam 10

Resultaat semi-fonetische conversie winst reduceert het aantal varianten met 1/3 probleem sommige significante verschillen gaan verloren maar overgeneralisatie is meestal geen probleem en zelfs wenselijk de onderzoeker beslist uiteindelijk zelf overgeneralisatie biedt keuzen 22/11/02 Naamkunde Gegevenskoppeling op naam 11

Morfologische decompositie van voornamen voornamen Mannen: 541 affixen + 2516 regels Vrouwen: 1337 affixen + 5496 regels voorbeeld regel: tse# -> t-se Aetse -> Aet-se problemen stam-affix scheiding in trainingsmateriaal vinden van een efficiënte regelmethode informatieverlies (affix kan identificeren) 22/11/02 Naamkunde Gegevenskoppeling op naam 12

Patroniemreductie >> 223 771 varianten Probleem: is affix patronymisch of niet -man, -ma en -ing vormen Voorbeeld Bruyns Bruyning Bruyne Bruynes Bruyninckx Bruynel Bruynensz Bruyninsen Bruynsma Bruyneszoonsz Bruyntsz 22/11/02 Naamkunde Gegevenskoppeling op naam 13

Parsing van familienaam voorvoegsels Familienaam reportorium (1947): 135 typen losse voorvoegsels Vandenberg Lermite Van den Berg L Hermite probleem - spellingsvorm hoofdnaam hoeft niet los te bestaan 22/11/02 Naamkunde Gegevenskoppeling op naam 14

Oplossing in context Wanneer meer dan alleen de naam bekend is in één record Voornaam Patroniem Familienaam Beroep Herkomst Datum... 22/11/02 Naamkunde Gegevenskoppeling op naam 15

Parsing van velden Probleem door onzekere interpretatie en invoer in database Een voorbeeld (een koopman) voornaam patroniem famnaam Jan Jacobsen Benning Jan, de jonge Benningh Jan (Benning Coeckebakker) Jan Jacobsz. (Benninck Coeckebakker) Jan Jacobsz (Banninck Couckebakker) 22/11/02 Naamkunde Gegevenskoppeling op naam 16

Gegevenskoppeling met complexe relaties Meerdere namen en familierelaties in één records man, vrouw, ouders, kinderen (in één record) met soms onzekerheid over die relaties Expertsysteem met geïntegreerde naamanalyse laat vaak ruimere naaminterpretatie toe 22/11/02 Naamkunde Gegevenskoppeling op naam 17

Disciplines 1 Naamkunde Kennis van naamvariatie Kennis van contemporaine varianten Geschiedenis Kennis van personen, achtergronden Taalwetenschap Methoden voor fonetische standaardisatie en morfologische decompositie 22/11/02 Naamkunde Gegevenskoppeling op naam 18

Disciplines 2 Computationele taalkunde Algoritmen voor regelafleiding en regeltoepassing Waarschijnlijkheidsberekeningen Kunstmatige intelligentie Combineren van kennis Redeneren en interpretatie Database technologie Efficiënte opslag van informatie Zoekstrategiën 22/11/02 Naamkunde Gegevenskoppeling op naam 19

Noodzakelijke basisgegevens Verrijkte databases (als kennisbron en voor training van probabilistische systemen) voornamen en patroniemen stam - affix familienamen voorvoegsel hoofdnaam beroepen en toponiemen bekend als familienamen Voor alle namen bewezen varianten bron, plaats, datum, standaardvorm(en) 22/11/02 Naamkunde Gegevenskoppeling op naam 20

Nodig Nationale gegevensverzameling Uit verspreide bronnen Verrijking Onderzoek naar koppelings / zoekstrategiën Algoritmen Kansberekening Gecoördineerde samenwerking vanuit verschillende disciplines 22/11/02 Naamkunde Gegevenskoppeling op naam 21

Belang Toegankelijkheid van historisch materiaal dat in grote hoeveelheden elektronisch beschikbaar is en komt En Problematiek vrijwel gelijk bij koppeling van moderne databases 22/11/02 Naamkunde Gegevenskoppeling op naam 22