de wet van Zipf de wet van Zipf voor eigennamen op allerlei terreinen ruwe data naamgegevens de wet van Zipf is een machtsfunctie (power law)

Vergelijkbare documenten
abstract jaar verandering in het aantal voornamen officiële naam en roepnaam voornaamkeuze van traditie naar mode % traditionele vernoeming

voornamen, familienamen en een historische basisadministratie

Hoe populair is mijn naam?

Namen in de Burgerlijke Stand in Friesland vanaf 1811

VOORNAMEN KIEZEN. Gerrit Bloothooft. De wet van Zipf

De top 100 van de familienamen in Nederland Leendert Brouwer

2. Groei allochtone bevolking fors minder

Online presentatie van gegevens over voornamen en familienamen

Online presentatie van gegevens over voornamen en familienamen

Het begin van de speurtocht en het ontstaan van de stamboom van de Familie Peihak. Helaas geen groepsfoto gemaakt

Het begin van de speurtocht en het ontstaan van de stamboom van de Familie Peihak.

PERSBERICHT embargo tot 2 april 2014

1. Geboorte, huwelijk en overlijden pagina 1 2. Geboorte 3 3. Huwelijk en echtscheiding 4 4. Overlijden 5 5. Naamsaanneming 7

Voornamen en Familienamen

Centraal Bureau voor de Statistiek. Persbericht. Bevolking groeit tot 17,5 miljoen in 2038

naamkunde Alle namen van Nederland eigennamen onderwerpen vandaag voornamen namenbanken

Familienamen en voornamen in Friesland. waar gaan Friezen naartoe? familienamen. Friese familienamen. familienamen

Cornelis Appelo Aaltje van de Beld Hendrik Appelo Egbertdina Smit Gerrit Appelo Anna van Dijk Anna van Dijk

Naamkwaliteit in de Gemeentelijke Basisadministratie

2. De niet-westerse derde generatie

Statistische gegevens gemeente Lochem op 1 januari 2019

Errata Moderne wiskunde 9e editie VWO A/C deel 2 uitwerkingen

Misdrijven en opsporing

Steelbladdiagram In een steelbladdiagram staan alle leerlingen genoemd. Je kunt precies zien waar Wouter staat.

Statistische gegevens gemeente Lochem op 1 januari 2015

2 Data en datasets verwerken

Veranderingen Antwoorden

Statistische gegevens gemeente Lochem op 1 januari 2017

Meer over jeugdigen in Leiden staat in hoofdstuk 13 over Jeugd. Meer over ouderen in Leiden staat in hoofdstuk 14 over Welzijn en zorg.

Statistische gegevens gemeente Lochem op 1 januari 2016

De feiten: arbeidsmigratie door de jaren heen

niet-inheemse vaatplanten in Nederland

Examen VWO. wiskunde A1,2 (nieuwe stijl)

Koppelen van persoonsnamen uit historische bestanden. Gerrit Bloothooft UiL-OTS Universiteit Utrecht

Een data-driven analyse van binnenlandse migratie in de regio Tilburg & Rotterdam tussen 1815 en 1900

Artikelen. Allochtonenprognose : naar 5 miljoen allochtonen

Huishoudensprognose : ontwikkelingen naar burgerlijke staat

Uitslagen Pupillen Clubkampioenschap

Huishoudensprognose : belangrijkste uitkomsten

Bevolkingsspreiding. Waar zit iedereen? Juist of onjuist: China is het grootste land ter wereld. A. Juist. B. Onjuist

Planbureau voor de Leefomgeving PERSBERICHT. Bevolking daalt in kwart Nederlandse gemeenten. Nieuwe regionale bevolkingsprognoses tot 2040:

Paragraaf 10.1 : Populatie en Steekproef

Artikelen. Huishoudensprognose : belangrijkste uitkomsten. Maarten Alders en Han Nicolaas

Huishoudensprognose : ontwikkelingen naar burgerlijke staat

Allochtonen op de arbeidsmarkt

Centraal Bureau voor de Statistiek. Persbericht. In 2025 fors meer huishoudens in de Randstad

Chronologie van de Burgerlijke Stand in de Nederlanden Op

Uitslagen Record indoor Jun ABCD & M & S.

Administratieve correcties in de bevolkingsstatistieken

Prognose van de bevolking naar herkomst,

Statistische gegevens gemeente Lochem op 1 januari 2018

Gezondheidsindicatoren 2005 Vlaams Gewest. Algemene sterftecijfers

Statistische gegevens gemeente Lochem op 1 januari 2014

Regio 3 van 2018: de finales Zevenhuizen

Uitslagen Clubkampioenschappen

Cornelis van Huijk(Huik) ( )

Ruim helft Poolse immigranten vertrekt weer

bron Burgerlijke stand - overlijden Koudekerk aan den Rijn toegangsnummer inventarisnummer 60 aktenummer 24 naam

Project: Kennisdocument Onderwerp: p90 Datum: 23 november 2009 Referentie: p90 onzekerheid Wat betekent de p90 (on)zekerheid?

Programmanr. 1 25m vrije slag Minioren :30 swimkick Resultaten

Regiocongres NVVB Limburg en Noord-Brabant. Roermond 5 oktober 2016

afdeling Beleidsonderzoek en Geo Informatie inkomen

Ingrid Schockaert, Edith Lodewijckx en Edwin Pelfrene SVR PROJECTIES VAN DE BEVOLKING EN DE HUISHOUDENS VOOR VLAAMSE STEDEN EN GEMEENTEN

Gegevensverwerving en verwerking

Jeugdwerkloosheid Amsterdam

Scores ,43. Voor de anderen zijn de voorlopige scores volgens hetzelfde

1. Statistiek gebruiken 1

Persoons- en familiegegevens

Bevolkingsprognose van Amersfoort Gemeente Amersfoort Marc van Acht en Ben van de Burgwal maart 2013

Seizoen dinsdag 9 juni 2015 Voorlopige teamindelingen Selectie A-junioren RKAV Volendam Jeugdopleiding Bovenbouw

Huishoudensprognose : ontwikkelingen naar type en grootte

Cohortvruchtbaarheid van niet-westers allochtone vrouwen

Hoofdstuk 3 : Numerieke beschrijving van data. Marnix Van Daele. Vakgroep Toegepaste Wiskunde en Informatica Universiteit Gent

Eindexamen wiskunde A1 vwo 2001-II

Examen VWO. wiskunde A (pilot) tijdvak 2 woensdag 20 juni uur. Bij dit examen hoort een uitwerkbijlage.

2011/5 De (in)stabiliteit van huwelijken in België

Overzicht bevolkingstellingen en bevolkingsregisters van de stad Mechelen

CLUBRECORDS jongens Jongens onder 9 jaar 09 en later (minioren 1 t/m 4)

Partnerkeuze van allochtonen

SKY RADIO GROUP. Luistercijfers feb-mrt 2011 MARKTLEIDER SHOPPERS JAAR

Regio West Miniorencircuit Deel 2 Den Haag, Programmanr. 1 Meisjes, 100m vrije slag Meisjes Minioren 2 en :00 Startlijst

Eindexamen wiskunde A1-2 vwo 2004-II

Sterke toename alleenstaande moeders onder allochtonen

Ouder. en kind. Poule 1 (Rood) Duur wedstrijd : 20 minuten: partijtjes tot de 7 punten. Daan Kerssens + papa Roger

Tussentijden op

Bevolkingsprognose 2017

Demografische evoluties in Vlaamse gezinnen vanaf 1970

Limietdriekamp deel 2 Oud-Beijerland, Programmanr. 1 Dames, 50m schoolslag 11 jaar en ouder Startlijst

Auteur: Onderzoek en statistiek gemeente Dronten Datum: 28 januari 2016 Voor vragen: Feiten en cijfers 2015 Bevolking

Eindexamen wiskunde A 1-2 vwo I

De integratie van Antillianen in Nederland. Presentatie 9 juni: De Caribische demografie van het Koninkrijk der Nederlanden

Jeugdwerkloosheid Amsterdam over 2017

4.1 Eigenschappen van de normale verdeling [1]

Scheiden of einde relatie...s. pensioenfonds UWV

FORUM Monitor Allochtonen op de arbeidsmarkt: effecten van de economische crisis 2 e kwartaal 2009

Centraal Bureau voor de Statistiek. Persbericht. Tempo vergrijzing loopt op

In het voorgaande artikel werd aangegeven hoe de vaste verdeling van cijfers in getallen, zoals deze voortvloeit

Transcriptie:

de wet van Zipf de wet van Zipf voor eigennamen Gerrit Bloothooft UiL OTS Utrecht vooral bekend door het tellen van de frequentie van woorden in een tekst er zijn een beperkt aantal woorden heel frequent, en een groot aantal woorden die we zelden tegenkomen en daar zit een fraaie relatie tussen 2 op allerlei terreinen aantal aardbevingen met een bepaalde kracht aantal steden met een bepaalde grootte aantal hits op een website aantal verkochte boeken de frequentie van namen de wet van Zipf is een machtsfunctie (power law) n (f) = constante. f =n() f n (f) = met frequentie f log n(f) = log n() log f is rechte lijn op log log vlak met helling 3 4 naamgegevens ruwe data 20 e eeuw 204: gemeentelijke basisadministratie (voornamen van 23 miljoen personen) 2007: alle 6 miljoen achternamen 9 e eeuw: akten van geboorte, trouwen en overlijden (50 miljoen genoteerde voor en achternamen) Leo Nardo Florbert Rommeniek Zibeon Ruus 00.000 0.000.000 00 0 Daan Sem Milan Lucas 5 6

logaritmische bins cumulatief 00.000 0.000.000 00 0 7 8 cumulatief machtsfunctie ( =.69) voor de cumulatieve verdeling geldt de machtsfunctie ook meer unieke 00.000 namen 0.000 n cum(f) = 24.725 f -0,69 n cum (f) = n cum () f.000 00 0 frequentie van populaire namen is lager 9 0 gelijk (cumulatief en log bins) jongens ( =.69) n(f) = 5.739 f -,69 ncum(f) = 24.725 f -0,69 2 2

meisjes ( =.75) eind 20 ste eeuw (modenamen, =.62) Fobke Lychee Khristina Joy eux voornamen meisjes 2005-204 meer laag frequent ncum(f) = 32.483 f -0,75 minder hoog frequent Sophie Emma Julia Lotte Tibbe Meeuw Disciple Ritsjert,0E06,0E-04 voornamen mannen 965-204 ncum(f) = 46.670 f -0,62 Jeroen Dennis,0E-05 00.000 3 4 begin 20 ste eeuw (vernoemingsnamen, =.55) 9 e eeuw ( =.54) Luca Jesper Jordi Vince Kelvin,0E-04 voornamen mannen 905-964 n cum(f) = 6.29 f -0,55 Willem Benjemijn Dirc Jappie Nopoleon Zymon,0E-04 voornamen mannen 9e eeuw n cum(f) = 39.92 f -0,54 Willem,0E-05,0E-05,0E-06 00.000.000.000,0E-06 00.000.000.000 0.000.000 5 6 achternamen ( =.62) verklaring? Aaerde Acgterberg Ammeling Zytveld Zyp,0E06,0E-04,0E-05 familienamen GBA 2007 n cum(f) = 406.526 f -0,62 00.000 de Jong de Vries sen ssen van Dijk Eerst: twee eigenschappen die helpen () Zipf blijft behouden bij telling over verschillende groepen met eigen namenvoorraad (en gelijke ) Nederlands, Turks, Arabisch, jongens, meisjes 7 8 3

n NL (f) = n NL () f n Turks (f) = n Turks () f additiviteit n tot (f) = (n NL () n Turks () ) f schaling (2) Zipf blijft behouden bij telling over meerdere gelijksoortige groepen voornamen met vergelijkbare distributie per aktetype (9 e eeuwse geboorte, huwelijks, overlijdensakte) per rol van persoon in akte (als boven) per periode van telling (per jaar, decade, 50 jaar) voor 2 gelijke distributies: n 2 (f) = n (f/2) = (n () 2 ) f 9 20 mode voornamen >950 populariteit Ingrid exponentiële groei (en daling) [logistische verdeling] gelijke snelheid van groei en daling model jaarlijks worden 4000 nieuwe namen bedacht door ouders (f = ) elk volgend jaar fractie p van de namen houdt de aandacht en het aantal naamdragers groeit met factor g tot er nog maar één naam over is, die dan maximaal populair is (en vervolgens ook daalt) fractie p van de namen verliest de aandacht en het aantal naamdragers neemt vervolgens jaarlijks af met factor /g tot de namen niet meer worden gegeven 2 22 model leidt tot machtsfunctie n(f) = n nieuw.(p) f p = g bijvoorbeeld: =.6 g =.33 (in 25 jaar groeien van naar 250 naamdragers) p = 0.82 (8% van de nieuwe namen blijft uniek) n(f) = 7200 f.6 verstening als Zipf gold, dan blijft dat zo bij verstening 955 voornamen: vernoemen ouder modeverschijnsel? achternamen: 8 vastgelegd (daarna immigratie) thema s volgden Zipf? patroniemen (sen, ssen) beroepen (Bakker, Visser, Smit) herkomst (de Vries, van Dijk, van den Berg) eigenschappen (de Jong) Maria 23 24 4

Zipf in combinatie conclusies Voornamen: Vernoeming Modenamen Immigranten Bevolkingsgroei Combinatie (indien historisch Zipf) blijft Zipf Achternamen: 8 (indien historisch Zipf) Immigranten Bevolkingsgroei blijft Zipf Combinatie Zipf geldt heel precies voor eigennamen weinig variatie in exponent additiviteit en schaling maken uitleg eenvoudiger model van modenamen kan Zipf verklaren maar dat lost niet alle problemen op 25 26 5