de wet van Zipf de wet van Zipf voor eigennamen Gerrit Bloothooft UiL OTS Utrecht vooral bekend door het tellen van de frequentie van woorden in een tekst er zijn een beperkt aantal woorden heel frequent, en een groot aantal woorden die we zelden tegenkomen en daar zit een fraaie relatie tussen 2 op allerlei terreinen aantal aardbevingen met een bepaalde kracht aantal steden met een bepaalde grootte aantal hits op een website aantal verkochte boeken de frequentie van namen de wet van Zipf is een machtsfunctie (power law) n (f) = constante. f =n() f n (f) = met frequentie f log n(f) = log n() log f is rechte lijn op log log vlak met helling 3 4 naamgegevens ruwe data 20 e eeuw 204: gemeentelijke basisadministratie (voornamen van 23 miljoen personen) 2007: alle 6 miljoen achternamen 9 e eeuw: akten van geboorte, trouwen en overlijden (50 miljoen genoteerde voor en achternamen) Leo Nardo Florbert Rommeniek Zibeon Ruus 00.000 0.000.000 00 0 Daan Sem Milan Lucas 5 6
logaritmische bins cumulatief 00.000 0.000.000 00 0 7 8 cumulatief machtsfunctie ( =.69) voor de cumulatieve verdeling geldt de machtsfunctie ook meer unieke 00.000 namen 0.000 n cum(f) = 24.725 f -0,69 n cum (f) = n cum () f.000 00 0 frequentie van populaire namen is lager 9 0 gelijk (cumulatief en log bins) jongens ( =.69) n(f) = 5.739 f -,69 ncum(f) = 24.725 f -0,69 2 2
meisjes ( =.75) eind 20 ste eeuw (modenamen, =.62) Fobke Lychee Khristina Joy eux voornamen meisjes 2005-204 meer laag frequent ncum(f) = 32.483 f -0,75 minder hoog frequent Sophie Emma Julia Lotte Tibbe Meeuw Disciple Ritsjert,0E06,0E-04 voornamen mannen 965-204 ncum(f) = 46.670 f -0,62 Jeroen Dennis,0E-05 00.000 3 4 begin 20 ste eeuw (vernoemingsnamen, =.55) 9 e eeuw ( =.54) Luca Jesper Jordi Vince Kelvin,0E-04 voornamen mannen 905-964 n cum(f) = 6.29 f -0,55 Willem Benjemijn Dirc Jappie Nopoleon Zymon,0E-04 voornamen mannen 9e eeuw n cum(f) = 39.92 f -0,54 Willem,0E-05,0E-05,0E-06 00.000.000.000,0E-06 00.000.000.000 0.000.000 5 6 achternamen ( =.62) verklaring? Aaerde Acgterberg Ammeling Zytveld Zyp,0E06,0E-04,0E-05 familienamen GBA 2007 n cum(f) = 406.526 f -0,62 00.000 de Jong de Vries sen ssen van Dijk Eerst: twee eigenschappen die helpen () Zipf blijft behouden bij telling over verschillende groepen met eigen namenvoorraad (en gelijke ) Nederlands, Turks, Arabisch, jongens, meisjes 7 8 3
n NL (f) = n NL () f n Turks (f) = n Turks () f additiviteit n tot (f) = (n NL () n Turks () ) f schaling (2) Zipf blijft behouden bij telling over meerdere gelijksoortige groepen voornamen met vergelijkbare distributie per aktetype (9 e eeuwse geboorte, huwelijks, overlijdensakte) per rol van persoon in akte (als boven) per periode van telling (per jaar, decade, 50 jaar) voor 2 gelijke distributies: n 2 (f) = n (f/2) = (n () 2 ) f 9 20 mode voornamen >950 populariteit Ingrid exponentiële groei (en daling) [logistische verdeling] gelijke snelheid van groei en daling model jaarlijks worden 4000 nieuwe namen bedacht door ouders (f = ) elk volgend jaar fractie p van de namen houdt de aandacht en het aantal naamdragers groeit met factor g tot er nog maar één naam over is, die dan maximaal populair is (en vervolgens ook daalt) fractie p van de namen verliest de aandacht en het aantal naamdragers neemt vervolgens jaarlijks af met factor /g tot de namen niet meer worden gegeven 2 22 model leidt tot machtsfunctie n(f) = n nieuw.(p) f p = g bijvoorbeeld: =.6 g =.33 (in 25 jaar groeien van naar 250 naamdragers) p = 0.82 (8% van de nieuwe namen blijft uniek) n(f) = 7200 f.6 verstening als Zipf gold, dan blijft dat zo bij verstening 955 voornamen: vernoemen ouder modeverschijnsel? achternamen: 8 vastgelegd (daarna immigratie) thema s volgden Zipf? patroniemen (sen, ssen) beroepen (Bakker, Visser, Smit) herkomst (de Vries, van Dijk, van den Berg) eigenschappen (de Jong) Maria 23 24 4
Zipf in combinatie conclusies Voornamen: Vernoeming Modenamen Immigranten Bevolkingsgroei Combinatie (indien historisch Zipf) blijft Zipf Achternamen: 8 (indien historisch Zipf) Immigranten Bevolkingsgroei blijft Zipf Combinatie Zipf geldt heel precies voor eigennamen weinig variatie in exponent additiviteit en schaling maken uitleg eenvoudiger model van modenamen kan Zipf verklaren maar dat lost niet alle problemen op 25 26 5