Het gewicht van de auteur De balans van een stylometrisch onderzoek naar de rijmwoorden en auteurs van de Middelnederlandse epiek

Vergelijkbare documenten
Auteursonderscheiding op basis van het frequente rijmwoord in het aandeel van Utenbroeke en Maerlant in de Spiegel historiael

Rapport voor deelnemers M²P burgerpanel

Latijn en Grieks in de 21ste eeuw

2. METHODOLOGISCHE AANPASSINGEN

Pendelarbeid tussen Gewesten en provincies

TAXONOMIE HISTORISCH DENKEN

Mike Kestemont Auteursherkenning met rijmwoorden in de Middelnederlandse Artur- en Karelepiek Eerherstel voor Icarus? *

G0N11a Statistiek en data-analyse: project Eerste zittijd Modeloplossing

Zijn respondenten interviewerresistent?

Populaties beschrijven met kansmodellen

Financiën van steden en gemeenten: Onderlinge verschillen in kaart

Wetenschappelijk Instituut Volksgezondheid. Verwerking van gecensureerde waarden

Samenvatting Zoeken naar en leren begrijpen van speciale woorden Herkenning en de interpretatie van metaforen door schoolkinderen

Evaluatierapport Module 8 Mechatronica

Digitale (r)evolutie in België anno 2009

Inzet van social media in productontwikkeling: Meer en beter gebruik door een systematische aanpak

Digitale (r)evolutie in België anno 2010.

ONGEOORLOOFD AFWEZIG ZIJN IN VLAANDEREN Een actuele beschrijving op basis van registratiegegevens. Gil Keppens & Bram Spruyt

Autobiografisch geheugen in longitudinaal perspectief

Aanvullende tekst bij hoofdstuk 1

Lezen vanop afstand. Digital Humanities en de computationele analyse van middeleeuwse literatuur

GEZONDHEIDSENQUETE 2013

Een Artikel Schrijven. Prof. dr. Paul A. Kirschner Coördinator Onderzoek

How Do Children Read Words? A Focus on Reading Processes M. van den Boer

De vragenlijst van de openbare raadpleging

Narrative Authority: From Epic to Drama. S. Willigers

Samenvatting. Dutch Summary.


Inhoud. Woord vooraf

Rapportgegevens Nederlandse persoonlijkheidstest

Cover Page. The following handle holds various files of this Leiden University dissertation:

ONDERWIJSVORMEN EN ACADEMISCH ZELFCONCEPT. Dockx J, De Fraine B. & Vandecandelaere M.

Springboard to knowledge. Ephorusplagiaatcontrole

1 - Geschiedenis van de Algebra

SAMENVATTING (Dutch summary)

Studentenarbeid in 2018

Waar Bepaal ten slotte zo nauwkeurig mogelijk waar het onderwerp zich afspeelt. Gaat het om één plek of spelen meer plaatsen/gebieden een rol?

hoofdstuk 2 een vergelijkbaar sekseverschil laat zien voor buitenrelationeel seksueel gedrag: het hebben van seksuele contacten buiten de vaste

Evaluatierapport Project Ontwerpen van een Werktuig en Module 1

EFFECTEN VAN VERANDERING VAN ONDERWIJSVORM OP SCHOOLSE PRESTATIES & ACADEMISCH ZELFCONCEPT

De beroepsbevolking in de grensregio s van Nederland en Vlaanderen: grote verschillen aan weerszijden van de grens

a. De hoogte van een toren bepalen met behulp van een stok

VUISTREGELS VOOR EEN KWALITEITSVOLLE EXPLAIN

Gegevensverwerving en verwerking

Semantic Versus Lexical Gender M. Kraaikamp

nederlandse samenvatting Dutch summary

Factsheet: De beleving van een vroege eerste geslachtsgemeenschap

Evaluatie van het project Mantelluisteren academiejaar

EXAMEN LEREN EN ONDERWIJZEN (voor wie de lessen heeft gevolgd in )

Een speelvriendje op batterijen: hoe gaan kinderen om met robots?

1. Soorten wetenschappelijke informatiebronnen

ANALYSE PATIËNTERVARINGEN ELZ HAAKSBERGEN

Salarissen en competenties van MBO-BOL gediplomeerden: Feiten en cijfers

Standaard Eurobarometer 84. Die publieke opinie in de Europese Unie

Mediagroepen: op zoek naar

Kennisdeling in lerende netwerken

Cover Page. The handle holds various files of this Leiden University dissertation

4,4. Boekverslag door een scholier 1284 woorden 17 juni keer beoordeeld. Eerste uitgave 1975 Nederlands. Bespreking van gedichtenbundel

ONDERWIJSVORMEN EN SCHOOLSE PRESTATIES. Dockx J., De Fraine B. & Vandecandelaere M.

Functionaliteitseconomie: Hefboom voor duurzame ontwikkeling in België? Samenvatting. Federale Raad voor Duurzame Ontwikkeling

Meldpunt Vossenschade: een overzicht voor 2012

Profilering derde graad

Vlaamse overheid Departement Economie, Wetenschap en Innovatie Afdeling Strategie en Coördinatie Koning Albert II-laan 35, bus Brussel

Stappen deelcijfer weging 10,0 10,0 10,0 10,0 10,0 10,0 10,0 10,0 totaalcijfer 10,0 Spelregels:

TH-MI Motivation Indicator. Brown Jeremy Manager Brainwave Ltd.

2 Een beschouwend artikel (maximaal 5000 woorden inclusief literatuurlijst)

Seizoensverslag voorjaar 2017 Gepubliceerd juli 2017

KLASSIEKE CULTURELE VORMING VWO VAKINFORMATIE STAATSEXAMEN 2016 V15.7.0

Toetsende Statistiek Week 5. De F-toets & Onderscheidend Vermogen

Case Medewerkerstevredenheiden betrokkenheidscan

EFFECTEN VAN ONDERWIJSVORMEN OP SCHOOLSE BETROKKENHEID. Dockx J, De Fraine B. & Van den Branden N.

FOCUS : TOEKENNINGSDUUR

9 Gebruik van wetenschappelijke kennis

360 graden feedback formulieren

Overzicht uitgeschreven huisartsen NIVEL Lud van der Velden Daniël van Hassel Ronald Batenburg

x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x

Jongeren en Gezondheid 2014 : Socio-demografische gegevens

Afsluitende les. Leerlingenhandleiding. Proefdieren, overbodig of hoognodig?

Migrerende euromunten

Recognition and Detection of Objects Using Visual and Textual Cues S. Karaoğlu

5. Discussie. 5.1 Informatieve waarde van de basisgegevens

Evaluatierapport Module 5 Dynamische Systemen

LEI Plagiaat ongegrond

ArRangeer: slimmer beslissen in onderhoudsvraagstukken

Tellen met Taal. Het meten van variatie in zinsbouw in Nederlandse dialecten. Marco René Spruit

Eisen en lay-out van het PWS

BA 1 NTC Blok 1 Blok 2 Blok 3 Blok 4 vaktitel vakcode 7 collegewekeweken. tentamen. schriftelijk. schriftelijk. tentamen. tentamen.

How to present online information to older cancer patients N. Bol

Seizoensverslag najaar 2017 Gepubliceerd december 2017

Op het einde van de negentiende eeuw werd het Nederlands een van de officiële talen in België. Maar welk Nederlands? Er waren twee kampen.

Cover Page. The handle holds various files of this Leiden University dissertation.

Taak Lyrici. Beschrijving. De lyrici. Concreet

Structurele ondernemingsstatistieken

Profielen van mediageletterdheid. Een exploratie van de digitale vaardigheden van burgers SEIZOEN in Vlaanderen. Steve Paulussen IBBT-MICT, UGent

Inleiding. Johan Van der Heyden

FinQ Monitor van financieel bewustzijn en financiële vaardigheden van Nederlanders. Auteurs Jorn Lingsma Lisa Jager

Rapportgegevens Marketing en sales potentieel test

Van Klacht Naar Kracht deelnemersresultaten april

DE VLAAMSE SOCIALE ECONOMIE IN 2016

pagina 2 van 5 Laten we maar weer eens een willekeurige groep voorwerpen nemen. Er bestaan bijvoorbeeld -- om maar iets te noemen -- allerlei verschil

Transcriptie:

Het gewicht van de auteur De balans van een stylometrisch onderzoek naar de rijmwoorden en auteurs van de Middelnederlandse epiek Mike Kestemont (FWO-Vlaanderen/Universiteit Antwerpen) In mijn onderzoek zoek ik aansluiting bij studies naar auteursherkenning in de Digital humanities (stylometrie). In dit kwantitatieve paradigma zijn interessante inzichten verworven omtrent de mogelijkheden tot het beschrijven van het stijleigen van auteurs. Steeds vaker experimenteren ook (medio)neerlandici met de toepassing van stylometrische methodes. In deze paper wil ik tussentijds de balans opmaken van mijn onderzoek de afgelopen twee jaar. Na de presentatie van enkele relevante casussen (waarbij ik een al te technisch jargon zoveel mogelijk vermijd), sluit ik deze paper bewust niet af met een conclusie maar met een reeks uitdagende stellingen. 1 La mort de l auteur In de studie van Middelnederlandse letterkunde kampen onderzoekers niet zelden met een gebrek aan feitelijke gegevens over teksten. Waar en wanneer een tekst geschreven werd, door wie en voor wie, zijn vragen waarop men vaak het antwoord moet schuldig blijven. Deze toestand komt vooral voort uit de schamele overlevering: weinig teksten zijn bewaard gebleven en als zij al gespaard werden, moet men zich meestal tevreden stellen met fragmentarische tekstgetuigen, die bovendien vaak kopieën (in het kwadraat ) blijken van een veel latere datum. Pro- en epilogen met informatie over de ontstaanscontext van het literaire werk zijn dun gezaaid. Auteurschap is wellicht datgene waarover men nog het slechtst geïnformeerd is: slechts een klein aantal auteursnamen is overgeleverd en nog een kleiner aantal auteursnamen valt met concrete, al dan niet overgeleverde werken te verbinden. Het verbaast daarom niet hoe vaak het auteurschap van Middelnederlandse werken onderwerp is geweest van wetenschappelijk onderzoek, maar ook van fascinatie en speculatie. Recent lijkt deze aandacht voor de auteur zelfs toe te nemen: volgens vele onderzoekers staat de gebrekkige kennis omtrent auteurs een beter literair-historisch inzicht in Middelnederlandse literatuur in de weg. Een methodologie voor het herkennen van Middelnederlandse auteurs is daarom hoognodig. Onderzoekers hebben vaak sterke intuïties over het auteurschap van teksten maar kunnen die vermoedens zelden sluitend staven. Vooral het literair taalgebruik of de stijl van auteurs is meer dan eens aangeduid als een betrouwbare indicator van auteurschap (Van Dalen- Oskam 2007). Onderzoekers hebben inhoudelijk onderzoek naar tekstuele verwantschap dan ook vaak aangevuld met formeel, stilistisch onderzoek. Steeds vaker worden ook computationele middelen ingeschakeld om grotere corpora te doorzoeken en hypotheses een kwantitatieve basis te verlenen. 2 Met handen en voeten Binnen de Digital Humanities verschijnt een ware stortvloed aan publicaties over de stilistische bestudering van auteurschap (Stamatatos 2009). In verschillende deelgebieden van de computationele filologie (information retrieval, stylometry, machine learning,...) wordt auteursherkenning opgevat als een vorm van tekstclassificatie: een stuk tekst moet een klasse-label krijgen dat uitdrukt wie de auteur ervan is. Tekstclassificatie kent momenteel veel toepassingen, ook buiten de stijlstudie. Het bekendst is wellicht spam filtering waarbij een computer aan een emailbericht een label toekent (spam of geen spam). In welke klasse een nieuwe tekst moet worden ondergebracht, wordt beslist door een classifier, een software-toepassing uit de Artificiële Intelligentie die erop getraind is om labels aan dergelijke teksten toe te kennen. In het voorbeeld van de spam filtering kan een classifier leren dat een buitensporige hoeveelheid schuttingtaal of het voorkomen van het woord lottery dwingend vragen om het label spam. In tekstclassificatie bijvoorbeeld het automatisch onderbrengen van nieuwsitems in de categorie sport of economie wordt vaak gewerkt met een soort tabel waarin voor elk voorbeeld wordt aangegeven of een bepaald woord in de te labelen tekst voorkomt. 1

Ook in auteursonderzoek wordt vaak tekstclassificatie toegepast (Luyckx & Daelemans 2011). Men gaat bijvoorbeeld na of op basis van het oeuvre van een gekend auteur, voorspeld kan worden of andere anonieme teksten ook aan deze auteur kunnen worden toegeschreven. In het onderzoek is gebleken dat één categorie kenmerken het bijzonder goed doet in het onderscheiden van auteurs: de kleine groep meest voorkomende elementen in een taal. Het gaat om functiewoorden als lidwoorden, voornaamwoorden, voorzetsels,... Auteurs verschillen niet zozeer in welke hoogfrequente woorden zij gebruiken, want iedereen gebruikt lidwoorden. Auteurs blijken wél te verschillen wat betreft de specifieke frequenties van deze woorden, want sommige auteurs gebruiken bepaalde voorzetsels meer dan andere. Hoogfrequente functiewoorden zijn vooral methodologisch interessant. Zij komen voor in alle teksten en bieden door hun goede spreiding een statistisch houvast. Laagfrequente woorden zoals hapax legomena of woorden die eigen zijn aan één auteur hebben dat voordeel niet. Het voornaamste voordeel is misschien wel dat functiewoorden grotendeels inhoudsonafhankelijk zijn: het onderwerp van een tekst beïnvloedt in wezen niet de frequentie van, bijvoorbeeld, lidwoorden. Dat is zeker interessant, aangezien functiewoorden dan ook gebruikt kunnen worden voor auteursherkenning over de grenzen van genres heen. In het algemeen verklaart men de meerwaarde van functiewoorden door het feit dat ze niet bewust gecontroleerd kunnen worden door een auteur. Wie een auteur wil imiteren, zal inhoudsgerelateerde woordenschat of laagfrequente woordkeuzes makkelijk kunnen nabootsen. Moeilijker is het om de frequentie van bijvoorbeeld een lidwoord te imiteren. De meerwaarde van functiewoorden is te illustreren aan de hand van een parallel in de schilderkunst, meer bepaald in de theorie van Giovanni Morelli (Wollheim 1972). Ook veel schilderijen zijn anoniem overgeleverd, wat heeft geleid tot bloeiend attributie-onderzoek in de kunstgeschiedenis. In het geval van de Italiaanse schilders uit het Quattrocento bijvoorbeeld was het volgens Morelli duidelijk dat de attributie van een werk aan een bepaalde meester niet kon gebeuren aan de hand van de inhoud van een schilderij. Of Christus met vier dan wel drie kruisnagels werd afgebeeld is goed zichtbaar, makkelijk te imiteren en onderhevig aan processen van beïnvloeding en schoolvorming. Volgens hem was het beter uit te wijken naar minder opvallende aspecten. Morelli claimde dat de hand van de meester het meest betrouwbaar werd herkend in hoogfrequente maar op het eerste gezicht weinig bijzondere picturale elementen als handen, oren en voeten. Zowat ieder kruisigingstafereel verbeeldt immers mensen met handen en voeten, zodat die een betrouwbare basis voor een vergelijking vormen. Een ander voordeel is dat het voorkomen van handen en voeten niet gebonden is aan de inhoud van een schilderij want zowel een kruisigingstafereel als een annunciatie bevatten deze elementen, wat ook in deze kunsttak de vergelijking over genregrenzen heen mogelijk maakt. 3 Robuuste rijmen Kunnen we deze inzichten toepassen op Middelnederlandse literatuur? Een groot probleem daarbij is de overlevering. Middeleeuwse teksten zijn ons meestal slechts uit latere afschriften bekend. Door de afwezigheid van een standaardtaal werden de spelling en het dialect van teksten bij iedere kopie grondig aangepast. Deze vormen van tekstcorruptie blijven soms onschuldig maar vaak blijkt de tekst ook op grotere schaal aangetast te worden. Van veel laat-overgeleverde teksten kan daarom betwijfeld worden of zij nog de stijl weerspiegelen van de oorspronkelijke auteur, nadat zoveel opeenvolgende kopiisten in de tekst een hand hebben gehad. Deze schijnbaar onschuldige ingrepen hebben zwaarwichtige gevolgen voor het auteursonderzoek. Zoals recent onderzoek (Van Dalen-Oskam 2007) aantoonde, blijkt dat middeleeuwse kopiisten een invloed hebben gehad op de hogere frequentiestrata van een tekst. Klaarblijkelijk genoten zij de vrijheid om net op de functiewoorden van een tekst een eigen stempel te drukken. Een klein bijwoordje bijvoorbeeld kan inderdaad makkelijk in een tekst worden toegevoegd of verwijderd. De vraag is dan welke woorden in de Middelnederlandse tekst nog in aanmerking komen voor auteursattributie. Eén categorie woorden is in het verleden aangeduid als betrouwbaar voor het herkennen van Middelnederlandse auteurs: het rijmwoord. Zeker wat de Middelnederlandse epiek betreft die voor het leeuwendeel paarsgewijs berijmd is zou het rijmwoord een merkwaardig taai element 2

zijn, erg robuust ten aanzien van het overleveringsproces. Bekend is de visie (onder meer aangehangen door Evert van den Berg) dat wie kijkt naar de rijmen van een epische tekst, de oorspronkelijke dichter recht in het aangezicht kijkt. De eindeloze ketting van rijmparen ligt structureel aan de basis van de berijmde Middelnederlandse tekst. Een kopiist kon wel makkelijk aan de woorden morrelen binnen in het vers, maar zat wat het rijmwoord betreft redelijk vast aan de grondtekst. Immers, als hij een rijm wou aanpassen, zou hij ook op omslachtige wijze een deel van de grondtekst moeten herwerken. Rijmwoorden lijken op die manier eilandjes van stabiliteit in de overlevering van Middelnederlandse teksten. Zoals hierboven toegelicht, is het nuttig om in auteursonderscheiding te werken met hoogfrequente items. Deze idee wordt hier toegepast op rijmvocabulaire (Kestemont 2011). Hoogfrequente rijmwoorden gedragen zich namelijk op dezelfde manier als functiewoorden: er blijkt enerzijds een klein aantal rijmwoorden te zijn dat heel vaak voorkomt en anderzijds een groot aantal rijmwoorden dat heel zelden voorkomt. Bijgevolg lijkt er ook bij rijmwoorden een kleine kruin van hoogfrequente rijmwoorden of functionele rijmwoorden te bestaan. Deze zijn zo frequent dat zij niet inhoudsgebonden kunnen zijn want zij treden te vaak en in te diverse contexten op. Het hoogfrequente rijmwoord is in Middelnederlandse teksten zelden semantisch geladen. Rijmwoorden dragen doorgaans weinig bij tot de voortgang van een verhaal, aangezien hun nut meestal beperkt blijft tot het tegemoet komen aan de vormelijke eis van het rijm. In extreme gevallen heeft men het zelfs over stoplappen. Ook in dit opzicht gaat het hier dus om stoplappen als functiewoorden, aangezien hun nut vooral vormelijk is. 4 De meesters van Damme Ik ben in eerste instantie nagegaan (Kestemont 2011) of het met een eenvoudige classifier mogelijk is twee Middelnederlandse auteurs te onderscheiden op basis van hun rijmvocabulaire. De casus was het aandeel van Filip Utenbroeke en Jacob van Maerlant in de Spiegel historiael (respectievelijk de Tweede en Derde Partie). De Spiegel historiael is een kolossale bewerking in Middelnederlandse verzen van de Latijnse wereldgeschiedenis Speculum historiale van Vincentius van Beauvais. Het initiatief voor dit project werd ca. 1280 genomen door Jacob van Maerlant, die vier grote tekstblokken of Partieën voorzag. Deze Partieën werden onderverdeeld in boeken, die op hun beurt weer bestonden uit kleine hoofdstukjes (kapittels). Maerlant was wel de architect maar heeft het project niet alleen uitgevoerd. Hij schreef de Eerste Partie (van de Schepping tot Nero) maar sloeg de tweede over. De Tweede Partie werd geschreven door Filip Utenbroeke, waarin de geschiedenis werd verhaald tot het jaar 381. Aangezien Maerlant wel de Derde Partie schreef (de geschiedenis tot net voor Karel de Grote), wist hij dus dat Utenbroeke de tweede voor zijn rekening zou nemen. De relatie tussen Maerlant en Utenbroeke is intrigerend (Van Oostrom 1996). Beide West- Vlamingen zouden in het laatste kwart van de dertiende eeuw professioneel actief zijn geweest in Damme. Maerlant was er mogelijk schepenklerk en werd misschien in die functie opgevolgd door Filip. Algemeen wordt aangenomen dat Maerlant, die toen reeds naam en faam moet hebben gehad, de Tweede Partie als het ware uitbesteedde aan Filip. Het lijkt erop dat Utenbroeke als een soort stagiair-assistent in de leer ging in het atelier van meester Maerlant. Een dergelijk samenwerkingsverband kennen we uit de schilderkunst en ook van Vincentius weten we dat die hulp kreeg van een gelijkaardig type loop- en leerjongens. De exacte relatie tussen beide dichters is nog onduidelijk maar de verschillende verwijzingen in Maerlants Derde Partie naar Utenbroekes aandeel doen vermoeden dat het duo nauw heeft samengewerkt. Maerlant en Utenbroeke vormen een uitstekende testcasus voor auteursonderscheiding. In het onderzoek wordt vaak benadrukt dat het in tekstvergelijking voor auteursherkenning belangrijk is alle factoren, buiten het auteurschap, zo constant mogelijk te houden. De vergeleken teksten verschillen best zo weinig mogelijk in genre, inhoud en dialect en de auteurs hebben bij voorkeur ook hetzelfde opleidingsniveau en dezelfde sociale achtergrond. Op die manier wordt verzekerd dat eventuele verschillen tussen teksten slechts teruggaan op de factor auteur en niet op andere variabelen. De casus Maerlant-Utenbroeke benadert in veel opzichten dit ideaal want van weinig Middelnederlandse dichters kan aangetoond worden dat zij zo dicht bij elkaar stonden. Als het 3

mogelijk blijkt om op basis van de rijmwoorden de Tweede en Derde Partie te onderscheiden, gaat dit onderscheid hoofdzakelijk terug op het auteursverschil aangezien andere variabelen hieronder op erg natuurlijke wijze zo goed als constant worden gehouden. Figuur 1: Voorstelling van experimenten waarbij een classifier een onderscheid trachtte te maken tussen tekstdelen van Maerlant en Utenbroeke. Er werd gewerkt met een variabele grootte van de tekstdelen (x-as, uitgedrukt in aantal hoofdstukjes per tekstdeel) en een variabel aantal hoogfrequente rijmwoorden (+, o, x). De accuraatheid van de auteursherkenning wordt op de y-as weergegeven als het gemiddeld aantal correct toegeschreven tekstdelen (in %). Experimenten hebben aangetoond dat een eenvoudige classifier inderdaad succesvol een onderscheid kan maken tussen de teksten van beide auteurs op basis van hun hoogfrequente rijmwoordenschat (Figuur 1). Wel gelden er belangrijke (en ook wel logische) restricties: tekstdelen moeten groot genoeg zijn vooraleer een classifier er een betrouwbaar auteursprofiel uit kan distilleren. De classificatie blijkt pas vanaf een twintigtal hoofdstukjes (ca. 1800 verzen) nauwkeurig (95%-100%). Uit deze experimenten blijkt ook dat de accuraatheid van de auteursherkenning in de experimenten hoger is naarmate meer hoogfrequente rijmwoorden in het onderzoek betrokken worden. De slotbalans van deze experimenten was niettemin positief: de Damse meesters van de Spiegel historiael werkten erg nauw samen maar blijken op basis van hun rijmwoordenschat toch duidelijk te onderscheiden als er voldoende tekst per auteur beschikbaar is. 5 Velthem en de Guldensporenslag Na deze experimenten drong zich de vraag op in hoe goed classifiers zouden presteren met meer dan twee auteurs. Hiervoor was het nodig een derde auteur te betrekken en gezien de wordingsgeschiedenis van de Spiegel historiael, was er één evidente kandidaat: Lodewijk van Velthem. De Spiegel historiael is aanvankelijk namelijk niet afgeraakt. Maerlant schreef in het begin van de vierde partie dat hij zijn werkzaamheden heeft moeten staken omwille van gezondsheidsredenen. Omstreeks 1315 werd de draad opgepikt door Lodewijk van Velthem een groot bewonderaar van 4

Maerlant die de vierde partie voltooide en zelfs nog een vijfde toevoegde, waarin hij in acht boeken het geschiedverhaal tot zijn eigen tijd zou doortrekken. Het vierde boek van de vijfde partie werd zowat integraal gevuld door het lijvige relaas van de toen nog relatief recente Guldensporenslag (1302). Velthem stond met zijn vijfde partie voor een moeilijke taak want voor de jongste geschiedenis had hij in tegenstelling tot zijn voorgangers geen anderstalige bronnen voorhanden. Hij diende dan ook zelf zijn informatie uit diverse bronnen te verzamelen, wat zeker in die tijd een lastige opgave moet zijn geweest. Velthems Vijfde Partie werd vergeleken met de reeds onderzochte Tweede en Derde Partie. De experimenten werden onder exact dezelfde omstandigheden herhaald, maar nu niet met twee maar met drie auteurs. De eerste experimenten (Kestemont 2010) toonden aan de inclusie van Velthem niet problematisch was: Velthem bleek in zijn rijmwoordenschat erg goed te onderscheiden van de andere auteurs en de bijkomende auteur leek de auteursherkenning eerder te verbeteren dan te hinderen. Alleen, dat gold niet voor het vierde boek van de Vijfde Partie. Dit vierde boek bleek in de experimenten problematisch, aangezien het classificatiealgoritme noch dit boek in zijn geheel, noch onderdelen ervan wilde toeschrijven aan Velthem. Consequent gaf het de voorkeur aan Maerlant of Utenbroeke. Dat kleinere, minder representatieve tekstdelen niet correct werden toegeschreven, hoefde op zich niet te verbazen. Dat een heel boek zich weerbarstig toonde, baarde meer verwondering, want voor alle andere boeken bleek het erg makkelijk de correcte auteur te achterhalen. Waarom gedroeg Velthems vierde boek in de Vijfde Partie, dat grotendeels samenvalt met het relaas van de Guldensporenslag, zich afwijkend? Is dat vierde boek eigenlijk wel geschreven door Lodewijk van Velthem? Velthem was alleszins niet vies van copy-pasten. Van de vijfde partie weten we bijvoorbeeld dat hij delen niet zelf heeft geschreven maar stilzwijgend heeft ontleend aan een andere bron. Jan van Heelu dichtte omstreeks 1290 een rijmkroniek over de Slag bij Woeringen (1288) in opdracht van hertog Jan I van Brabant. Die tekst bood het gedetailleerde relaas van de slag, waarvan de hofchroniqueur zelf ooggetuige was. Velthem heeft zonder expliciete bronvermelding flinke uittreksels van die tekst gebruikt, al laat hij zich aan het eind van zijn kroniek wel ontvallen dat hij ooggetuigeverslagen heeft geconsulteerd, waartoe hij mogelijk dat van Heelu rekende. De interpolaties zijn duidelijk in Velthems tekst aan te wijzen omdat Heelu s kroniek ook via andere wegen is overgeleverd. Deze tekstregio s bieden waardevol vergelijkingsmateriaal: als Velthem hier op een andere auteur teruggaat, dan zou dat moeten blijken uit een afwijkende stijl. Indien hij ook in het vierde boek teruggaat op een andere auteur zouden we daar een gelijkaardige stilistische afwijking moeten vaststellen. Onderstaande afbeelding (Figuur 2) toont het resultaat van een experiment waarin we dit zijn nagegaan. Voor opeenvolgende stukjes uit de vijfde partie (horizontale as) hebben we een stylometrische waarde berekend (verticale as). Hoe lager deze waarde, hoe dichter het stukje qua rijmwoorden aansluit bij die van Velthem. Hoe hoger deze waarde, hoe verder het stukje van Velthems stijl is verwijderd en hoe meer het lijkt op die van een controle-auteur. Het gebruik van die controle-auteur (in deze grafiek Filip Utenbroeke) is belangrijk om inzicht te krijgen in hoe andere auteurs dan Velthem dichtten. De eerste twee verticale zones in de grafiek tonen waar Velthem op Heelu teruggaat: we zien dat de stylometrische waardes erg hoog zijn binnenin de grijze zones maar relatief laag daarbuiten. Daaruit leren we dat het algoritme goed de overgangen in auteurschap detecteert. De laatste grijze zone geeft het vierde boek aan: ook binnen deze zones zijn de Deltawaardes opvallend hoog en verwerpen de stijlmetingen klaarblijkelijk Velthems auteurschap voor dit boek. 5

Figuur 2 Het stilistische verschil in het vierde boek is natuurlijk niet sluitend als een auteursverschil te duiden. Evert van den Berg suggereerde bijvoorbeeld dat Velthem zijn stijl mogelijk extra had verfijnd voor dit onderwerp. Toch zijn de stilistische afwijkingen zo groot dat alternatieve verklaringen moeilijk houdbaar zijn. Het heeft er alles van dat Velthem een reeds bestaande tekst over de Guldensporenslag van een andere auteur handig in zijn eigen kroniek heeft ingebouwd. Dat zou alleszins veel verklaren, bijvoorbeeld de abnormaal grote lengte van het vierde boek ten opzichte van de andere. Bovendien is geweten dat Velthem de eerste 23.000 verzen van de vijfde partie in minder dan een jaar schreef, wat naar middeleeuwse maatstaven erg snel is. Ook inhoudelijke details voeden de twijfel aan Velthems auteurschap. Velthem was een groot liefhebber van Koning Arthur en de Rondetafelridders. De auteur van het vierde boek laat Arthurs naam daarentegen nooit vallen en verwijst enkel naar de epische stof rond Karel de Grote. Om al deze redenen zou het niet verbazen dat we ook met de Guldensporenslag voor een stilzwijgende ontlening van Velthem staan. De overgeleverde beschrijving is met andere woorden nog ouder dan we dachten. Als Velthems opmerking over ooggetuigeverslagen ook op de Guldensporenslag slaat, pleit dit trouwens voor de authenticiteit van het onderliggende verslag. De anonieme grondtekst was waarschijnlijk een parallel voor Heelu s dichtwerk: ook in het geval van de Guldensporenslag vinden we immers de partijdige beschrijving van een recente veldslag vanuit het standpunt van de overwinnaar met het oog op de gunstige beïnvloeding van de publieke opinie. In Frankrijk duiken na de slag trouwens verschillende teksten op waarin wordt gereageerd over de leugens die in Vlaamse teksten over de slag worden verteld. Hoewel die Vlaamse teksten tot op heden spoorloos waren, is er dus eentje waarschijnlijk via Velthems verzen bewaard gebleven. Vanuit een modern oogpunt dringt het woord plagiaat zich natuurlijk op maar het is erg de vraag of middeleeuwers hier ook zo naar keken. 6

6 Maerlants rijmen Het is interessant dat veel stylometrisch onderzoek uitgaat van de assumptie dat de teksten van iedere auteur gekenmerkt worden door een verzameling onvervreemdbare stijleigenaardigheden een styloom. Impliciet veronderstelt men zo dat de stilistische vingerafdruk van een auteur relatief constant blijft door de jaren heen en bovendien stabiel is als de auteur in andere tekstsoorten of literaire genres schrijft. Deze styloom-hypothese is fascinerend maar momenteel verre van bewezen. Zoals hierboven uitgelegd, zijn vooral hoogfrequente taalitems interessant voor auteursherkenning: het is vooral op deze woorden dat auteurs een te kwantificeren vingerafdruk nalaten. De vraag is dan of hun gebruik van dergelijke hoogfrequente woorden inderdaad zo stabiel is over de grenzen van tijd en genres heen. Om dit na te gaan, hebben we een statistisch onderzoek uitgevoerd (Kestemont, Daelemans & Sandra 2011) naar het hoogfrequente rijmvocabulaire van Jacob van Maerlant, die het grootste aantal overgeleverde Middelnederlandse verzen op zijn naam heeft staan. Een schematische voorstelling van de gebruikte teksten uit zijn oeuvre (chronologisch gerangschikt): Middelnederlandse titel Alexanders Geesten Historie van den Grale Historie van Troyen Heimelijkheid der Heimelijkheden Der naturen bloeme Rijmbijbel Sinte Franciscus leven Spiegel historiael (Derde Partie) Afkorting AG HvdG HvT HdH dnb RB SFl SpH_P3 Al deze teksten werden verdeeld in stukjes van een gelijke grootte (2156 rijmwoorden). In deze stukjes onderzochten we de 50 rijmwoorden die Maerlant het vaakst gebruikt heeft in zijn hele oeuvre. Per tekststuk werd de relatieve frequentie van elk van de 50 rijmwoorden berekend en deze frequentietellingen werden in een grote tabel bijgehouden. Vervolgens voerden we een correspondentie-analyse uit van deze data. De datapunten (teksten) telden oorspronkelijk 50 dimensies (i.e. rijmwoorden); men had 50 getallen nodig om ieder tekstsample voor stellen. Omdat dit erg moeilijk voorstelbaar is, probeert een correspondentie-analyse het benodigde aantal dimensies terug te dringen tot een veel kleiner aantal (2 of 3) nieuwe, samengestelde variabelen. Zo kunnen de verschillen en gelijkenissen tussen datapunten overzichtelijk gevisualiseerd worden in een laagdimensionaal assenstelstel. 7

Figuur 3 Figuur 3 toont duidelijk dat het resultaat van de correspondentie-analyse de interne structuur van Maerlants oeuvre weet te detecteren, hoewel de analyse beperkt bleef tot een set kenmerken die relatief stabiel zouden moeten zijn binnen het oeuvre van één auteur. We zien immers drie duidelijke clusters in de datapunten die samenhangen met de interne structuur van Maerlants oeuvre. Maerlants vroege ridderepische klitten bijvoorbeeld samen maar anderzijds vormen ook zijn ethische werken (uit midden van zijn carrière) een hechte cluster. Tot slot, zien we ook een duidelijke groepering van de historiografische werken die hij aan het einde van zijn leven schreef. Enkele (tegenstrijdige) stellingen - De letterkunde probeert zichzelf aan studenten te verkopen door geen statistiek e.d. in het curriculum op te nemen. Dat is een praktijk waarvan niemand uiteindelijk beter wordt. - Ieder onderzoek is in wezen kwantitatief. - Mijn onderzoek is niet interdisciplinair: het draagt buiten een (zoveelste) nieuwe toepassing amper bij tot mijn hulpwetenschappen. (Ik ga er mosterd halen maar breng er geen nieuwe 8

binnen.) - Mijn onderzoek behoort tot de filologie de taal- én letterkunde en is daarom per definitie interdisciplinair, als men zich baseert op de recente hervormingen binnen het FWO- Vlaanderen: de taalwetenschappen kregen een eigen panel terwijl de letterkunde bij de kunsten werd ondergebracht. - Een autonome benadering van historische literatuur (die het literair werk los van de ontstaanscontext beschouwt) strekt niet tot aanbeveling. - De letterkunde moet opgeheven worden als een aparte discipline: letterkundigen moeten toegeven dat zij slechts een verschijningsvorm van de linguïstiek zijn. - De historische letterkunde moet opgeheven worden als een aparte discipline: historisch letterkundigen moeten toegeven dat zij slechts een verschijningsvorm van de geschiedenis zijn. - De taal- en letterkunde zijn per definitie elkaars belangrijkste hulpwetenschap. - Wij moeten terug naar een eenheidsfilologie: taal- en letterkunde zijn beide slechts vertakkingen van dezelfde discipline. - De letterkunde is in wezen een verholen vorm van antropologie: het gaat ons niet om de teksten, maar om de mensen achter de teksten. Literatuur (zie ook www.mike-kestemont.org) K. Van Dalen-Oskam, Kwantificeren van stijl. In: TNTL 123 (2007), 37-54. F. Van Oostrom, Maerlants wereld. Amsterdam, 1996. E. Stamatatos, A survey of modern authorship attribution methods. In: Journal of the American Society for Information Science and Technology 60 (2009), 538-556. Kestemont, M., Velthem et al. A stylometric analysis of the rhyme words in the account of the Battle of the Golden Spurs in the fifth part of the Spiegel historiael, in: Queeste 17:1 (2010), 1-34. Kestemont, M. De meesters van de Spiegel. Auteursonderscheiding op basis van het frequente rijmwoord in het aandeel van Utenbroeke en Maerlant in de Spiegel historiael [TNTL (2011)]. Kestemont, M., Daelemans, W. & Sandra, D., Robust Rhymes? The Stability of Authorial Style in Medieval Narratives, [Journal of Quantitative Linguistics (2011)]. Luyckx, K. & Daelemans W. The effect of author set size and data size in authorship attribution, [Literary and Linguistic Computing (2011)]. R. Wollheim, On Art and the Mind: Essays and Lectures. Cambridge, 1972. 9