EEN COMPUTATIONELE GRAMMATICA CORPUS GESPROKEN NEDERLANDS

Transcriptie

1 EEN COMPUTATIONELE GRAMMATICA VOOR HET CORPUS GESPROKEN NEDERLANDS door Ard Sprenger Scriptie voor het doctoraal examen Alfa-informatica Scriptiebegeleider: Gosse Bouma

2 INHOUD 1. INLEIDING 3 2. CORPUSTAALKUNDE 5 3. VERRIJKTE CORPORA 8 Het Eindhoven Corpus 8 Het Parole Corpus 10 Het Corpus Gesproken Nederlands 12 Een vergelijking van de tagsets EEN CHUNKER 17 Chunking 17 Enkele ontleedtechnieken 18 De chunker-implementatie in Hdrug 22 De evaluatie van de chunker EEN PARSER 35 De 'OVIS-parser' 35 De CGN-parser 40 Een parser met dependentielabels 48 De evaluatie van de parser TOT SLOT BIBLIOGRAFIE 61 BIJLAGE 1: Tagcombinaties van het CGN 63 BIJLAGE 2: Prolog-bestanden voor de chunker 66 BIJLAGE 3: Een Perl-script voor de conversie van CGN naar Hdrug 73 BIJLAGE 4a: Testzinnen uit het CGN 74 BIJLAGE 4b: De score van de chunker 78 BIJLAGE 5: Prolog-bestanden voor de parser 80 BIJLAGE 6: De score van de parser 88 2

3 1. INLEIDING In deze scriptie staat de ontwikkeling van een computationele grammatica centraal. Een kenmerk van dergelijke grammatica's is dat ze het een computerprogramma mogelijk maken om te bepalen welke structuren er aan een bepaalde invoer kunnen worden toegekend. Dit soort computerprogramma's worden ook wel 'parsers' genoemd. De meeste computationele grammatica's bestaan uit twee delen: uit een woordenboek en uit een aantal grammaticaregels. Van elk woord in het woordenboek is ook een hoeveelheid taalkundige informatie vastgelegd. Deze informatie is nodig om te bepalen of een grammaticaregel al dan niet kan worden toegepast. In het ideale geval zijn alle woorden die de grammatica als invoer te verwerken krijgt, ook aanwezig in het woordenboek. Een probleem van dit soort grammatica's is dat ze meestal niet zomaar op willekeurige teksten kunnen worden toegepast. Zo komt het vaak voor dat er bepaalde zinsstructuren van de invoer niet kunnen worden geanalyseerd, omdat de grammatica niet genoeg regels bevat. Bestaat een grammatica echter uit ontzettend veel regels, dan ontstaat het probleem dat er te veel ambiguïteiten worden geïntroduceerd en dat de parser te traag wordt. Andere problemen ontstaan er wanneer de invoer woorden bevat die niet in het woordenboek voorkomen, en wanneer de grammatica niet robuust is (de parser kan dan geen belangrijke zinsdelen vinden als de zin niet als geheel geparsed kan worden). Deze laatste twee aspecten van dit probleem zullen in deze scriptie nader worden onderzocht aan de hand van de volgende onderzoeksvragen: 1. In hoeverre is het mogelijk om met een regelgebaseerde grammatica robuust te parsen? 2. Is het nuttig om een grammatica te implementeren die gebruik maakt van 'getagde invoer'? (hierbij is de taalkundige informatie van de afzonderlijke woorden al bij de invoer aanwezig) Het antwoord op de eerste onderzoeksvraag zal ik proberen te vinden door een grammatica te ontwikkelen die alleen bepaalde zinsdelen ('chunks') analyseert, in plaats van hele zinnen. Er zal hierbij gebruik worden gemaakt van getagde invoer, meer bepaald van het geannoteerde taalmateriaal van het Corpus Gesproken Nederlands (CGN). Wat betreft de tweede onderzoeksvraag: het is te verwachten dat er op deze manier geen problemen meer zullen ontstaan met onbekende woorden, simpelweg omdat er geen gebruik zal worden gemaakt van een woordenboek (de invoer bevat immers al de taalkundige informatie). Een bijkomend voordeel is dat ambigue woorden (zoals bijvoorbeeld het woord vlieg) in de woordtags al zijn gedisambigueerd. In dit geval is het dus meteen al duidelijk of gaat om een werkwoord of om een zelfstandig naamwoord. De scriptie is als volgt opgebouwd: in het volgende hoofdstuk wordt er een algemene inleiding geven van het soort taalkunde dat gebruik maakt van een grote hoeveelheid teksten (corpustaalkunde). Hierbij zal het begrip 'corpustaalkunde' verder worden uitgediept, zal de historische ontwikkeling ervan worden behandeld en zullen er enkele toepassingen van corpustaalkunde aan bod komen. Ook wordt er een klein overzichtje gegeven van enkele bekende corpora. In het derde hoofdstuk worden er een drietal Nederlandse corpora wat grondiger met elkaar vergeleken. Het betreft hier het Eindhoven corpus, het Parole corpus en het Corpus Gespro- 3

4 ken Nederlands. Deze corpora hebben gemeenschappelijk dat ze alledrie voorzien zijn van woordsoortinformate. Daarom zal de aandacht hierbij vooral gericht zijn op de verschillen die er bestaan tussen de tagsets van de drie corpora. Om een antwoord te vinden op de eerste onderzoeksvraag, zal er in hoofdstuk vier een chunker gemaakt worden. Het is hier de bedoeling dat deze chunker een analyse geeft van de belangrijkste zinsdelen waaruit de invoer bestaat. Naast de chunkergrammatica, zal er in dit hoofdstuk ook aandacht besteed worden aan enkele onderliggende ontleedstrategieën die bij het parsen van zinnen kunnen worden gebruikt. In hoofdstuk vijf wordt er geprobeerd een algemene grammatica van het Nederlands te schrijven op basis van het getagde taalmateriaal van het CGN. Hierbij wordt er dus onderzocht in hoeverre de tweede onderzoeksvraag positief kan worden beantwoord. Ook zal er in dit hoofdstuk een vergelijking worden gemaakt met een grammatica die gemaakt is voor een wat beperkter taalaanbod, namelijk een grammatica voor het 'Openbaar Vervoer Informatie Systeem' (OVIS). Het zal blijken dat veel technieken die gebruikt worden door de OVISgrammatica, ook gebruikt kunnen worden door de CGN-grammatica. Tot slot van dit hoofdstuk zal er een poging gedaan worden om aan de boomstructuren die door de parser geproduceerd worden, zogenaamde 'dependentielabels' toe te voegen. Hierdoor komen de boomstructuren wat meer overeen met de boomstructuren die binnen het CGN aanwezig zijn. In het laatste hoofdstuk zal er een korte evaluatie van mijn scriptie worden gegeven. 4

5 2. CORPUSTAALKUNDE Zoals uit het vorige hoofdstuk valt af te leiden, is het een van mijn doelstellingen om een programma te schrijven dat syntactische structuren automatisch kan genereren uit een verzameling geannoteerde teksten. De uitvoer van het programma (de zinsstructuren dus) kan worden gebruikt voor taalkundig onderzoek. Deze vorm van taalkunde wordt ook wel corpuslinguïstiek of corpustaalkunde genoemd. In dit hoofdstuk zal ik proberen uit te leggen wat corpustaalkunde precies inhoudt, hoe het zich in de loop der tijd heeft ontwikkeld en wat voor toepassingen het kent. Ik zal het betoog hier en daar illustreren met enkele voorbeelden uit de praktijk. In de driedelige Van Dale wordt de definitie van corpuslinguïstiek geformuleerd als: 'taalkundig onderzoek op basis van grote tekstbestanden'. Het is dus niet zozeer een beschrijvende en verklarende tak van de taalkunde zoals syntaxis, semantiek en fonologie, maar meer een wijze van wetenschapsbeoefening, een methodologie dus. Deze methodologie kan op bijna alle takken van linguïstiek worden losgelaten. Veel taalkundige tradities zijn dan ook voortgekomen uit de bestudering van corpora. De bestudering van veel dode talen bijvoorbeeld (Latijn, Oudgrieks, Sanskriet, etc.) is mogelijk geworden doordat er allerlei teksten in deze talen bewaard zijn gebleven. Op basis van deze teksten konden er grammatica's en woordenboeken van deze talen worden gereconstrueerd. Ook de diachrone en de historische taalkunde leunen zwaar op verzamelingen van bewaard gebleven historische teksten, in de meeste gevallen zijn deze teksten zelfs de enige bron van informatie. Hoewel de term corpustaalkunde vrij modern aan doet, kent het toch een vrij lange geschiedenis. Al in de achttiende eeuw leverde Balthasar Huydecoper op grond van gedegen corpusonderzoek kritiek op het taalgebruik van Vondel. Overigens was niet alleen zijn kennis van het zeventiende eeuws indrukwekkend te noemen; ook van het Middelnederlands was hij goed op de hoogte. Al deze kennis vergaarde hij door veel teksten uit die tijdvakken te lezen, en de informatie die daaruit viel af te leiden te documenteren met behulp van kaartenbakken. Huydecoper kon nog geen beroep doen op het Middelnederlandsch Woordenboek (MNW) of op het Woordenboek der Nederlandsche Taal (WNT), met het samenstellen van deze woordenboeken is men pas aan het eind van de negentiende eeuw begonnen. Het MNW bestaat uit elf delen, die zijn verschenen in de periode tussen 1885 en Aanvankelijk werd het werk gedaan door twee personen: Verwijs en Verdam, maar al bij de letter B overleed Verwijs, zodat Verdam er voor de rest van zijn leven alleen voor stond. Toen hij in 1919 stierf, was hij gekomen tot het woord wedergeven. Stoet heeft het laatste stuk voltooid. Het is dus een gigantische klus geweest, waarbij voor de vorming van de woordenschat, allerlei bestaande tekstedities, oude woordenboeken en onuitgegeven handschriften geraadpleegd werden. Corpustaalkunde van het eerste uur dus. Een nog veel omvangrijker project is het WNT geweest. Het plan voor dit woordenboek dateert al uit 1849, en een tijdje daarna (1852) werd de redactie benoemd die bestond uit De Vries en Te Winkel. Vanaf dat moment kon er begonnen worden met het verzamelen van de bouwstoffen. Het was de bedoeling om al het Nederlands wat ooit gebezigd werd in dit 5

6 woordenboek op te nemen. In de inleiding bij het eerste deel formuleerde de Vries dit als volgt: Niets wat in eenig dorp of gehucht getuigenis geeft van den onuitputtelijken rijkdom onzer moedertaal, mag ongebruikt blijven; alles wat ooit of ergens Nederlandsch was, moet daar verzameld, gerangschikt en tot een volkomen geheel bearbeid worden. De Vries, 1882 In het WNT is elk Nederlands woord vanaf 1500 opgenomen, aangevuld met informatie over eventuele betekenisveranderingen die in de loop der tijd hebben plaatsgevonden, de etymologie van het woord, de periode waarin het woord is ontstaan, enz. Blijkbaar had men de hoeveelheid werk dat dit met zich mee zou brengen, zwaar onderschat. De Vries was bij de letter B toen hij in 1892 stierf, en het werk werd door vele generaties taalkundigen voortgezet. Toen na verloop van tijd duidelijk werd dat de woordenschat sneller groeide dan de WNT-samenstellers aankonden, besloot men om het jaar 1921 te nemen als einddatum voor de materiaalverzameling. Toch zou het nog tot 1998 duren voordat het grootste woordenboek ter wereld (veertig lijvige delen, met meer dan pagina's) was voltooid. In de twintigste eeuw kwam het corpusonderzoek pas echt goed op gang. Zo werden er in 1940 door Fries en Traver methoden ontwikkeld voor het leren van een vreemde taal, op basis van frequentiewoordenlijsten. Maar ook op het gebied van taalverwerving, comparatieve linguïstiek, syntaxis en semantiek werd steeds vaker de methodologie van de corpustaalkunde gebruikt. De toenemende populariteit van corpustaalkunde was niet in de laatste plaats te danken aan de opkomst van de computer. Met behulp van dit apparaat konden grotere hoeveelheden tekst vele malen sneller en nauwkeuriger worden bewerkt dan voorheen. Het sorteren van data, het berekenen van woordfrequenties en het zoeken naar woorden of woordgroepen bleek voor een computer een peulenschilletje te zijn. Toch raakte vanaf het eind van de jaren vijftig tot aan de jaren zeventig de corpuslinguïstiek bij veel taalkundigen in onmin. De directe aanleiding daarvoor was de publicatie van Chomsky's boek Syntactic Structures in Dit boek ontketende een ware revolutie binnen de taalkunde en markeerde het begin van de transformationeel-generatieve taalkunde. Een van de punten die naar voren kwam uit dit boek, was het idee dat taalkundigen niet zozeer geïnteresseerd dienden te zijn in taaluitingen, maar meer in het taalvermogen van mensen. Taaluitingen waren volgens Chomsky slechts vertroebelde spiegelingen van het taalvermogen, beïnvloedbaar door niet-taalkundige factoren zoals beperkingen van het menselijke geheugen of drankgebruik. Het doel van taalkundigen moest dus zijn om de taalcompetentie in modellen te vangen, en niet het feitelijke taalgebruik. En hoe je het wendt of keert, een corpus is niet meer dan een grote verzameling taaluitingen. Hoewel de generatieve taalkunde nog steeds veel aanhangers heeft (vooral in de theoretische taalkunde), betekende dit niet het einde van de corpuslinguïstiek. Na verloop van tijd begon men de voordelen van het onderzoek naar het feitelijk taalgedrag te herwaarderen. Het gebruik van de computer werd hierbij steeds algemener, zodat er in deze tijd veel nieuwe corpora ontstonden. Tegenwoordig worden corpora ook veel gebruikt in een relatief jonge tak van de taalkunde, namelijk in de computatutionele taalkunde. Bij deze vorm van taalkunde kunnen corpora gebruikt worden om bijvoorbeeld 'taggers' te trainen en te testen. Een tagger is een computerprogramma dat een bepaalde invoer kan voorzien van woordsoortinformatie. Een zin als ik 6

7 sla de hond kan door een tagger worden omgevormd tot ik(persoonlijk voornaamwoord) sla(werkwoord) de(lidwoord) hond(zelfstandig naamwoord). De taalkundige gedetailleerdheid kan per tagger verschillen. Om een tagger goed te laten functioneren, is het nodig dat deze eerst getraind wordt. Hierbij krijgt de tagger een flink aantal geannoteerde zinnen als invoer, zodat de tagger als het ware leert welk woord welke tag kan krijgen. Voor dit trainingsproces zijn corpora bijzonder nuttig. Binnen de computationele taalkunde kunnen corpora ook gebruikt worden voor bijvoorbeeld het automatisch vertalen van teksten, voor automatische spellingscorrectie en voor het automatisch desambigueren van woorden. Tot slot van dit hoofdstuk volgt een beknopt (en niet uitputtend) overzicht van de bekendste corpora 1. In het volgende hoofdstuk zal ik drie van deze corpora (het Eindhoven corpus, Het Parole corpus en het Corpus gesproken Nederlands) gaan behandelen. Naam Ontstaansperiode Grootte Taal Opmerkingen (in woorden) Gysselingcorpus ± 1,6 miljoen Middelnederlands van voor 1300 Literaire en ambtelijke teksten van voor 1300 Browncorpus ± 1 miljoen Amerikaans-Engels Een gedeelte ervan is verrijkt met woordsoortinformatie. Eindhovencorpus Nederlands Verrijkt met woordsoortinformatie Penn Treebank > 4,5 miljoen Amerikaans-Engels Verrijkt met woordsoortinformatie en met syntactische informatie. Helsinki-corpus ± 3,1 miljoen Amerikaans-Engels, Brits-Engels, Oud- Schots, Hiberno- Engels Bestaat uit twee delen. Deel 1: diachroon corpus met teksten van 850 tot Deel 2: dialectcorpus Parole corpus miljoen per taal Diverse Europese talen Een project dat als doel heeft om van een groot aantal Europese talen vergelijkbare, nationale corpora te ontwikkelen. Corpus Gesproken Nederlands miljoen Nederlands / Vlaams Verrijkt met fonetische, morfologische, lexicale en syntactische informatie Volkskrant op cdrom Vanaf 1995 Groeit jaarlijks Nederlands Volledige jaargangen van de Volkskrant op CD-rom. World Wide Web ± 60 miljard 2 Elke taal Wordt dagelijks aangevuld met een grote hoeveelheid woorden 1 Figuur 1 Voor meer informatie over deze corpora zijn de volgende webpagina s raadpleegbaar: Dit is uiteraard een zeer ruwe schatting die bovendien alleen van toepassing is op de groep van talen die het Latijnse letterschrift kennen. De meeste van deze 60 miljard woorden zijn Engelse woorden (namelijk 47,3 miljard), het Nederlands beslaat iets meer dan 0,6 miljard woorden. Voor de wijze waarop deze getallen verkregen zijn, verwijs ik u graag naar de volgende webpagina: 7

8 3. VERRIJKTE CORPORA In dit hoofdstuk staan drie Nederlandse corpora centraal: het Eindhoven corpus, het Parole corpus en het Corpus Gesproken Nederlands. Deze drie corpora hebben met elkaar gemeen dat alle woorden voorzien zijn van woordsoortinformatie; dit soort corpora worden dan ook wel verrijkte corpora genoemd. De gedetailleerdheid van deze woordsoortinformatie kan per corpus nogal verschillen. Dit zal vooral blijken aan het eind van dit hoofdstuk, waar de tagsets van de drie corpora met elkaar zullen worden vergeleken. Bij wijze van voorbeeld zal ik bij de behandeling van het Eindhoven corpus ingaan op de (globale) inrichting van de tagset. Omdat de tagsets van de overige twee corpora in hoofdlijnen niet veel verschillen van die van het Eindhoven corpus, zal ik de bespreking van deze tagsets achterwege laten. Wel is er voor het Corpus Gesproken Nederlands een bijlage toegevoegd (bijlage 1) waarin alle tags worden opgesomd die in dit corpus kunnen voorkomen. Dit is onder andere gedaan omdat deze tagset een belangrijke rol gaat spelen in de volgende hoofdstukken. Het Eindhoven corpus Het Eindhoven corpus, door sommigen ook wel 'corpus Uit den Boogaart' genoemd, is rond 1970 tot stand gekomen. Het bestaat uit zo'n woorden die afkomstig zijn uit diverse soorten teksten 3. De werkgroep die belast was met de opbouw van dit corpus, stelde zich ten doel dat de teksten in het corpus representatief moesten zijn voor het taalgebruik van die tijd (dit in navolging van het Brown corpus). Daarom werden de teksten onderverdeeld naar het soort taalgebruik dat erin werd gebezigd. Zo werden er teksten geselecteerd uit dagbladen, romans en novellen, opiniebladen, gezinsbladen en populair-wetenschappelijke boeken, waarbij de omvang van elke categorie ongeveer even groot was (± woorden dus). Ook vond men dat iedereen de mogelijkheid moest hebben om de teksten en tekstfragmenten van het corpus terug te vinden in de oorspronkelijke bronnen, dit om verder onderzoek op basis van dit corpus te optimaliseren. Nadat de teksten die deel zouden uitmaken van het corpus waren verzameld, was het zaak om aan elk afzonderlijk woord syntactische informatie toe te voegen. Per woord is er informatie te vinden over de syntactische hoofdcategorie, over de onderverdeling binnen deze hoofdcategorie in subcategorieën en over de buiging van het woord. In het Eindhoven corpus worden negen hoofdcategorieën onderscheiden: substantieven, adjectieven, werkwoorden, voornaamwoorden, bijwoorden, voor- en achterzetsels, voegwoorden, interjecties en een restgroep. Van deze syntactische groepen zal ik nu de onderverdeling gaan behandelen. De substantieven zijn onderverdeeld in vijf subklassen: gewone substantieven, eigennamen, adjectivisch gebruikte substantieven, interjecties en substantieven in zelfnoemfunctie. Onder adjectivisch gebruikte substantieven worden substantieven verstaan die eigenlijk als bijvoeglijk naamwoord worden gebruikt. Als voorbeeld worden de woorden aluminium en plastic 3 Eigenlijk bevat het corpus woorden; de woorden die verkregen zijn uit het gesproken taalmateriaal heb ik namelijk niet meegeteld, omdat de opbouw van dit subcorpus sterk afwijkt van de overige subcorpora. Uit den Boogaart (1975) merkt hier zelf over op dat "het subcorpus gesproken taal als een proefcorpus dient te worden opgevat". 8

9 genoemd, in de zinnen een aluminium pan en een plastic emmer 4. Bij interjectivische substantieven valt te denken aan woorden als hemel in lieve hemel, of grutten in grote grutten. Substantieven die hun oorspronkelijke betekenis zijn kwijtgeraakt dus 5. Een voorbeeld van een substantief in zelfnoemfunctie is het woord lepel in de zin Het woord 'lepel' bestaat uit vijf letters. De adjectieven zijn onderverdeeld in vier groepen: gewone, substantivisch gebruikte, adverbiaal gebruikte en interjectivisch gebruikte adjectieven (bijv. goed, ik ga maar eens!). Het woord lekker in de zin Hij ruikt lekker wordt dus gezien als een adjectief en niet, zoals in veel traditionele grammatica's, als bijwoord. Bij de werkwoorden is een scheiding aangebracht tussen de infinitieven en de deelwoorden enerzijds, en de finiete werkwoorden (persoonsvormen dus) anderzijds. Beide subklassen kennen een verdere onderverdeling in intransitieve, transitieve, reflexieve en hulp- en koppelwerkwoorden. Een speciale categorie is gereserveerd voor de interjectivisch gebruikte werkwoorden (bijv. zeg, wil jij je grote mond eens houden!). Indien een werkwoord zowel transitief als reflexief is, zoals het woord herinnerde in de zin Hij herinnerde zich het voorval niet, wordt het woord als een transitief werkwoord gezien. Binnen de groep van voornaamwoorden wordt er onderscheid gemaakt tussen persoonlijke, bezittelijke, wederkerende en wederkerige, aanwijzende, vragende, betrekkelijke en onbepaalde voornaamwoorden. Ook worden de lidwoorden en de telwoorden tot deze groep gerekend. Met uitzondering van de persoonlijke en de betrekkelijke voornaamwoorden zijn al deze groepen verder onderverdeeld in zelfstandig en bijvoeglijk gebruik. De bijwoorden zijn verdeeld in gewone, aanwijzende en onbepaalde, vragende, betrekkelijke en voornaamwoordelijke bijwoorden. De voornaamwoordelijke bijwoorden zijn verder verdeeld in vragende, betrekkelijke en aanwijzende / onbepaalde voornaamwoorden. Ook is er een groep van interjectivisch gebruikte bijwoorden. De groep van voorzetsels kent zeven subgroepen: echte voorzetsels, delen van voornaamwoordelijke bijwoorden, delen van samengestelde werkwoorden, achterzetsels in combinatie met een voorzetsel (Zij is van huis uit Katholiek), voorzetsels die een door te voorafgegaan infinitief inluiden en voorzetsels die een bijzin met een onderschikkend voegwoord inluiden. De groep van voegwoorden heeft vijf subklassen: nevenschikkende voegwoorden, onderschikkende voegwoorden, voegwoorden van vergelijking, onderschikkende voegwoorden met afwijkende hoofdzinvolgorde en de delen van reeksvormers (noch...noch, zowel...als, etc.). De groep van tussenwerpsels kent slechts twee subgroepen. Er wordt onderscheid gemaakt tussen echte interjecties (ja, sorry) en tussen klanknabootsingen (grrr). Alleen interjecties die niet zijn te beschouwen als een ander woordsoort die toevallig interjectivisch is gebruikt, worden in deze groep geplaatst. De restgroep bestaat eveneens uit twee subgroepen: een subgroep met anderstalige uitdrukkingen en citaten, en een subgroep die gebruikt wordt voor een verbindings-n tussen klinkers en voor onverstaanbare tekstgedeeltes (het gaat hier dus om gesproken teksten). 4 Ikzelf ben het met deze kwalificatie niet eens: ik zou deze woorden (in deze context althans) adjectieven willen noemen die geen en-achtervoegsel kunnen hebben. 5 Mijns inziens vallen hieronder ook een flink aantal niet nader te noemen schuttingwoorden onder. 9

10 Deze syntactische informatie is vastgelegd door elk afzonderlijk woord te voorzien van een driecijferige code. Het eerste cijfer codeert de syntactische hoofdcategorie, het tweede cijfer codeert de onderverdeling binnen deze categorie en het laatste codecijfer geeft de buigingsvorm van een woord aan. Voor elke hoofdcategorie is een cijfer gereserveerd (een 0 voor de substantieven, een 1 voor de adjectieven enz.). De groep van voornaamwoorden is echter gesplitst in twee delen (codecijfer 3 en 4), waarschijnlijk omdat deze woordsoort meer dan tien subcategorieën heeft en dus niet met slechts tien cijfers kan worden gecodeerd. Via dit codeersysteem kan dus van elk woord worden nagegaan tot welke grammaticale hoofd- en subcategorie het behoort en hoe het woord verbogen is. Hoe dit er in de praktijk uit komt te zien, valt af te leiden uit figuur 2, waar een gecodeerde zin uit het Eindhoven corpus is weergegeven. Het 370 voornemen 000 van 600 de 370 veeartsenijkundige 103 dienst 000 werd 275 gisteren 500 in 600 de 370 bestuursvergadering 000 van 600 het 370 productschap 000 voor 600 vlees 000 en 700 vee 000 te 600 Rijswijk 010 onthuld 216 door 600 het 370 bestuurslid 000 de 370 heer 000 Soesman 010. Figuur 2 Naast het nadeel dat de syntactische informatie pas kan worden gelezen met behulp van een decodeertabel, heeft deze notatie het grote voordeel dat er met behulp van een computer zeer snel naar bepaalde taalkundige verschijnselen kan worden gezocht. Om een voorbeeld te geven: om te zoeken naar een werkwoordscluster dat bestaat uit een finiet hulpwerkwoord (code 27x) en een voltooid deelwoord (code 21x), kan binnen een script-taal als Perl volstaan worden met volgende reguliere expressie: / [a-z]+ \s [2][7][0-9] \s [a-z]+ \s [2][1][0-9] / Deze expressie drukt het volgende uit: zoek een rij letters ([a-z]+), gevolgd door een spatie (\s), gevolgd door een 2, een 7 en een willekeurig ander cijfer([0-9]), weer gevolgd door een spatie, een rij letters, een spatie en een code die deze keer bestaat uit een 2, een 1 en een willekeurig ander cijfer. Ook kunnen er met deze manier van coderen vrij eenvoudig allerlei frequentielijsten worden samengesteld, zoals bijvoorbeeld gedaan is door Uit den Boogaart (1975). Het Parole corpus Parole (Preparatory Action for linguistic Resources Organization for Language Engineering) is een omvangrijk West-Europees project, dat tot doel heeft om van een groot aantal West- Europese talen een corpus en een lexicon op te bouwen. Hierbij zouden er een aantal uniforme principes in acht moeten worden genomen, zodat de gegevens van de verschillende talen makkelijk uitwisselbaar zijn, en goed met elkaar kunnen worden vergeleken. Het Instituut voor Nederlandse Lexicologie (INL) vertegenwoordigt hierbij het Nederlandse taalgebied. Elk corpus (m.u.v. het Ierse en het Zweedse corpus) heeft een omvang van ongeveer 20 miljoen woorden, waarvan meer dan de helft afkomstig is uit kranten. Het overige deel van het corpus bestaat uit o.a. boekfragmenten, periodieken, correspondentie etc. Met behulp 10

11 van een codeersysteem is niet alleen vastgelegd uit welk publicatiemedium een bepaald corpusfragment afkomstig is, maar is er vaak ook een karakterisering gegeven van het genre en het onderwerpsdomein. Aan een deel van het corpus ( woorden) is woordsoortinformatie toegevoegd, waarbij de syntactische hoofdcategorie aangevuld is met wat specificerende gegevens. In eerste instantie kregen deze woorden de tags automatisch toegekend, d.w.z. met behulp van een computerprogramma. Mede door de gedetailleerdheid van de tags, is het optreden van fouten bij automatische tagtoekenning onvermijdelijk. Daarom werden al deze woorden handmatig gecontroleerd; van woorden werd de volledige tag (dus ook de subcategorieën) gecontroleerd, van de overige woorden vond alleen controle van de woordsoortcategorie plaats. Voordat een tekst automatisch kan worden getagd, is het noodzakelijk dat deze eerst een aantal bewerkingen ondergaat. Zo wordt in het begin elke tekst dusdanig aangepast dat ze allemaal een uniforme bestandsvorm hebben. Dit tekstformaat wordt ook wel het INL-formaat genoemd. Vervolgens wordt dit INL-formaat omgezet naar het zogenaamde Parole-formaat, waarbij de richtlijnen van SGML (Standard Generalized Markup Language) worden toegepast 6. In de Document Type Definition (DTD) van het Parole is de structuur van deze SGMLdocumenten vastgelegd. In dit Parole-formaat wordt er aan de tekstfragmenten allerlei informatie over het tekstbestand als geheel toegevoegd, zoals bibliografische gegevens, het totaal aantal woorden, welke codes in de tekst voorkomen en hoe vaak, enz. Pas hierna wordt een fragment getagd. In figuur 3 is te zien hoe zo'n getagd tekstfragment er uit komt te zien: < / w > < p > < w msd="a[q][p][=][=][=][i]" > -Belangrijke < / w > < w msd="n[c][f][s][=][=]" > vergadering < / w > < w msd="s[p][=][=][=]" > over < / w > < w msd="n[c][m+f][s][=][=]" > vrede < / w > < w msd="s[p][=][=][=]" > in < / w > < w msd="n[p][=][s][=][=]" > Bosnië. < / w > Figuur 3 In dit fragment wordt elk woord vooraf gegaan door zijn tag, en gevolgd door het teken </w>. Al deze tags beginnen met de code 'w msd'. Wat dit precies betekent, heb ik niet precies kunnen achterhalen, maar mijn intuïtie zegt dat dit afkortingen zijn voor woord en morfosyntactische details. Het gedeelte dat tussen aanhalingstekens staat, is de eigenlijke tag. De 6 Zie ook Herwijnen,

12 syntactische hoofdcategorie is weergegeven met een hoofdletter, de kleine letters geven de subcategorieën aan. In dit fragment komen drie hoofdcategorieën voor: adjectieven (A), substantieven (N) en voorzetsels (S). Voor de syntactische details van bijvoorbeeld de substantieven zijn er vijf velden beschikbaar. Deze velden worden respectievelijk gebruikt het substantieftype (soort- of eigennaam), voor het geslacht, voor het getal, voor de naamval en voor het semantische geslacht. De kenmerken van de laatste twee velden zijn (volgens Parole) niet relevant voor het Nederlands, en krijgen daarom de waarde '='. Mogelijk zijn deze velden wel van toepassing op andere talen, zodat deze velden toch worden opgenomen in de Nederlandse tagset. De overige woordsoorten worden op een soortgelijke manier gecodeerd. Het zou te ver gaan om al deze tags gedetailleerd te gaan behandelen, geïnteresseerden verwijs ik graag naar de homepage van het INL 7. Het Parole-corpus is dus met name interessant voor onderzoek waarbij aspecten van verschillende (West-Europese) talen met elkaar worden vergeleken. Hoewel het Nederlandse Parole-corpus af is, zal men er in de toekomst flink aan blijven sleutelen. Men is namelijk van plan om het corpus continu uit te breiden en te actualiseren, bovendien wordt er gedacht aan het toevoegen van semantische informatie aan het lexicon. Ik zal nu een ander corpus, waar overigens nog volop aan gewerkt wordt, gaan behandelen: het Corpus Gesproken Nederlands. Het Corpus Gesproken Nederlands In 1998 is het project Corpus Gesproken Nederlands (CGN) van start gegaan. Dit is een Nederlands-Vlaams project, waarbij er een corpus wordt samengesteld van ongeveer 10 miljoen woorden. Het corpus bevat uitsluitend gesproken taalmateriaal, waarvan er 1/3 uit Vlaanderen afkomstig is, en 2/3 uit Nederland. Deze gesproken teksten zijn van zeer uiteenlopende aard. Zo bevat het corpus voorgelezen literatuur (uit bijvoorbeeld de blindenbibliotheek), interviews, spontane dialogen etc. Uiteraard is er gezorgd voor een goed gebalanceerde verdeling tussen de verschillende teksttypen. Het hele corpus zal orthografisch worden getranscribeerd, en verrijkt worden met morfologische analyses, lemmata, woordsoortinformatie en lexicologische koppelingen (hierbij worden uitdrukkingen die bestaan uit meerdere woorden en delen van scheidbaar samengestelde werkwoorden, gekoppeld aan één lemma). Ongeveer een miljoen woorden zullen ook nog eens fonologisch en fonetisch worden getranscribeerd, syntactisch worden geanalyseerd en worden gekoppeld aan het akoestisch signaal. De woordsoortinformatie zal automatisch worden toegevoegd, met behulp van de zogenaamde TnT-tagger 8. Hierna zal alles handmatig worden gecontroleerd en (indien nodig) worden gecorrigeerd. Net als in de Algemene Nederlandse Spraakkunst (Geerts, Haeseryn, de Rooij en van den Toorn (red.), 1984) worden er tien verschillende woordsoorten onderscheiden: substantieven, adjectieven, werkwoorden, telwoorden, voornaamwoorden, lidwoorden, voorzetsels, voegwoorden, bijwoorden en tussenwerpsels. In bijlage 1 zijn al deze woordsoorten, aangevuld met alle mogelijke nader specificerende combinaties, opgesomd. Merk op dat deze tags een stuk makkelijker te lezen zijn dan de tags van het Eindhoven corpus of het Parole corpus. Ter illustratie volgt hier een getagd tekstfragmentje uit het CGN:

13 <zin id=11 t= sp=v80021> hij VNW(pers,pron,nomin,vol,3,ev,masc) hij verschoof WW(pv,verl,ev) verschuiven z'n VNW(bez,det,stan,red,3,ev,prenom,zonder,agr) zijn sigaar N(soort,ev,basis,zijd,stan) sigaar naar VZ(init) naar z'n VNW(bez,det,stan,vol,3,ev,prenom,zonder,agr) zijn andere ADJ(prenom,basis,met-e,stan) ander mondhoek N(soort,ev,basis,zijd,stan) mondhoek en VG(neven) en staarde WW (pv,verl,ev) staren fronsend WW(od,vrij,zonder) fronsen naar VZ(init) naar een LID(onbep,stan,agr) een stapel N(soort,ev,basis,zijd,stan) stapel manuscripten N(soort,mv,basis) manuscript die VNW(betr,pron,stan,vol,persoon,getal) die voor VZ(init) voor hem VNW(pers,pron,obl,vol,3,ev,masc) hem lag WW(pv,verl,ev) liggen. LET() Figuur 4 Een vergelijking van de tagsets Als we de tagsets van de zojuist besproken corpora met elkaar gaan vergelijken, valt allereerst op dat ze in grote lijnen dezelfde woordsoortindeling kennen, namelijk de woordsoorten die ook in de ANS worden onderscheiden. Het Eindhoven corpus wijkt van deze ANSindeling een beetje af doordat de lidwoorden en de telwoorden zijn ondergebracht bij de voornaamwoorden. De voornaamwoorden zijn, waarschijnlijk door ruimtegebrek, opgedeeld in twee afzonderlijke groepen. Ook bij het Parole is de groep van voornaamwoorden gesplitst, namelijk in een groep van pronomina en een groep van determiners. Bij het CGN worden de pronomina en de determiners als subcategorieën van de voornaamwoorden beschouwd. Afgezien van deze kleine verschillen, is er verder niet veel op te merken over de verdeling van de syntactische hoofdcategorieën. Interessanter wordt het als we gaan kijken naar de specificerende kenmerken van deze groepen. Voor al deze kenmerken geldt dat ze de morfosyntactische eigenschappen van woorden beschrijven, eigenschappen dus die betrekking hebben op de morfologie, op de syntaxis of op een combinatie daarvan. Ik zal alleen die kenmerken bespreken waarin belangrijke verschillen zijn te bespeuren binnen de drie tagsets. Voor de verschillende waarden van veel kenmerken zijn voorbeelden te vinden in bijlage 1. Bij de substantieven valt op dat zowel het Parole als het Eindhoven corpus geen graadkenmerk hebben, maar het CGN wel. Het al dan niet verschijnen van een diminutiefvorm wordt dus alleen door het CGN gesignaleerd. Het kenmerk 'genus' heeft bij het Parole vier mogelijke waarden: mannelijk, vrouwelijk, onzijdig en context afhankelijk (bijv. het woord 'gelovige'). Het CGN kent voor dit kenmerk slechts de waarden zijdig en onzijdig en het Eindho- 13

14 ven corpus heeft dit kenmerk helemaal niet. Naamvalskenmerken worden alleen bij het Parole niet weergegeven. Adjectivisch gebruikte substantieven worden alleen door het Eindhoven corpus als aparte groep gezien, de andere twee corpora behandelen deze woorden gewoon als adjectieven. Bij zowel het CGN als het Eindhoven corpus is 'positie' een kenmerk van adjectieven. Het CGN heeft voor dit kenmerk de waarden prenominaal, nominaal, postnominaal en vrij. Onder dit vrije gebruik wordt zowel het predicatieve als het adverbiale gebruik gerekend. Het Eindhoven corpus heeft iets andere waarden voor dit kenmerk, namelijk gewoon (prenominaal en predicatief gebruik), nominaal en adverbiaal. Het Parole heeft dit kenmerk niet. Ook heeft het Parole geen kenmerk 'naamval', een kenmerk dat de andere twee tagsets wel hebben. Voor het kenmerk 'buiging' heeft het Parole slechts twee waarden (basis en verbogen), het CGN en het Eindhoven corpus delen de verbogen vormen verder op in met-e en met-s. Net als bij de substantieven heeft alleen het CGN een aparte diminutiefvorm. Een opvallend verschil tussen de drie tagsets bij de behandeling van werkwoorden is dat alleen het Eindhoven corpus en het Parole een onderscheid maken tussen transitieve, intransitieve, reflexieve, hulp- en koppelwerkwoorden. Bovendien heeft het Parole ook nog een waarde voor onpersoonlijke werkwoorden. Verder wordt door het Parole en het Eindhoven corpus een strikter onderscheid gemaakt tussen eerste, tweede en derde persoon (het CGN kent hiervoor alleen de waarde met-t). Voor het kenmerk 'positie' geldt ongeveer hetzelfde verhaal als bij de adjectieven: een klein verschil van waarden tussen het CGN en het Eindhoven corpus, en het ontbreken van dit kenmerk bij het Parole. Ook heeft het Parole geen waarden voor de imperatief en de conjunctief en ontbreken de kenmerken 'getal' en 'buiging'. Zoals gezegd vormen de telwoorden geen aparte groep bij het Eindhoven corpus, maar zijn ze ondergebracht bij de voornaamwoorden. Dit corpus heeft twee posities voor de telwoorden gereserveerd: een bijvoeglijke en een vrije positie. Het CGN verdeelt de bijvoeglijke positie verder op in de waarden prenominaal, nominaal en vrij. Ook hier ontbeert het Parole de kenmerken 'positie' en 'naamval'. Het CGN heeft als enige het kenmerk 'graad'. Over de voornaamwoorden zijn aan het begin van deze paragraaf al enkele opmerkingen gemaakt, waaruit al een beetje kon worden afgeleid dat het een behoorlijk complexe groep is. De tags van het CGN zijn veruit het gedetailleerdst, zo heeft het CGN als enige de kenmerken 'status', 'getal', 'graad' en 'npagr' (deze kenmerken krijgen uiteraard alleen een waarde als ze ook relevant zijn voor het betreffende voornaamwoord). Bij het Parole ontbreken verder de kenmerken 'buiging' en 'positie', terwijl bij het Eindhoven corpus de kenmerken 'persoon' en 'geslacht' missen. Bovendien kent het Eindhoven corpus minder waarden toe aan het kenmerk 'positie' dan het CGN. De lidwoorden zijn bij het Eindhoven corpus verspreid over verschillende groepen van voornaamwoorden. Een gevolg hiervan is dat dit corpus als enige onderscheid maakt tussen lidwoorden die niet naar een expliciet genoemde zaak of persoon verwijzen (door de ANS onbepaalde voornaamwoorden genoemd) en de overige lidwoorden. Een belangrijk nadeel is dat dit corpus geen verschil maakt tussen de en het. Het CGN kent als enige naamvalsvormen toe aan lidwoorden. Het Parole heeft voor de voorzetsels geen verdere onderverdeling gemaakt. Het CGN maakt verschil tussen voor- en achterzetsels en kent aan versmolten voorzetsels naamvalsvormen toe. Het Eindhoven corpus gaat nog een stapje verder: hier wordt namelijk ook de eventuele combinatie met andere woorden of woordgroepen aangegeven (bijv. voorzetsels die onder- 14

15 deel zijn van samengestelde werkwoorden of van voornaamwoordelijke bijwoorden, voorzetsels die een te + infinitiefconstructie inluiden, enz.). Bij de behandeling van de voegwoorden zijn er geen verschillen te signaleren tussen het CGN en het Parole. Net als bij de voorzetsels is ook hier het Eindhoven corpus wat uitgebreider. Naast de nevenschikkende en de onderschikkende voegwoorden worden hier namelijk voegwoorden van vergelijking, inleidende voegwoorden met afwijkende hoofdzinsvolgorde en reeksvormers onderscheiden. Het CGN kent geen verdere onderverdeling van de bijwoorden. Het Parole rekent de voornaamwoordelijke bijwoorden tot een aparte groep en kent aan de overige bijwoorden een graadkenmerk toe (dit kenmerk is voor het CGN overbodig omdat de gradeerbare bijwoorden hier tot de adjectieven worden gerekend). Het Eindhoven corpus deelt zowel de gewone als de voornaamwoordelijke bijwoorden op in vragende, betrekkelijke, aanwijzende en onbepaalde bijwoorden. Zowel het CGN als het Parole kennen geen subklassen voor de interjecties. Het Eindhoven corpus deelt deze groep op in 'echte' interjecties en in substantivisch gebruikte onomatopeeën (een zacht grr deed het opkijken). Bovendien heeft het Eindhoven corpus bij veel woordsoorten een interjectivische subgroep gereserveerd. Al met al zijn er toch aardig wat verschillen gesignaleerd tussen de drie verschillende tagsets. In het algemeen kan gesteld worden dat de belangrijkste kenmerken van bepaalde woordgroepen in de CGN-tagset zijn opgenomen, terwijl de overige tagsets hierin naar mijn smaak wel eens een steekje laten vallen. Qua opbouw lijkt de tagset van het Parole het meest op die van het CGN, al is de Paroletagset vaak minder verfijnd. De tagset van het Eindhoven corpus wijkt een stuk meer af van de andere twee. In de eerste plaats is het al vreemd te noemen dat veel woordsoorten voorzien zijn van een extra interjectivische subgroep. Ook door de ANS wordt een dergelijk onderscheid namelijk niet gemaakt. Verder bevat het Eindhoven corpus soms gegevens die bij het CGN pas op het niveau van de lexicale koppeling worden gegeven, bijvoorbeeld de informatie dat een voorzetsel onderdeel is van een samengesteld werkwoord, of dat een voegwoord een deel van een reeksvormer is. Dit verschil is natuurlijk te verklaren door de wijze waarop deze corpora getagd zijn: bij het Eindhoven corpus is dit handmatig gebeurd en bij het CGN machinaal. Een automatische tagger werkt woord voor woord en doorziet dus geen verbanden tussen woorden die ver uit elkaar staan. De vraag is natuurlijk in hoeverre de taalkundige informatie die in de tags aanwezig is, benut kan worden door een grammatica. Zo lijkt mij de informatie dat een bepaald substantief in de diminutiefvorm staat (zie de CGN-tagset), van weinig belang voor de grammatica. Aan de andere kant valt te verwachten dat bijvoorbeeld informatie over de positie van adjectieven en werkwoorden, over de tijd van werkwoorden en over de combinatie van voorzetsels met andere woorden, erg handig kan zijn voor het toepassen van bepaalde grammaticaregels. Zo kan de informatie over de positie van bijvoorbeeld adjectieven gebruikt worden om te bepalen of het woord al dan niet gezien moet worden als een soort substantief (bij nominaal gebruik), of het onderdeel kan zijn van een NP (bij prenominaal, nominaal of postnominaal gebruik), of dat het juist geen deel kan zijn van een NP (bij vrij gebruik). Voor de positieinformatie van werkwoorden geldt min of meer hetzelfde. 15

16 Ook gegevens over de werkwoordstijden kunnen van belang zijn voor de grammatica. Zo is de zinsstructuur van een imperatiefzin of een conjuntiefzin anders dan de zinsstructuur van gewone hoofdzinnen. Bij imperatiefzinnen en conjunctiefzinnen ontbreekt namelijk het subject, zodat allerlei relaties die er bestaan tussen het subject en de persoonsvorm (zoals de overeenkomst tussen getal en persoon) voor dit soort zinnen niet hoeft te gelden. Wat dit betreft is het Parole dus in het nadeel: bij de Parole-tagset worden imperatieven en conjunctieven niet als zodanig gemarkeerd. De extra informatie die het Eindhoven corpus geeft over de voorzetsels, zou erg nuttig kunnen zijn voor een grammatica. In de zin ik wil de trap op kunnen lopen is het met dergelijke informatie direct duidelijk dat het voorzetsel hier onderdeel is van het werkwoordscluster (het voorzetsel is in dit geval immers een deel van het scheidbaar samengestelde werkwoord oplopen). Aan de andere kant zal het in veruit de meeste gevallen zo zijn dat wanneer een voorzetsel direct vooraf gaat aan een werkwoord, dit voorzetsel deel uitmaakt van het werkwoordscluster. Dit gegeven is volgens mij vrij makkelijk te vertalen naar een grammaticale regel. Een ander opvallend verschil tussen de tagsets van het Parole en het Eindhoven corpus enerzijds, en de tagset van het CGN anderzijds, is dat de CGN-tags van de werkwoorden geen informatie bevatten over transitiviteit en reflexiviteit. Op het eerste gezicht lijkt deze informatie erg handig: is het zelfstandige werkwoord van een zin transitief, dan kan er vanuit worden gegaan dat de zin ook een direct object bevat. Is het werkwoord intransitief, dan zal er in de zin geen direct object aanwezig zijn. Toch kan de transitiviteit van een werkwoord vaak worden geschonden zonder dat dit een ongrammaticale zin oplevert. Zo wordt het intransitieve werkwoord schaatsen transitief gebruikt in de zin ik schaats de Elfstedentocht en worden de transitieve werkwoorden gooien en slaan intransitief gebruikt in de zin jij gooit, ik sla. De reflexiviteit van werkwoorden is overigens een stuk lastiger te schenden. Na deze grondige bestudering van de drie tagsets, lijkt het mij redelijk om het geannoteerde corpus van het CGN te gaan gebruiken voor mijn verdere scriptie. De CGN-tagset is in vergelijking met de tagsets van het Parole en het Eindhoven corpus veruit het uitgebreidste, bovendien ontbreekt er bij de laatste twee tagsets nogal eens wat informatie die erg belangrijk voor een grammatica zal zijn. Een consequentie hiervan is wel dat ik hier te maken heb met een heel ander soort taalgebruik dan het taalgebruik dat in het Parole en het Eindhoven corpus wordt gebezigd, namelijk gesproken taal. Een verschijnsel dat typerend is voor gesproken taal, is het relatief vaak voorkomen van ongrammaticale zinnen. Hierbij valt te denken aan onafgemaakte zinnen, versprekingen, herhalingen etc. In sommige gevallen kan dit een probleem vormen voor de tagger (bij fouten op lexicaal niveau), maar veel vaker zal dit problemen geven bij het (automatisch) parsen van zinnen. In het volgende hoofdstuk zal ik proberen aan te geven hoe dit voor een groot deel kan worden opgelost met behulp van een chunker. 16

17 4. EEN CHUNKER De parser die gebruikt wordt bij het CGN is de zogenaamde ANNOTATE-parser 9. Het is ontwikkeld voor het Duitse project NEGRA 10, en is ook gebruikt voor het project Verbmobil 11. Een van de redenen dat juist deze parser wordt gebruikt, is dat het mogelijk is dat de output van de CGN-tagger als input kan fungeren voor deze parser. Toch is er om diverse redenen nog niet begonnen met het automatisch parsen van zinnen, zodat de kans groot is dat men nog op allerlei onvoorziene problemen stuit. Dit maakt het des te interessanter om zelf een grammatica voor een parser te maken. In dit hoofdstuk wordt de eerste stap gezet in de richting van een automatische ontleding van het taalmateriaal van het CGN, en wel door het maken van een chunker-grammatica. Hierbij vindt er een analyse plaats van de kleinere eenheden van een zin. Omdat een chunker niet kijkt naar de structuur van volledige zinnen, maar naar delen van zinnen, is het te verwachten dat een chunker robuuster is dan een programma dat de gehele zinsstructuur analyseert. In de eerste paragraaf van dit hoofdstuk zal ik gaan behandelen wat er precies onder chunking verstaan wordt en wat het nut ervan is. Hierna zal ik een paragraaf besteden aan enkele technieken die gebruikt kunnen worden bij het automatisch ontleden van zinnen. Begrippen als top-down, bottom-up, depth-first en breadth-first zullen in deze paragraaf geïntroduceerd worden. De derde paragraaf is de kern van dit hoofdstuk: hierin wordt de implementatie behandeld van de chunker. Tot besluit van dit hoofdstuk zal ik een korte evaluatie van de chunker geven. Hier zal aandacht worden besteed aan de uitvoer van de chunker en zullen een aantal taalkundige verschijnselen worden besproken waar de chunker niet tegen opgewassen is. Chunking Voordat we beginnen met het maken van een parser die bomen van volledige zinnen genereert, is het nuttig om eerst een programma te maken dat een zin opdeelt in kleinere eenheden (zogenaamde 'chunks'). Dit chunken van een zin heeft allerlei voordelen. In de eerste plaats hebben we op dit niveau nog niet te maken met allerlei lastige ambiguïteiten. De zin Piet slaat een meisje met naaldhakken is bijvoorbeeld zo'n ambigue zin. De PP met naaldhakken kan zowel een voorzetselconstituent zijn bij een meisje (in dit geval draagt het meisje naaldhakken) als een voorzetselvoorwerp bij slaan (in dit geval zijn de naaldhakken de voorwerpen waarmee klappen worden uitgedeeld). In volledige boomstructuren van zinnen moet deze ambiguïteit tot uitdrukking worden gebracht. Bij het chunken daarentegen sporen we alleen de syntactische brokstukken op waaruit een zin bestaat. Het weergeven van de onderlinge verhoudingen tussen deze brokstukken is meer een taak voor een parser, niet voor een chunker. Verder is het analyseren van volledige zinnen op basis van grotere eenheden een stuk makkelijker dan op basis van losse woorden (het voordeel van een modulaire werkwijze dus). Overigens blijken chunks ook een psychologisch bestaansrecht te hebben; uit een onder

18 zoek van Gee en Grosjean (1983) is naar voren gekomen dat bijvoorbeeld het spraak- en leesgedrag van mensen goed kan worden beschreven aan de hand van chunks. Het weergeven van de interne structuur van de gevonden chunks zie ik ook als een taak voor de chunker. Het gevolg hiervan is wel dat de chunker zich zal moeten beperken tot het opsporen en analyseren van minder complexe eenheden. Als de chunker namelijk complexe eenheden kan analyseren (bijvoorbeeld een NP met een ingenestelde zin), dan kan het ook complete zinnen analyseren zodat het hele idee van chunking overbodig wordt. Het is daarom nuttig om een precieze definitie van een chunk te geven. Volgens Abney (1991) is het hoofd van een chunk altijd een inhoudswoord (zelfstandig naamwoord, adjectief, persoonlijk voornaamwoord, zelfstandig werkwoord, enz.). In de meeste gevallen is dit hoofd ook het enige inhoudswoord van de chunk. Dit hoofd kan worden geselecteerd door een of meer functiewoorden. Deze functiewoorden maken dan ook deel uit van de chunk. Er is een geval waarin een chunk uit meerdere inhoudswoorden kan bestaan. Dit geval doet zich voor wanneer er een nieuw inhoudswoord wordt geplaatst tussen het functiewoord en het andere inhoudswoord. Nemen we bijvoorbeeld het functiewoordje het, dan kan dit woord een inhoudswoord selecteren, bijvoorbeeld het substantief meisje. De woorden het en meisje vormen nu een chunk. Als er nu een ander inhoudswoord wordt geplaatst tussen het en meisje, bijvoorbeeld het adjectief mooie, dan bestaat de chunk uit een functiewoord en twee inhoudswoorden. Het door het functiewoord geselecteerde inhoudswoord (meisje) is dan het hoofd van de chunk. Helemaal waterdicht is deze definitie van Abney niet. Wat bijvoorbeeld te denken van combinaties van een adjectief en een substantief die niet door een functiewoord worden ingeleid. Ook is onduidelijk hoe betrekkelijke voornaamwoorden, postnominale adjectieven, interjecties, enz. in deze theorie worden behandeld. Ik zal daarom in dit hoofdstuk een iets andere definitie van een chunk hanteren. Voor mij is een chunk een maximale projectie van een NP of een PP, die geen andere maximale projecties bevat. De NP het mooie meisje is bijvoorbeeld één chunk, terwijl de NP het mooie meisje in het zwembad dat niet is. Deze NP bestaat namelijk uit twee maximale projecties: de NP het mooie meisje en de PP in het zwembad. Bij de bespreking van de grammaticaregels die de chunker toe kan passen, zal verder duidelijk worden hoe een chunk eruit kan zien. Ik zal nu eerst de achterliggende theorie van het automatisch ontleden gaan bespreken. Enkele ontleedtechnieken Er bestaan verschillende technieken om zinnen automatisch te ontleden. Welke ontleedmethode het geschiktst is, hangt onder andere af van het soort grammatica dat er gebruikt wordt bij het ontleden, en van de eisen die je stelt aan de boomstructuur. Ik zal twee ontleedstrategieën gaan behandelen: de top-down methode en de bottom-up methode. De top-down methode gaat uit van het idee dat de structuur van een zin kan worden ontrafeld met behulp van een aantal herschrijfregels. Zo kan een mededelende hoofdzin worden gesplitst in een NP en een VP, een VP kan bestaan uit een intransitief werkwoord of uit een combinatie van een transitief werkwoord en een NP enz. In figuur 5 zijn een aantal van deze herschrijfregels gegeven: 18

Nog meer weergeven