EEN COMPUTATIONELE GRAMMATICA CORPUS GESPROKEN NEDERLANDS

Maat: px
Weergave met pagina beginnen:

Download "EEN COMPUTATIONELE GRAMMATICA CORPUS GESPROKEN NEDERLANDS"

Transcriptie

1 EEN COMPUTATIONELE GRAMMATICA VOOR HET CORPUS GESPROKEN NEDERLANDS door Ard Sprenger Scriptie voor het doctoraal examen Alfa-informatica Scriptiebegeleider: Gosse Bouma

2 INHOUD 1. INLEIDING 3 2. CORPUSTAALKUNDE 5 3. VERRIJKTE CORPORA 8 Het Eindhoven Corpus 8 Het Parole Corpus 10 Het Corpus Gesproken Nederlands 12 Een vergelijking van de tagsets EEN CHUNKER 17 Chunking 17 Enkele ontleedtechnieken 18 De chunker-implementatie in Hdrug 22 De evaluatie van de chunker EEN PARSER 35 De 'OVIS-parser' 35 De CGN-parser 40 Een parser met dependentielabels 48 De evaluatie van de parser TOT SLOT BIBLIOGRAFIE 61 BIJLAGE 1: Tagcombinaties van het CGN 63 BIJLAGE 2: Prolog-bestanden voor de chunker 66 BIJLAGE 3: Een Perl-script voor de conversie van CGN naar Hdrug 73 BIJLAGE 4a: Testzinnen uit het CGN 74 BIJLAGE 4b: De score van de chunker 78 BIJLAGE 5: Prolog-bestanden voor de parser 80 BIJLAGE 6: De score van de parser 88 2

3 1. INLEIDING In deze scriptie staat de ontwikkeling van een computationele grammatica centraal. Een kenmerk van dergelijke grammatica's is dat ze het een computerprogramma mogelijk maken om te bepalen welke structuren er aan een bepaalde invoer kunnen worden toegekend. Dit soort computerprogramma's worden ook wel 'parsers' genoemd. De meeste computationele grammatica's bestaan uit twee delen: uit een woordenboek en uit een aantal grammaticaregels. Van elk woord in het woordenboek is ook een hoeveelheid taalkundige informatie vastgelegd. Deze informatie is nodig om te bepalen of een grammaticaregel al dan niet kan worden toegepast. In het ideale geval zijn alle woorden die de grammatica als invoer te verwerken krijgt, ook aanwezig in het woordenboek. Een probleem van dit soort grammatica's is dat ze meestal niet zomaar op willekeurige teksten kunnen worden toegepast. Zo komt het vaak voor dat er bepaalde zinsstructuren van de invoer niet kunnen worden geanalyseerd, omdat de grammatica niet genoeg regels bevat. Bestaat een grammatica echter uit ontzettend veel regels, dan ontstaat het probleem dat er te veel ambiguïteiten worden geïntroduceerd en dat de parser te traag wordt. Andere problemen ontstaan er wanneer de invoer woorden bevat die niet in het woordenboek voorkomen, en wanneer de grammatica niet robuust is (de parser kan dan geen belangrijke zinsdelen vinden als de zin niet als geheel geparsed kan worden). Deze laatste twee aspecten van dit probleem zullen in deze scriptie nader worden onderzocht aan de hand van de volgende onderzoeksvragen: 1. In hoeverre is het mogelijk om met een regelgebaseerde grammatica robuust te parsen? 2. Is het nuttig om een grammatica te implementeren die gebruik maakt van 'getagde invoer'? (hierbij is de taalkundige informatie van de afzonderlijke woorden al bij de invoer aanwezig) Het antwoord op de eerste onderzoeksvraag zal ik proberen te vinden door een grammatica te ontwikkelen die alleen bepaalde zinsdelen ('chunks') analyseert, in plaats van hele zinnen. Er zal hierbij gebruik worden gemaakt van getagde invoer, meer bepaald van het geannoteerde taalmateriaal van het Corpus Gesproken Nederlands (CGN). Wat betreft de tweede onderzoeksvraag: het is te verwachten dat er op deze manier geen problemen meer zullen ontstaan met onbekende woorden, simpelweg omdat er geen gebruik zal worden gemaakt van een woordenboek (de invoer bevat immers al de taalkundige informatie). Een bijkomend voordeel is dat ambigue woorden (zoals bijvoorbeeld het woord vlieg) in de woordtags al zijn gedisambigueerd. In dit geval is het dus meteen al duidelijk of gaat om een werkwoord of om een zelfstandig naamwoord. De scriptie is als volgt opgebouwd: in het volgende hoofdstuk wordt er een algemene inleiding geven van het soort taalkunde dat gebruik maakt van een grote hoeveelheid teksten (corpustaalkunde). Hierbij zal het begrip 'corpustaalkunde' verder worden uitgediept, zal de historische ontwikkeling ervan worden behandeld en zullen er enkele toepassingen van corpustaalkunde aan bod komen. Ook wordt er een klein overzichtje gegeven van enkele bekende corpora. In het derde hoofdstuk worden er een drietal Nederlandse corpora wat grondiger met elkaar vergeleken. Het betreft hier het Eindhoven corpus, het Parole corpus en het Corpus Gespro- 3

4 ken Nederlands. Deze corpora hebben gemeenschappelijk dat ze alledrie voorzien zijn van woordsoortinformate. Daarom zal de aandacht hierbij vooral gericht zijn op de verschillen die er bestaan tussen de tagsets van de drie corpora. Om een antwoord te vinden op de eerste onderzoeksvraag, zal er in hoofdstuk vier een chunker gemaakt worden. Het is hier de bedoeling dat deze chunker een analyse geeft van de belangrijkste zinsdelen waaruit de invoer bestaat. Naast de chunkergrammatica, zal er in dit hoofdstuk ook aandacht besteed worden aan enkele onderliggende ontleedstrategieën die bij het parsen van zinnen kunnen worden gebruikt. In hoofdstuk vijf wordt er geprobeerd een algemene grammatica van het Nederlands te schrijven op basis van het getagde taalmateriaal van het CGN. Hierbij wordt er dus onderzocht in hoeverre de tweede onderzoeksvraag positief kan worden beantwoord. Ook zal er in dit hoofdstuk een vergelijking worden gemaakt met een grammatica die gemaakt is voor een wat beperkter taalaanbod, namelijk een grammatica voor het 'Openbaar Vervoer Informatie Systeem' (OVIS). Het zal blijken dat veel technieken die gebruikt worden door de OVISgrammatica, ook gebruikt kunnen worden door de CGN-grammatica. Tot slot van dit hoofdstuk zal er een poging gedaan worden om aan de boomstructuren die door de parser geproduceerd worden, zogenaamde 'dependentielabels' toe te voegen. Hierdoor komen de boomstructuren wat meer overeen met de boomstructuren die binnen het CGN aanwezig zijn. In het laatste hoofdstuk zal er een korte evaluatie van mijn scriptie worden gegeven. 4

5 2. CORPUSTAALKUNDE Zoals uit het vorige hoofdstuk valt af te leiden, is het een van mijn doelstellingen om een programma te schrijven dat syntactische structuren automatisch kan genereren uit een verzameling geannoteerde teksten. De uitvoer van het programma (de zinsstructuren dus) kan worden gebruikt voor taalkundig onderzoek. Deze vorm van taalkunde wordt ook wel corpuslinguïstiek of corpustaalkunde genoemd. In dit hoofdstuk zal ik proberen uit te leggen wat corpustaalkunde precies inhoudt, hoe het zich in de loop der tijd heeft ontwikkeld en wat voor toepassingen het kent. Ik zal het betoog hier en daar illustreren met enkele voorbeelden uit de praktijk. In de driedelige Van Dale wordt de definitie van corpuslinguïstiek geformuleerd als: 'taalkundig onderzoek op basis van grote tekstbestanden'. Het is dus niet zozeer een beschrijvende en verklarende tak van de taalkunde zoals syntaxis, semantiek en fonologie, maar meer een wijze van wetenschapsbeoefening, een methodologie dus. Deze methodologie kan op bijna alle takken van linguïstiek worden losgelaten. Veel taalkundige tradities zijn dan ook voortgekomen uit de bestudering van corpora. De bestudering van veel dode talen bijvoorbeeld (Latijn, Oudgrieks, Sanskriet, etc.) is mogelijk geworden doordat er allerlei teksten in deze talen bewaard zijn gebleven. Op basis van deze teksten konden er grammatica's en woordenboeken van deze talen worden gereconstrueerd. Ook de diachrone en de historische taalkunde leunen zwaar op verzamelingen van bewaard gebleven historische teksten, in de meeste gevallen zijn deze teksten zelfs de enige bron van informatie. Hoewel de term corpustaalkunde vrij modern aan doet, kent het toch een vrij lange geschiedenis. Al in de achttiende eeuw leverde Balthasar Huydecoper op grond van gedegen corpusonderzoek kritiek op het taalgebruik van Vondel. Overigens was niet alleen zijn kennis van het zeventiende eeuws indrukwekkend te noemen; ook van het Middelnederlands was hij goed op de hoogte. Al deze kennis vergaarde hij door veel teksten uit die tijdvakken te lezen, en de informatie die daaruit viel af te leiden te documenteren met behulp van kaartenbakken. Huydecoper kon nog geen beroep doen op het Middelnederlandsch Woordenboek (MNW) of op het Woordenboek der Nederlandsche Taal (WNT), met het samenstellen van deze woordenboeken is men pas aan het eind van de negentiende eeuw begonnen. Het MNW bestaat uit elf delen, die zijn verschenen in de periode tussen 1885 en Aanvankelijk werd het werk gedaan door twee personen: Verwijs en Verdam, maar al bij de letter B overleed Verwijs, zodat Verdam er voor de rest van zijn leven alleen voor stond. Toen hij in 1919 stierf, was hij gekomen tot het woord wedergeven. Stoet heeft het laatste stuk voltooid. Het is dus een gigantische klus geweest, waarbij voor de vorming van de woordenschat, allerlei bestaande tekstedities, oude woordenboeken en onuitgegeven handschriften geraadpleegd werden. Corpustaalkunde van het eerste uur dus. Een nog veel omvangrijker project is het WNT geweest. Het plan voor dit woordenboek dateert al uit 1849, en een tijdje daarna (1852) werd de redactie benoemd die bestond uit De Vries en Te Winkel. Vanaf dat moment kon er begonnen worden met het verzamelen van de bouwstoffen. Het was de bedoeling om al het Nederlands wat ooit gebezigd werd in dit 5

6 woordenboek op te nemen. In de inleiding bij het eerste deel formuleerde de Vries dit als volgt: Niets wat in eenig dorp of gehucht getuigenis geeft van den onuitputtelijken rijkdom onzer moedertaal, mag ongebruikt blijven; alles wat ooit of ergens Nederlandsch was, moet daar verzameld, gerangschikt en tot een volkomen geheel bearbeid worden. De Vries, 1882 In het WNT is elk Nederlands woord vanaf 1500 opgenomen, aangevuld met informatie over eventuele betekenisveranderingen die in de loop der tijd hebben plaatsgevonden, de etymologie van het woord, de periode waarin het woord is ontstaan, enz. Blijkbaar had men de hoeveelheid werk dat dit met zich mee zou brengen, zwaar onderschat. De Vries was bij de letter B toen hij in 1892 stierf, en het werk werd door vele generaties taalkundigen voortgezet. Toen na verloop van tijd duidelijk werd dat de woordenschat sneller groeide dan de WNT-samenstellers aankonden, besloot men om het jaar 1921 te nemen als einddatum voor de materiaalverzameling. Toch zou het nog tot 1998 duren voordat het grootste woordenboek ter wereld (veertig lijvige delen, met meer dan pagina's) was voltooid. In de twintigste eeuw kwam het corpusonderzoek pas echt goed op gang. Zo werden er in 1940 door Fries en Traver methoden ontwikkeld voor het leren van een vreemde taal, op basis van frequentiewoordenlijsten. Maar ook op het gebied van taalverwerving, comparatieve linguïstiek, syntaxis en semantiek werd steeds vaker de methodologie van de corpustaalkunde gebruikt. De toenemende populariteit van corpustaalkunde was niet in de laatste plaats te danken aan de opkomst van de computer. Met behulp van dit apparaat konden grotere hoeveelheden tekst vele malen sneller en nauwkeuriger worden bewerkt dan voorheen. Het sorteren van data, het berekenen van woordfrequenties en het zoeken naar woorden of woordgroepen bleek voor een computer een peulenschilletje te zijn. Toch raakte vanaf het eind van de jaren vijftig tot aan de jaren zeventig de corpuslinguïstiek bij veel taalkundigen in onmin. De directe aanleiding daarvoor was de publicatie van Chomsky's boek Syntactic Structures in Dit boek ontketende een ware revolutie binnen de taalkunde en markeerde het begin van de transformationeel-generatieve taalkunde. Een van de punten die naar voren kwam uit dit boek, was het idee dat taalkundigen niet zozeer geïnteresseerd dienden te zijn in taaluitingen, maar meer in het taalvermogen van mensen. Taaluitingen waren volgens Chomsky slechts vertroebelde spiegelingen van het taalvermogen, beïnvloedbaar door niet-taalkundige factoren zoals beperkingen van het menselijke geheugen of drankgebruik. Het doel van taalkundigen moest dus zijn om de taalcompetentie in modellen te vangen, en niet het feitelijke taalgebruik. En hoe je het wendt of keert, een corpus is niet meer dan een grote verzameling taaluitingen. Hoewel de generatieve taalkunde nog steeds veel aanhangers heeft (vooral in de theoretische taalkunde), betekende dit niet het einde van de corpuslinguïstiek. Na verloop van tijd begon men de voordelen van het onderzoek naar het feitelijk taalgedrag te herwaarderen. Het gebruik van de computer werd hierbij steeds algemener, zodat er in deze tijd veel nieuwe corpora ontstonden. Tegenwoordig worden corpora ook veel gebruikt in een relatief jonge tak van de taalkunde, namelijk in de computatutionele taalkunde. Bij deze vorm van taalkunde kunnen corpora gebruikt worden om bijvoorbeeld 'taggers' te trainen en te testen. Een tagger is een computerprogramma dat een bepaalde invoer kan voorzien van woordsoortinformatie. Een zin als ik 6

7 sla de hond kan door een tagger worden omgevormd tot ik(persoonlijk voornaamwoord) sla(werkwoord) de(lidwoord) hond(zelfstandig naamwoord). De taalkundige gedetailleerdheid kan per tagger verschillen. Om een tagger goed te laten functioneren, is het nodig dat deze eerst getraind wordt. Hierbij krijgt de tagger een flink aantal geannoteerde zinnen als invoer, zodat de tagger als het ware leert welk woord welke tag kan krijgen. Voor dit trainingsproces zijn corpora bijzonder nuttig. Binnen de computationele taalkunde kunnen corpora ook gebruikt worden voor bijvoorbeeld het automatisch vertalen van teksten, voor automatische spellingscorrectie en voor het automatisch desambigueren van woorden. Tot slot van dit hoofdstuk volgt een beknopt (en niet uitputtend) overzicht van de bekendste corpora 1. In het volgende hoofdstuk zal ik drie van deze corpora (het Eindhoven corpus, Het Parole corpus en het Corpus gesproken Nederlands) gaan behandelen. Naam Ontstaansperiode Grootte Taal Opmerkingen (in woorden) Gysselingcorpus ± 1,6 miljoen Middelnederlands van voor 1300 Literaire en ambtelijke teksten van voor 1300 Browncorpus ± 1 miljoen Amerikaans-Engels Een gedeelte ervan is verrijkt met woordsoortinformatie. Eindhovencorpus Nederlands Verrijkt met woordsoortinformatie Penn Treebank > 4,5 miljoen Amerikaans-Engels Verrijkt met woordsoortinformatie en met syntactische informatie. Helsinki-corpus ± 3,1 miljoen Amerikaans-Engels, Brits-Engels, Oud- Schots, Hiberno- Engels Bestaat uit twee delen. Deel 1: diachroon corpus met teksten van 850 tot Deel 2: dialectcorpus Parole corpus miljoen per taal Diverse Europese talen Een project dat als doel heeft om van een groot aantal Europese talen vergelijkbare, nationale corpora te ontwikkelen. Corpus Gesproken Nederlands miljoen Nederlands / Vlaams Verrijkt met fonetische, morfologische, lexicale en syntactische informatie Volkskrant op cdrom Vanaf 1995 Groeit jaarlijks Nederlands Volledige jaargangen van de Volkskrant op CD-rom. World Wide Web ± 60 miljard 2 Elke taal Wordt dagelijks aangevuld met een grote hoeveelheid woorden 1 Figuur 1 Voor meer informatie over deze corpora zijn de volgende webpagina s raadpleegbaar: Dit is uiteraard een zeer ruwe schatting die bovendien alleen van toepassing is op de groep van talen die het Latijnse letterschrift kennen. De meeste van deze 60 miljard woorden zijn Engelse woorden (namelijk 47,3 miljard), het Nederlands beslaat iets meer dan 0,6 miljard woorden. Voor de wijze waarop deze getallen verkregen zijn, verwijs ik u graag naar de volgende webpagina: 7

8 3. VERRIJKTE CORPORA In dit hoofdstuk staan drie Nederlandse corpora centraal: het Eindhoven corpus, het Parole corpus en het Corpus Gesproken Nederlands. Deze drie corpora hebben met elkaar gemeen dat alle woorden voorzien zijn van woordsoortinformatie; dit soort corpora worden dan ook wel verrijkte corpora genoemd. De gedetailleerdheid van deze woordsoortinformatie kan per corpus nogal verschillen. Dit zal vooral blijken aan het eind van dit hoofdstuk, waar de tagsets van de drie corpora met elkaar zullen worden vergeleken. Bij wijze van voorbeeld zal ik bij de behandeling van het Eindhoven corpus ingaan op de (globale) inrichting van de tagset. Omdat de tagsets van de overige twee corpora in hoofdlijnen niet veel verschillen van die van het Eindhoven corpus, zal ik de bespreking van deze tagsets achterwege laten. Wel is er voor het Corpus Gesproken Nederlands een bijlage toegevoegd (bijlage 1) waarin alle tags worden opgesomd die in dit corpus kunnen voorkomen. Dit is onder andere gedaan omdat deze tagset een belangrijke rol gaat spelen in de volgende hoofdstukken. Het Eindhoven corpus Het Eindhoven corpus, door sommigen ook wel 'corpus Uit den Boogaart' genoemd, is rond 1970 tot stand gekomen. Het bestaat uit zo'n woorden die afkomstig zijn uit diverse soorten teksten 3. De werkgroep die belast was met de opbouw van dit corpus, stelde zich ten doel dat de teksten in het corpus representatief moesten zijn voor het taalgebruik van die tijd (dit in navolging van het Brown corpus). Daarom werden de teksten onderverdeeld naar het soort taalgebruik dat erin werd gebezigd. Zo werden er teksten geselecteerd uit dagbladen, romans en novellen, opiniebladen, gezinsbladen en populair-wetenschappelijke boeken, waarbij de omvang van elke categorie ongeveer even groot was (± woorden dus). Ook vond men dat iedereen de mogelijkheid moest hebben om de teksten en tekstfragmenten van het corpus terug te vinden in de oorspronkelijke bronnen, dit om verder onderzoek op basis van dit corpus te optimaliseren. Nadat de teksten die deel zouden uitmaken van het corpus waren verzameld, was het zaak om aan elk afzonderlijk woord syntactische informatie toe te voegen. Per woord is er informatie te vinden over de syntactische hoofdcategorie, over de onderverdeling binnen deze hoofdcategorie in subcategorieën en over de buiging van het woord. In het Eindhoven corpus worden negen hoofdcategorieën onderscheiden: substantieven, adjectieven, werkwoorden, voornaamwoorden, bijwoorden, voor- en achterzetsels, voegwoorden, interjecties en een restgroep. Van deze syntactische groepen zal ik nu de onderverdeling gaan behandelen. De substantieven zijn onderverdeeld in vijf subklassen: gewone substantieven, eigennamen, adjectivisch gebruikte substantieven, interjecties en substantieven in zelfnoemfunctie. Onder adjectivisch gebruikte substantieven worden substantieven verstaan die eigenlijk als bijvoeglijk naamwoord worden gebruikt. Als voorbeeld worden de woorden aluminium en plastic 3 Eigenlijk bevat het corpus woorden; de woorden die verkregen zijn uit het gesproken taalmateriaal heb ik namelijk niet meegeteld, omdat de opbouw van dit subcorpus sterk afwijkt van de overige subcorpora. Uit den Boogaart (1975) merkt hier zelf over op dat "het subcorpus gesproken taal als een proefcorpus dient te worden opgevat". 8

9 genoemd, in de zinnen een aluminium pan en een plastic emmer 4. Bij interjectivische substantieven valt te denken aan woorden als hemel in lieve hemel, of grutten in grote grutten. Substantieven die hun oorspronkelijke betekenis zijn kwijtgeraakt dus 5. Een voorbeeld van een substantief in zelfnoemfunctie is het woord lepel in de zin Het woord 'lepel' bestaat uit vijf letters. De adjectieven zijn onderverdeeld in vier groepen: gewone, substantivisch gebruikte, adverbiaal gebruikte en interjectivisch gebruikte adjectieven (bijv. goed, ik ga maar eens!). Het woord lekker in de zin Hij ruikt lekker wordt dus gezien als een adjectief en niet, zoals in veel traditionele grammatica's, als bijwoord. Bij de werkwoorden is een scheiding aangebracht tussen de infinitieven en de deelwoorden enerzijds, en de finiete werkwoorden (persoonsvormen dus) anderzijds. Beide subklassen kennen een verdere onderverdeling in intransitieve, transitieve, reflexieve en hulp- en koppelwerkwoorden. Een speciale categorie is gereserveerd voor de interjectivisch gebruikte werkwoorden (bijv. zeg, wil jij je grote mond eens houden!). Indien een werkwoord zowel transitief als reflexief is, zoals het woord herinnerde in de zin Hij herinnerde zich het voorval niet, wordt het woord als een transitief werkwoord gezien. Binnen de groep van voornaamwoorden wordt er onderscheid gemaakt tussen persoonlijke, bezittelijke, wederkerende en wederkerige, aanwijzende, vragende, betrekkelijke en onbepaalde voornaamwoorden. Ook worden de lidwoorden en de telwoorden tot deze groep gerekend. Met uitzondering van de persoonlijke en de betrekkelijke voornaamwoorden zijn al deze groepen verder onderverdeeld in zelfstandig en bijvoeglijk gebruik. De bijwoorden zijn verdeeld in gewone, aanwijzende en onbepaalde, vragende, betrekkelijke en voornaamwoordelijke bijwoorden. De voornaamwoordelijke bijwoorden zijn verder verdeeld in vragende, betrekkelijke en aanwijzende / onbepaalde voornaamwoorden. Ook is er een groep van interjectivisch gebruikte bijwoorden. De groep van voorzetsels kent zeven subgroepen: echte voorzetsels, delen van voornaamwoordelijke bijwoorden, delen van samengestelde werkwoorden, achterzetsels in combinatie met een voorzetsel (Zij is van huis uit Katholiek), voorzetsels die een door te voorafgegaan infinitief inluiden en voorzetsels die een bijzin met een onderschikkend voegwoord inluiden. De groep van voegwoorden heeft vijf subklassen: nevenschikkende voegwoorden, onderschikkende voegwoorden, voegwoorden van vergelijking, onderschikkende voegwoorden met afwijkende hoofdzinvolgorde en de delen van reeksvormers (noch...noch, zowel...als, etc.). De groep van tussenwerpsels kent slechts twee subgroepen. Er wordt onderscheid gemaakt tussen echte interjecties (ja, sorry) en tussen klanknabootsingen (grrr). Alleen interjecties die niet zijn te beschouwen als een ander woordsoort die toevallig interjectivisch is gebruikt, worden in deze groep geplaatst. De restgroep bestaat eveneens uit twee subgroepen: een subgroep met anderstalige uitdrukkingen en citaten, en een subgroep die gebruikt wordt voor een verbindings-n tussen klinkers en voor onverstaanbare tekstgedeeltes (het gaat hier dus om gesproken teksten). 4 Ikzelf ben het met deze kwalificatie niet eens: ik zou deze woorden (in deze context althans) adjectieven willen noemen die geen en-achtervoegsel kunnen hebben. 5 Mijns inziens vallen hieronder ook een flink aantal niet nader te noemen schuttingwoorden onder. 9

10 Deze syntactische informatie is vastgelegd door elk afzonderlijk woord te voorzien van een driecijferige code. Het eerste cijfer codeert de syntactische hoofdcategorie, het tweede cijfer codeert de onderverdeling binnen deze categorie en het laatste codecijfer geeft de buigingsvorm van een woord aan. Voor elke hoofdcategorie is een cijfer gereserveerd (een 0 voor de substantieven, een 1 voor de adjectieven enz.). De groep van voornaamwoorden is echter gesplitst in twee delen (codecijfer 3 en 4), waarschijnlijk omdat deze woordsoort meer dan tien subcategorieën heeft en dus niet met slechts tien cijfers kan worden gecodeerd. Via dit codeersysteem kan dus van elk woord worden nagegaan tot welke grammaticale hoofd- en subcategorie het behoort en hoe het woord verbogen is. Hoe dit er in de praktijk uit komt te zien, valt af te leiden uit figuur 2, waar een gecodeerde zin uit het Eindhoven corpus is weergegeven. Het 370 voornemen 000 van 600 de 370 veeartsenijkundige 103 dienst 000 werd 275 gisteren 500 in 600 de 370 bestuursvergadering 000 van 600 het 370 productschap 000 voor 600 vlees 000 en 700 vee 000 te 600 Rijswijk 010 onthuld 216 door 600 het 370 bestuurslid 000 de 370 heer 000 Soesman 010. Figuur 2 Naast het nadeel dat de syntactische informatie pas kan worden gelezen met behulp van een decodeertabel, heeft deze notatie het grote voordeel dat er met behulp van een computer zeer snel naar bepaalde taalkundige verschijnselen kan worden gezocht. Om een voorbeeld te geven: om te zoeken naar een werkwoordscluster dat bestaat uit een finiet hulpwerkwoord (code 27x) en een voltooid deelwoord (code 21x), kan binnen een script-taal als Perl volstaan worden met volgende reguliere expressie: / [a-z]+ \s [2][7][0-9] \s [a-z]+ \s [2][1][0-9] / Deze expressie drukt het volgende uit: zoek een rij letters ([a-z]+), gevolgd door een spatie (\s), gevolgd door een 2, een 7 en een willekeurig ander cijfer([0-9]), weer gevolgd door een spatie, een rij letters, een spatie en een code die deze keer bestaat uit een 2, een 1 en een willekeurig ander cijfer. Ook kunnen er met deze manier van coderen vrij eenvoudig allerlei frequentielijsten worden samengesteld, zoals bijvoorbeeld gedaan is door Uit den Boogaart (1975). Het Parole corpus Parole (Preparatory Action for linguistic Resources Organization for Language Engineering) is een omvangrijk West-Europees project, dat tot doel heeft om van een groot aantal West- Europese talen een corpus en een lexicon op te bouwen. Hierbij zouden er een aantal uniforme principes in acht moeten worden genomen, zodat de gegevens van de verschillende talen makkelijk uitwisselbaar zijn, en goed met elkaar kunnen worden vergeleken. Het Instituut voor Nederlandse Lexicologie (INL) vertegenwoordigt hierbij het Nederlandse taalgebied. Elk corpus (m.u.v. het Ierse en het Zweedse corpus) heeft een omvang van ongeveer 20 miljoen woorden, waarvan meer dan de helft afkomstig is uit kranten. Het overige deel van het corpus bestaat uit o.a. boekfragmenten, periodieken, correspondentie etc. Met behulp 10

11 van een codeersysteem is niet alleen vastgelegd uit welk publicatiemedium een bepaald corpusfragment afkomstig is, maar is er vaak ook een karakterisering gegeven van het genre en het onderwerpsdomein. Aan een deel van het corpus ( woorden) is woordsoortinformatie toegevoegd, waarbij de syntactische hoofdcategorie aangevuld is met wat specificerende gegevens. In eerste instantie kregen deze woorden de tags automatisch toegekend, d.w.z. met behulp van een computerprogramma. Mede door de gedetailleerdheid van de tags, is het optreden van fouten bij automatische tagtoekenning onvermijdelijk. Daarom werden al deze woorden handmatig gecontroleerd; van woorden werd de volledige tag (dus ook de subcategorieën) gecontroleerd, van de overige woorden vond alleen controle van de woordsoortcategorie plaats. Voordat een tekst automatisch kan worden getagd, is het noodzakelijk dat deze eerst een aantal bewerkingen ondergaat. Zo wordt in het begin elke tekst dusdanig aangepast dat ze allemaal een uniforme bestandsvorm hebben. Dit tekstformaat wordt ook wel het INL-formaat genoemd. Vervolgens wordt dit INL-formaat omgezet naar het zogenaamde Parole-formaat, waarbij de richtlijnen van SGML (Standard Generalized Markup Language) worden toegepast 6. In de Document Type Definition (DTD) van het Parole is de structuur van deze SGMLdocumenten vastgelegd. In dit Parole-formaat wordt er aan de tekstfragmenten allerlei informatie over het tekstbestand als geheel toegevoegd, zoals bibliografische gegevens, het totaal aantal woorden, welke codes in de tekst voorkomen en hoe vaak, enz. Pas hierna wordt een fragment getagd. In figuur 3 is te zien hoe zo'n getagd tekstfragment er uit komt te zien: < / w > < p > < w msd="a[q][p][=][=][=][i]" > -Belangrijke < / w > < w msd="n[c][f][s][=][=]" > vergadering < / w > < w msd="s[p][=][=][=]" > over < / w > < w msd="n[c][m+f][s][=][=]" > vrede < / w > < w msd="s[p][=][=][=]" > in < / w > < w msd="n[p][=][s][=][=]" > Bosnië. < / w > Figuur 3 In dit fragment wordt elk woord vooraf gegaan door zijn tag, en gevolgd door het teken </w>. Al deze tags beginnen met de code 'w msd'. Wat dit precies betekent, heb ik niet precies kunnen achterhalen, maar mijn intuïtie zegt dat dit afkortingen zijn voor woord en morfosyntactische details. Het gedeelte dat tussen aanhalingstekens staat, is de eigenlijke tag. De 6 Zie ook Herwijnen,

12 syntactische hoofdcategorie is weergegeven met een hoofdletter, de kleine letters geven de subcategorieën aan. In dit fragment komen drie hoofdcategorieën voor: adjectieven (A), substantieven (N) en voorzetsels (S). Voor de syntactische details van bijvoorbeeld de substantieven zijn er vijf velden beschikbaar. Deze velden worden respectievelijk gebruikt het substantieftype (soort- of eigennaam), voor het geslacht, voor het getal, voor de naamval en voor het semantische geslacht. De kenmerken van de laatste twee velden zijn (volgens Parole) niet relevant voor het Nederlands, en krijgen daarom de waarde '='. Mogelijk zijn deze velden wel van toepassing op andere talen, zodat deze velden toch worden opgenomen in de Nederlandse tagset. De overige woordsoorten worden op een soortgelijke manier gecodeerd. Het zou te ver gaan om al deze tags gedetailleerd te gaan behandelen, geïnteresseerden verwijs ik graag naar de homepage van het INL 7. Het Parole-corpus is dus met name interessant voor onderzoek waarbij aspecten van verschillende (West-Europese) talen met elkaar worden vergeleken. Hoewel het Nederlandse Parole-corpus af is, zal men er in de toekomst flink aan blijven sleutelen. Men is namelijk van plan om het corpus continu uit te breiden en te actualiseren, bovendien wordt er gedacht aan het toevoegen van semantische informatie aan het lexicon. Ik zal nu een ander corpus, waar overigens nog volop aan gewerkt wordt, gaan behandelen: het Corpus Gesproken Nederlands. Het Corpus Gesproken Nederlands In 1998 is het project Corpus Gesproken Nederlands (CGN) van start gegaan. Dit is een Nederlands-Vlaams project, waarbij er een corpus wordt samengesteld van ongeveer 10 miljoen woorden. Het corpus bevat uitsluitend gesproken taalmateriaal, waarvan er 1/3 uit Vlaanderen afkomstig is, en 2/3 uit Nederland. Deze gesproken teksten zijn van zeer uiteenlopende aard. Zo bevat het corpus voorgelezen literatuur (uit bijvoorbeeld de blindenbibliotheek), interviews, spontane dialogen etc. Uiteraard is er gezorgd voor een goed gebalanceerde verdeling tussen de verschillende teksttypen. Het hele corpus zal orthografisch worden getranscribeerd, en verrijkt worden met morfologische analyses, lemmata, woordsoortinformatie en lexicologische koppelingen (hierbij worden uitdrukkingen die bestaan uit meerdere woorden en delen van scheidbaar samengestelde werkwoorden, gekoppeld aan één lemma). Ongeveer een miljoen woorden zullen ook nog eens fonologisch en fonetisch worden getranscribeerd, syntactisch worden geanalyseerd en worden gekoppeld aan het akoestisch signaal. De woordsoortinformatie zal automatisch worden toegevoegd, met behulp van de zogenaamde TnT-tagger 8. Hierna zal alles handmatig worden gecontroleerd en (indien nodig) worden gecorrigeerd. Net als in de Algemene Nederlandse Spraakkunst (Geerts, Haeseryn, de Rooij en van den Toorn (red.), 1984) worden er tien verschillende woordsoorten onderscheiden: substantieven, adjectieven, werkwoorden, telwoorden, voornaamwoorden, lidwoorden, voorzetsels, voegwoorden, bijwoorden en tussenwerpsels. In bijlage 1 zijn al deze woordsoorten, aangevuld met alle mogelijke nader specificerende combinaties, opgesomd. Merk op dat deze tags een stuk makkelijker te lezen zijn dan de tags van het Eindhoven corpus of het Parole corpus. Ter illustratie volgt hier een getagd tekstfragmentje uit het CGN:

13 <zin id=11 t= sp=v80021> hij VNW(pers,pron,nomin,vol,3,ev,masc) hij verschoof WW(pv,verl,ev) verschuiven z'n VNW(bez,det,stan,red,3,ev,prenom,zonder,agr) zijn sigaar N(soort,ev,basis,zijd,stan) sigaar naar VZ(init) naar z'n VNW(bez,det,stan,vol,3,ev,prenom,zonder,agr) zijn andere ADJ(prenom,basis,met-e,stan) ander mondhoek N(soort,ev,basis,zijd,stan) mondhoek en VG(neven) en staarde WW (pv,verl,ev) staren fronsend WW(od,vrij,zonder) fronsen naar VZ(init) naar een LID(onbep,stan,agr) een stapel N(soort,ev,basis,zijd,stan) stapel manuscripten N(soort,mv,basis) manuscript die VNW(betr,pron,stan,vol,persoon,getal) die voor VZ(init) voor hem VNW(pers,pron,obl,vol,3,ev,masc) hem lag WW(pv,verl,ev) liggen. LET() Figuur 4 Een vergelijking van de tagsets Als we de tagsets van de zojuist besproken corpora met elkaar gaan vergelijken, valt allereerst op dat ze in grote lijnen dezelfde woordsoortindeling kennen, namelijk de woordsoorten die ook in de ANS worden onderscheiden. Het Eindhoven corpus wijkt van deze ANSindeling een beetje af doordat de lidwoorden en de telwoorden zijn ondergebracht bij de voornaamwoorden. De voornaamwoorden zijn, waarschijnlijk door ruimtegebrek, opgedeeld in twee afzonderlijke groepen. Ook bij het Parole is de groep van voornaamwoorden gesplitst, namelijk in een groep van pronomina en een groep van determiners. Bij het CGN worden de pronomina en de determiners als subcategorieën van de voornaamwoorden beschouwd. Afgezien van deze kleine verschillen, is er verder niet veel op te merken over de verdeling van de syntactische hoofdcategorieën. Interessanter wordt het als we gaan kijken naar de specificerende kenmerken van deze groepen. Voor al deze kenmerken geldt dat ze de morfosyntactische eigenschappen van woorden beschrijven, eigenschappen dus die betrekking hebben op de morfologie, op de syntaxis of op een combinatie daarvan. Ik zal alleen die kenmerken bespreken waarin belangrijke verschillen zijn te bespeuren binnen de drie tagsets. Voor de verschillende waarden van veel kenmerken zijn voorbeelden te vinden in bijlage 1. Bij de substantieven valt op dat zowel het Parole als het Eindhoven corpus geen graadkenmerk hebben, maar het CGN wel. Het al dan niet verschijnen van een diminutiefvorm wordt dus alleen door het CGN gesignaleerd. Het kenmerk 'genus' heeft bij het Parole vier mogelijke waarden: mannelijk, vrouwelijk, onzijdig en context afhankelijk (bijv. het woord 'gelovige'). Het CGN kent voor dit kenmerk slechts de waarden zijdig en onzijdig en het Eindho- 13

14 ven corpus heeft dit kenmerk helemaal niet. Naamvalskenmerken worden alleen bij het Parole niet weergegeven. Adjectivisch gebruikte substantieven worden alleen door het Eindhoven corpus als aparte groep gezien, de andere twee corpora behandelen deze woorden gewoon als adjectieven. Bij zowel het CGN als het Eindhoven corpus is 'positie' een kenmerk van adjectieven. Het CGN heeft voor dit kenmerk de waarden prenominaal, nominaal, postnominaal en vrij. Onder dit vrije gebruik wordt zowel het predicatieve als het adverbiale gebruik gerekend. Het Eindhoven corpus heeft iets andere waarden voor dit kenmerk, namelijk gewoon (prenominaal en predicatief gebruik), nominaal en adverbiaal. Het Parole heeft dit kenmerk niet. Ook heeft het Parole geen kenmerk 'naamval', een kenmerk dat de andere twee tagsets wel hebben. Voor het kenmerk 'buiging' heeft het Parole slechts twee waarden (basis en verbogen), het CGN en het Eindhoven corpus delen de verbogen vormen verder op in met-e en met-s. Net als bij de substantieven heeft alleen het CGN een aparte diminutiefvorm. Een opvallend verschil tussen de drie tagsets bij de behandeling van werkwoorden is dat alleen het Eindhoven corpus en het Parole een onderscheid maken tussen transitieve, intransitieve, reflexieve, hulp- en koppelwerkwoorden. Bovendien heeft het Parole ook nog een waarde voor onpersoonlijke werkwoorden. Verder wordt door het Parole en het Eindhoven corpus een strikter onderscheid gemaakt tussen eerste, tweede en derde persoon (het CGN kent hiervoor alleen de waarde met-t). Voor het kenmerk 'positie' geldt ongeveer hetzelfde verhaal als bij de adjectieven: een klein verschil van waarden tussen het CGN en het Eindhoven corpus, en het ontbreken van dit kenmerk bij het Parole. Ook heeft het Parole geen waarden voor de imperatief en de conjunctief en ontbreken de kenmerken 'getal' en 'buiging'. Zoals gezegd vormen de telwoorden geen aparte groep bij het Eindhoven corpus, maar zijn ze ondergebracht bij de voornaamwoorden. Dit corpus heeft twee posities voor de telwoorden gereserveerd: een bijvoeglijke en een vrije positie. Het CGN verdeelt de bijvoeglijke positie verder op in de waarden prenominaal, nominaal en vrij. Ook hier ontbeert het Parole de kenmerken 'positie' en 'naamval'. Het CGN heeft als enige het kenmerk 'graad'. Over de voornaamwoorden zijn aan het begin van deze paragraaf al enkele opmerkingen gemaakt, waaruit al een beetje kon worden afgeleid dat het een behoorlijk complexe groep is. De tags van het CGN zijn veruit het gedetailleerdst, zo heeft het CGN als enige de kenmerken 'status', 'getal', 'graad' en 'npagr' (deze kenmerken krijgen uiteraard alleen een waarde als ze ook relevant zijn voor het betreffende voornaamwoord). Bij het Parole ontbreken verder de kenmerken 'buiging' en 'positie', terwijl bij het Eindhoven corpus de kenmerken 'persoon' en 'geslacht' missen. Bovendien kent het Eindhoven corpus minder waarden toe aan het kenmerk 'positie' dan het CGN. De lidwoorden zijn bij het Eindhoven corpus verspreid over verschillende groepen van voornaamwoorden. Een gevolg hiervan is dat dit corpus als enige onderscheid maakt tussen lidwoorden die niet naar een expliciet genoemde zaak of persoon verwijzen (door de ANS onbepaalde voornaamwoorden genoemd) en de overige lidwoorden. Een belangrijk nadeel is dat dit corpus geen verschil maakt tussen de en het. Het CGN kent als enige naamvalsvormen toe aan lidwoorden. Het Parole heeft voor de voorzetsels geen verdere onderverdeling gemaakt. Het CGN maakt verschil tussen voor- en achterzetsels en kent aan versmolten voorzetsels naamvalsvormen toe. Het Eindhoven corpus gaat nog een stapje verder: hier wordt namelijk ook de eventuele combinatie met andere woorden of woordgroepen aangegeven (bijv. voorzetsels die onder- 14

15 deel zijn van samengestelde werkwoorden of van voornaamwoordelijke bijwoorden, voorzetsels die een te + infinitiefconstructie inluiden, enz.). Bij de behandeling van de voegwoorden zijn er geen verschillen te signaleren tussen het CGN en het Parole. Net als bij de voorzetsels is ook hier het Eindhoven corpus wat uitgebreider. Naast de nevenschikkende en de onderschikkende voegwoorden worden hier namelijk voegwoorden van vergelijking, inleidende voegwoorden met afwijkende hoofdzinsvolgorde en reeksvormers onderscheiden. Het CGN kent geen verdere onderverdeling van de bijwoorden. Het Parole rekent de voornaamwoordelijke bijwoorden tot een aparte groep en kent aan de overige bijwoorden een graadkenmerk toe (dit kenmerk is voor het CGN overbodig omdat de gradeerbare bijwoorden hier tot de adjectieven worden gerekend). Het Eindhoven corpus deelt zowel de gewone als de voornaamwoordelijke bijwoorden op in vragende, betrekkelijke, aanwijzende en onbepaalde bijwoorden. Zowel het CGN als het Parole kennen geen subklassen voor de interjecties. Het Eindhoven corpus deelt deze groep op in 'echte' interjecties en in substantivisch gebruikte onomatopeeën (een zacht grr deed het opkijken). Bovendien heeft het Eindhoven corpus bij veel woordsoorten een interjectivische subgroep gereserveerd. Al met al zijn er toch aardig wat verschillen gesignaleerd tussen de drie verschillende tagsets. In het algemeen kan gesteld worden dat de belangrijkste kenmerken van bepaalde woordgroepen in de CGN-tagset zijn opgenomen, terwijl de overige tagsets hierin naar mijn smaak wel eens een steekje laten vallen. Qua opbouw lijkt de tagset van het Parole het meest op die van het CGN, al is de Paroletagset vaak minder verfijnd. De tagset van het Eindhoven corpus wijkt een stuk meer af van de andere twee. In de eerste plaats is het al vreemd te noemen dat veel woordsoorten voorzien zijn van een extra interjectivische subgroep. Ook door de ANS wordt een dergelijk onderscheid namelijk niet gemaakt. Verder bevat het Eindhoven corpus soms gegevens die bij het CGN pas op het niveau van de lexicale koppeling worden gegeven, bijvoorbeeld de informatie dat een voorzetsel onderdeel is van een samengesteld werkwoord, of dat een voegwoord een deel van een reeksvormer is. Dit verschil is natuurlijk te verklaren door de wijze waarop deze corpora getagd zijn: bij het Eindhoven corpus is dit handmatig gebeurd en bij het CGN machinaal. Een automatische tagger werkt woord voor woord en doorziet dus geen verbanden tussen woorden die ver uit elkaar staan. De vraag is natuurlijk in hoeverre de taalkundige informatie die in de tags aanwezig is, benut kan worden door een grammatica. Zo lijkt mij de informatie dat een bepaald substantief in de diminutiefvorm staat (zie de CGN-tagset), van weinig belang voor de grammatica. Aan de andere kant valt te verwachten dat bijvoorbeeld informatie over de positie van adjectieven en werkwoorden, over de tijd van werkwoorden en over de combinatie van voorzetsels met andere woorden, erg handig kan zijn voor het toepassen van bepaalde grammaticaregels. Zo kan de informatie over de positie van bijvoorbeeld adjectieven gebruikt worden om te bepalen of het woord al dan niet gezien moet worden als een soort substantief (bij nominaal gebruik), of het onderdeel kan zijn van een NP (bij prenominaal, nominaal of postnominaal gebruik), of dat het juist geen deel kan zijn van een NP (bij vrij gebruik). Voor de positieinformatie van werkwoorden geldt min of meer hetzelfde. 15

16 Ook gegevens over de werkwoordstijden kunnen van belang zijn voor de grammatica. Zo is de zinsstructuur van een imperatiefzin of een conjuntiefzin anders dan de zinsstructuur van gewone hoofdzinnen. Bij imperatiefzinnen en conjunctiefzinnen ontbreekt namelijk het subject, zodat allerlei relaties die er bestaan tussen het subject en de persoonsvorm (zoals de overeenkomst tussen getal en persoon) voor dit soort zinnen niet hoeft te gelden. Wat dit betreft is het Parole dus in het nadeel: bij de Parole-tagset worden imperatieven en conjunctieven niet als zodanig gemarkeerd. De extra informatie die het Eindhoven corpus geeft over de voorzetsels, zou erg nuttig kunnen zijn voor een grammatica. In de zin ik wil de trap op kunnen lopen is het met dergelijke informatie direct duidelijk dat het voorzetsel hier onderdeel is van het werkwoordscluster (het voorzetsel is in dit geval immers een deel van het scheidbaar samengestelde werkwoord oplopen). Aan de andere kant zal het in veruit de meeste gevallen zo zijn dat wanneer een voorzetsel direct vooraf gaat aan een werkwoord, dit voorzetsel deel uitmaakt van het werkwoordscluster. Dit gegeven is volgens mij vrij makkelijk te vertalen naar een grammaticale regel. Een ander opvallend verschil tussen de tagsets van het Parole en het Eindhoven corpus enerzijds, en de tagset van het CGN anderzijds, is dat de CGN-tags van de werkwoorden geen informatie bevatten over transitiviteit en reflexiviteit. Op het eerste gezicht lijkt deze informatie erg handig: is het zelfstandige werkwoord van een zin transitief, dan kan er vanuit worden gegaan dat de zin ook een direct object bevat. Is het werkwoord intransitief, dan zal er in de zin geen direct object aanwezig zijn. Toch kan de transitiviteit van een werkwoord vaak worden geschonden zonder dat dit een ongrammaticale zin oplevert. Zo wordt het intransitieve werkwoord schaatsen transitief gebruikt in de zin ik schaats de Elfstedentocht en worden de transitieve werkwoorden gooien en slaan intransitief gebruikt in de zin jij gooit, ik sla. De reflexiviteit van werkwoorden is overigens een stuk lastiger te schenden. Na deze grondige bestudering van de drie tagsets, lijkt het mij redelijk om het geannoteerde corpus van het CGN te gaan gebruiken voor mijn verdere scriptie. De CGN-tagset is in vergelijking met de tagsets van het Parole en het Eindhoven corpus veruit het uitgebreidste, bovendien ontbreekt er bij de laatste twee tagsets nogal eens wat informatie die erg belangrijk voor een grammatica zal zijn. Een consequentie hiervan is wel dat ik hier te maken heb met een heel ander soort taalgebruik dan het taalgebruik dat in het Parole en het Eindhoven corpus wordt gebezigd, namelijk gesproken taal. Een verschijnsel dat typerend is voor gesproken taal, is het relatief vaak voorkomen van ongrammaticale zinnen. Hierbij valt te denken aan onafgemaakte zinnen, versprekingen, herhalingen etc. In sommige gevallen kan dit een probleem vormen voor de tagger (bij fouten op lexicaal niveau), maar veel vaker zal dit problemen geven bij het (automatisch) parsen van zinnen. In het volgende hoofdstuk zal ik proberen aan te geven hoe dit voor een groot deel kan worden opgelost met behulp van een chunker. 16

17 4. EEN CHUNKER De parser die gebruikt wordt bij het CGN is de zogenaamde ANNOTATE-parser 9. Het is ontwikkeld voor het Duitse project NEGRA 10, en is ook gebruikt voor het project Verbmobil 11. Een van de redenen dat juist deze parser wordt gebruikt, is dat het mogelijk is dat de output van de CGN-tagger als input kan fungeren voor deze parser. Toch is er om diverse redenen nog niet begonnen met het automatisch parsen van zinnen, zodat de kans groot is dat men nog op allerlei onvoorziene problemen stuit. Dit maakt het des te interessanter om zelf een grammatica voor een parser te maken. In dit hoofdstuk wordt de eerste stap gezet in de richting van een automatische ontleding van het taalmateriaal van het CGN, en wel door het maken van een chunker-grammatica. Hierbij vindt er een analyse plaats van de kleinere eenheden van een zin. Omdat een chunker niet kijkt naar de structuur van volledige zinnen, maar naar delen van zinnen, is het te verwachten dat een chunker robuuster is dan een programma dat de gehele zinsstructuur analyseert. In de eerste paragraaf van dit hoofdstuk zal ik gaan behandelen wat er precies onder chunking verstaan wordt en wat het nut ervan is. Hierna zal ik een paragraaf besteden aan enkele technieken die gebruikt kunnen worden bij het automatisch ontleden van zinnen. Begrippen als top-down, bottom-up, depth-first en breadth-first zullen in deze paragraaf geïntroduceerd worden. De derde paragraaf is de kern van dit hoofdstuk: hierin wordt de implementatie behandeld van de chunker. Tot besluit van dit hoofdstuk zal ik een korte evaluatie van de chunker geven. Hier zal aandacht worden besteed aan de uitvoer van de chunker en zullen een aantal taalkundige verschijnselen worden besproken waar de chunker niet tegen opgewassen is. Chunking Voordat we beginnen met het maken van een parser die bomen van volledige zinnen genereert, is het nuttig om eerst een programma te maken dat een zin opdeelt in kleinere eenheden (zogenaamde 'chunks'). Dit chunken van een zin heeft allerlei voordelen. In de eerste plaats hebben we op dit niveau nog niet te maken met allerlei lastige ambiguïteiten. De zin Piet slaat een meisje met naaldhakken is bijvoorbeeld zo'n ambigue zin. De PP met naaldhakken kan zowel een voorzetselconstituent zijn bij een meisje (in dit geval draagt het meisje naaldhakken) als een voorzetselvoorwerp bij slaan (in dit geval zijn de naaldhakken de voorwerpen waarmee klappen worden uitgedeeld). In volledige boomstructuren van zinnen moet deze ambiguïteit tot uitdrukking worden gebracht. Bij het chunken daarentegen sporen we alleen de syntactische brokstukken op waaruit een zin bestaat. Het weergeven van de onderlinge verhoudingen tussen deze brokstukken is meer een taak voor een parser, niet voor een chunker. Verder is het analyseren van volledige zinnen op basis van grotere eenheden een stuk makkelijker dan op basis van losse woorden (het voordeel van een modulaire werkwijze dus). Overigens blijken chunks ook een psychologisch bestaansrecht te hebben; uit een onder

18 zoek van Gee en Grosjean (1983) is naar voren gekomen dat bijvoorbeeld het spraak- en leesgedrag van mensen goed kan worden beschreven aan de hand van chunks. Het weergeven van de interne structuur van de gevonden chunks zie ik ook als een taak voor de chunker. Het gevolg hiervan is wel dat de chunker zich zal moeten beperken tot het opsporen en analyseren van minder complexe eenheden. Als de chunker namelijk complexe eenheden kan analyseren (bijvoorbeeld een NP met een ingenestelde zin), dan kan het ook complete zinnen analyseren zodat het hele idee van chunking overbodig wordt. Het is daarom nuttig om een precieze definitie van een chunk te geven. Volgens Abney (1991) is het hoofd van een chunk altijd een inhoudswoord (zelfstandig naamwoord, adjectief, persoonlijk voornaamwoord, zelfstandig werkwoord, enz.). In de meeste gevallen is dit hoofd ook het enige inhoudswoord van de chunk. Dit hoofd kan worden geselecteerd door een of meer functiewoorden. Deze functiewoorden maken dan ook deel uit van de chunk. Er is een geval waarin een chunk uit meerdere inhoudswoorden kan bestaan. Dit geval doet zich voor wanneer er een nieuw inhoudswoord wordt geplaatst tussen het functiewoord en het andere inhoudswoord. Nemen we bijvoorbeeld het functiewoordje het, dan kan dit woord een inhoudswoord selecteren, bijvoorbeeld het substantief meisje. De woorden het en meisje vormen nu een chunk. Als er nu een ander inhoudswoord wordt geplaatst tussen het en meisje, bijvoorbeeld het adjectief mooie, dan bestaat de chunk uit een functiewoord en twee inhoudswoorden. Het door het functiewoord geselecteerde inhoudswoord (meisje) is dan het hoofd van de chunk. Helemaal waterdicht is deze definitie van Abney niet. Wat bijvoorbeeld te denken van combinaties van een adjectief en een substantief die niet door een functiewoord worden ingeleid. Ook is onduidelijk hoe betrekkelijke voornaamwoorden, postnominale adjectieven, interjecties, enz. in deze theorie worden behandeld. Ik zal daarom in dit hoofdstuk een iets andere definitie van een chunk hanteren. Voor mij is een chunk een maximale projectie van een NP of een PP, die geen andere maximale projecties bevat. De NP het mooie meisje is bijvoorbeeld één chunk, terwijl de NP het mooie meisje in het zwembad dat niet is. Deze NP bestaat namelijk uit twee maximale projecties: de NP het mooie meisje en de PP in het zwembad. Bij de bespreking van de grammaticaregels die de chunker toe kan passen, zal verder duidelijk worden hoe een chunk eruit kan zien. Ik zal nu eerst de achterliggende theorie van het automatisch ontleden gaan bespreken. Enkele ontleedtechnieken Er bestaan verschillende technieken om zinnen automatisch te ontleden. Welke ontleedmethode het geschiktst is, hangt onder andere af van het soort grammatica dat er gebruikt wordt bij het ontleden, en van de eisen die je stelt aan de boomstructuur. Ik zal twee ontleedstrategieën gaan behandelen: de top-down methode en de bottom-up methode. De top-down methode gaat uit van het idee dat de structuur van een zin kan worden ontrafeld met behulp van een aantal herschrijfregels. Zo kan een mededelende hoofdzin worden gesplitst in een NP en een VP, een VP kan bestaan uit een intransitief werkwoord of uit een combinatie van een transitief werkwoord en een NP enz. In figuur 5 zijn een aantal van deze herschrijfregels gegeven: 18

Inleiding: Combinaties

Inleiding: Combinaties Zinnen 1 Inleiding: Combinaties Combinaties op verschillende niveaus: Lettergrepen als combinaties van fonemen. Woorden als combinaties van morfemen. Zinnen als combinaties van woorden en woordgroepen.

Nadere informatie

Naam: Mijn doelenboekje. Grammatica. Werelden - Eilanden - Dorpen 5 / 6 / 7 / 8.

Naam: Mijn doelenboekje. Grammatica. Werelden - Eilanden - Dorpen 5 / 6 / 7 / 8. Naam: Mijn doelenboekje Grammatica Werelden - Eilanden - Dorpen 5 / 6 / 7 / 8 www.gynzy.com Inhoud & Legenda In dit doelenboekje zijn de volgende Werelden te vinden: Taalkundige ontleding...3 Redekundige

Nadere informatie

1.2.3 Trappen van vergelijking 20

1.2.3 Trappen van vergelijking 20 INHOUD DEEL I Woord voor woord 13 1.1 Zelfstandig naamwoord (substantief) 16 1.1.1 Definitie 16 1.1.2 Soorten 16 1.1.2.1 Soortnaam of eigennaam 16 1.1.2.2 Concrete of abstracte zelfstandige naamwoorden

Nadere informatie

Inhoud. Inleiding 15. Deel 1 Spelling 18

Inhoud. Inleiding 15. Deel 1 Spelling 18 Inhoud Deel 1 Spelling 18 Inleiding 15 1 Grondbeginselen van de Nederlandse spelling 21 1.1 Verschil tussen klank en letter 22 1.2 Hoofdregels 22 1.3 Interactie tussen de regels 24 1.4 Belang van de regel

Nadere informatie

Programma van Inhoud en Toetsing (PIT)

Programma van Inhoud en Toetsing (PIT) Onderdeel: Grammatica zinsdelen 1F Grammaticale kennis: onderwerp, lijdend voorwerp, hoofdzin, bijzin, gezegde, persoonsvorm. 1E Grammaticale kennis: meewerkend voorwerp. 2E Grammaticale kennis: bijwoordelijke

Nadere informatie

Programma van Inhoud en Toetsing (PIT)

Programma van Inhoud en Toetsing (PIT) Onderdeel: Hoofdstuktoets [Je leert over] onderwerp, deelonderwerpen en hoofgedachte. 2F Ik kan onderwerp en deelonderwerpen van een tekst vinden. 2F Ik kan de hoofdgedachte van een tekst vinden. 2F Ik

Nadere informatie

Ontleden. a) het onderwerp b) het gezegde c) de voorwerpen (lijdend en meewerkend voorwerp, voorzetselvoorwerp) d) de bepalingen

Ontleden. a) het onderwerp b) het gezegde c) de voorwerpen (lijdend en meewerkend voorwerp, voorzetselvoorwerp) d) de bepalingen Ontleden 1. Ontleden is een vorm van syntactische analyse die traditioneel op lagere en middelbare scholen onderwezen wordt (werd). Deze traditionele zinsontleding gaat terug op de Nederlandse spraakkunst

Nadere informatie

2 Правописание Spelling 11 Hoofdletters en kleine letters 11 Klinkers na de sisklanken ж, ч, ш, щ / г, к, х / ц 12 Interpunctie 12

2 Правописание Spelling 11 Hoofdletters en kleine letters 11 Klinkers na de sisklanken ж, ч, ш, щ / г, к, х / ц 12 Interpunctie 12 Inhoudsopgave 1 Русский алфавит Het Russische alfabet 10 2 Правописание Spelling 11 Hoofdletters en kleine letters 11 Klinkers na de sisklanken ж, ч, ш, щ / г, к, х / ц 12 Interpunctie 12 3 Фонетика Fonetiek

Nadere informatie

Maken van een woordenboek:4 hoofdfasen

Maken van een woordenboek:4 hoofdfasen Maken van een woordenboek:4 hoofdfasen 1. het maken van een concept + het testen van het concept door middel van proefartikelen hoe moet je woordenboek er inhoudelijk uitzien? 2. opbouw van een materiaalverzameling

Nadere informatie

Beknopte grammatica. voor. de cursus. Grieks van het Nieuwe Testament

Beknopte grammatica. voor. de cursus. Grieks van het Nieuwe Testament Beknopte grammatica voor de cursus Grieks van het Nieuwe Testament versie 1.0 Menno Haaijman scripture4all.org Tijdens de try-out voor de cursus bleek dat veel, zo niet alle, toehoorders de Nederlandse

Nadere informatie

Woordsoorten. Nederlands. Aanwijzend voornaamwoord. Onderschikkend voegwoord. Persoonlijk voornaamwoord. Betrekkelijk voornaamwoord

Woordsoorten. Nederlands. Aanwijzend voornaamwoord. Onderschikkend voegwoord. Persoonlijk voornaamwoord. Betrekkelijk voornaamwoord Woordsoorten Nederlands Aanwijzend voornaamwoord Betrekkelijk voornaamwoord Bezittelijk voornaamwoord Bijvoeglijk gebruikt werkwoord Bijvoeglijk naamwoord Bijwoord Bijzin Hoofdzin Hulpwerkwoord Koppelwerkwoord

Nadere informatie

Taalbeschouwelijke termen bao so 2010

Taalbeschouwelijke termen bao so 2010 1 Bijlage: Vergelijking taalbeschouwelijke termen leerplannen basisonderwijs en secundair onderwijs In deze lijst vindt u in de linkerkolom een overzicht van de taalbeschouwelijke termen uit het leerplan

Nadere informatie

Z I N S O N T L E D I N G

Z I N S O N T L E D I N G - 1 - Z I N S O N T L E D I N G Waarom is zinsontleding zo belangrijk? Elke scholier op de middelbare school maar ook de kinderen op de lagere school, komen veelvuldig met zinsontleding in aanraking, eigenlijk

Nadere informatie

Grammaticaboekje NL. Om een beeld te krijgen van de inhoud: De inhoudsopgave, een paar onderwerpen en de eerste bladzijde van de trefwoorden.

Grammaticaboekje NL. Om een beeld te krijgen van de inhoud: De inhoudsopgave, een paar onderwerpen en de eerste bladzijde van de trefwoorden. 9 789082 208306 van Om een beeld te krijgen van de inhoud: De inhoudsopgave, een paar onderwerpen en de eerste bladzijde van de trefwoorden. Opzoekboekje voor leerlingen in klas 1 tot en met 3 in de onderbouw

Nadere informatie

De ontleding van het Corpus Gesproken Nederlands

De ontleding van het Corpus Gesproken Nederlands De ontleding van het Corpus Gesproken Nederlands Ton van der Wouden en Heleen Hoekstra Een corpus, in de zin van een verzameling tekst, bij elkaar brengen is tegenwoordig geen kunst meer. Met een computer

Nadere informatie

Visuele Leerlijn Taal

Visuele Leerlijn Taal Visuele Leerlijn Taal www.gynzy.com Versie: 05-09-2019 Taalbegrip Abstracties Probleem & oplossing Zender & ontvanger Functies van taal Discussie Standpunt & argument Feit & mening Illustratie (als voorbeeld)

Nadere informatie

DOELGROEP Grammatica 3F is bedoeld voor leerlingen van havo/vwo en mbo 4. Het programma is geschikt voor zowel allochtone als autochtone leerlingen.

DOELGROEP Grammatica 3F is bedoeld voor leerlingen van havo/vwo en mbo 4. Het programma is geschikt voor zowel allochtone als autochtone leerlingen. DOELGROEP Grammatica 3F is bedoeld voor leerlingen van havo/vwo en mbo 4. Het programma is geschikt voor zowel allochtone als autochtone leerlingen. STRUCTUUR De lesstof is ingedeeld in rubrieken (onderwerpen)

Nadere informatie

Programma van Inhoud en Toetsing (PIT)

Programma van Inhoud en Toetsing (PIT) 2016-2017 Vak: Nederlands Klas: vmbo-tl 2 Onderdeel: Spelling 1 & 2 Digitale methode 1F Spelling: verdubbeling en verenkeling. 1F Spelling: vorming van het bijvoeglijk naamwoord. 1F Werkwoordspelling waarvan

Nadere informatie

Programma van Inhoud en Toetsing

Programma van Inhoud en Toetsing Onderdeel: Grammatica zinsdelen (RTTI) Lesperiode: 1 Hoofdstuk: 1, 2,3 & 5 Theorie blz 28, 68, 108, 188, 189 De leerling moet de volgende zinsdelen kennen: persoonsvorm onderwerp werkwoordelijk gezegde

Nadere informatie

EEN SEXTANT VOOR EEN TAALSPECIALIST

EEN SEXTANT VOOR EEN TAALSPECIALIST EEN SEXTANT VOOR EEN TAALSPECIALIST Bijdragen tot Joost Buysschaert in profiel Onder redactie van Sonia Vandepitte Bart Defrancq Lieve Jooken 37 JOOST WAS HET GEWOON OM DERGELIJKE ZINNEN TE ANALYSEREN.

Nadere informatie

Antwoorden Nederlands Ontleding

Antwoorden Nederlands Ontleding Antwoorden Nederlands Ontleding Antwoorden door een scholier 1587 woorden 27 april 2010 5,8 10 keer beoordeeld Vak Nederlands Taalkundig ontleden; Lidwoorden; Een lidwoord hoort altijd bij een zelfstandig

Nadere informatie

Overzicht toetsen en oefeningen Grammatica I. Grammatica I

Overzicht toetsen en oefeningen Grammatica I. Grammatica I Overzicht toetsen en oefeningen Grammatica I Grammatica I Rubriek Oefening Type Opgaven Uitleg Alle onderwerpen Totaaltoets Grammatica I (*) 42 1 Klanken/letters Deeltoets 1 (*) Naamwoorden Deeltoets 2

Nadere informatie

Programma van Inhoud en Toetsing

Programma van Inhoud en Toetsing Onderdeel: Grammatica zinsdelen (RTTI) Lesperiode: 1 Aantal lessen per week: 4 Hoofdstuk: 1, 2,3 & 5 Theorie blz 28, 68, 108, 188, 189 De leerling moet de volgende zinsdelen kennen: persoonsvorm onderwerp

Nadere informatie

De bovenkamer. Het gebruik van De bovenkamer bij Taal actief. Josée Coenen. een kleurrijke grammatica van het Nederlands

De bovenkamer. Het gebruik van De bovenkamer bij Taal actief. Josée Coenen. een kleurrijke grammatica van het Nederlands Josée Coenen De bovenkamer een kleurrijke grammatica van het Nederlands Het gebruik van De bovenkamer bij Taal actief Bij de verschillende onderdelen van Taal actief kunt u onderdelen uit De bovenkamer

Nadere informatie

Jan Heerze. Kortom. Nederlandse grammatica. Walvaboek

Jan Heerze. Kortom. Nederlandse grammatica. Walvaboek Jan Heerze Kortom Nederlandse grammatica Walvaboek WOORD VOORAF Kennis van de Nederlandse grammatica is geen doel in zichzelf, maar een hulpmiddel om tekortkomingen in eigen taalgebruik te corrigeren.

Nadere informatie

Programma van Inhoud en Toetsing

Programma van Inhoud en Toetsing Onderdeel: leesvaardigheid Lesperiode: 1 Hoofdstuk: 1 + 2 Theorie blz. 7-8, 50 aantekeningen oefeningen uit het leerboek stappenplan lezen De leerling kent de termen onderwerp, deelonderwerp, hoofdgedachte,

Nadere informatie

Inhoud. 1 Spelling 5. Noordhoff Uitgevers bv

Inhoud. 1 Spelling 5. Noordhoff Uitgevers bv Inhoud 1 Spelling 5 1 geschiedenis van de nederlandse spelling in vogelvlucht 11 2 spellingregels 13 Klinkers en medeklinkers 13 Spelling van werkwoorden 14 D De stam van een werkwoord 14 D Tegenwoordige

Nadere informatie

Taaljournaal Leerlijnenoverzicht - Lezen

Taaljournaal Leerlijnenoverzicht - Lezen Taaljournaal Leerlijnenoverzicht - Lezen 1.1 Eigen kennis 1.1.1 Kinderen kunnen hun eigen kennis activeren, m.a.w. ze kunnen aangeven wat ze over een bepaald onderwerp al weten en welke ervaringen ze er

Nadere informatie

LESSTOF. Ontleden en Benoemen

LESSTOF. Ontleden en Benoemen LESSTOF Ontleden en Benoemen 2 Lesstof Ontleden en Benoemen INHOUD INLEIDING... 4 DOELGROEP... 5 STRUCTUUR... 6 INHOUD ONTLEDEN EN BENOEMEN 1... 10 INHOUD ONTLEDEN EN BENOEMEN 2... 17 Lesstof Ontleden

Nadere informatie

instapkaarten taal verkennen

instapkaarten taal verkennen instapkaarten inhoud instapkaarten Taal verkennen thema 1 les 2 1 thema 1 les 4 2 thema 1 les 7 3 thema 1 les 9 4 thema 2 les 2 5 thema 2 les 4 6 thema 2 les 7 7 thema 2 les 9 8 thema 3 les 2 9 thema 3

Nadere informatie

Het Muiswerkprogramma Grammatica op maat bestrijkt de grammatica die nodig is voor het leren van de Nederlandse spelling en zinsbouw.

Het Muiswerkprogramma Grammatica op maat bestrijkt de grammatica die nodig is voor het leren van de Nederlandse spelling en zinsbouw. Grammatica op maat Het Muiswerkprogramma Grammatica op maat bestrijkt de grammatica die nodig is voor het leren van de Nederlandse spelling en zinsbouw. Doelgroepen Grammatica op maat Dit programma is

Nadere informatie

Programma van Inhoud en Toetsing (PIT)

Programma van Inhoud en Toetsing (PIT) Klas: IG3v (Docent: RKW) D Week: 13 t/m 24 Onderdeel: Grammatica Woordsoorten Nieuw Nederlands. 3 vwo. 5 e editie Hoofdstuk 1, 2, 3, 4 en 5 Werkwoorden en persoonlijke, bezittelijke, wederkerende, aanwijzende,

Nadere informatie

Een hele eenvoudige benadering van de oplossing van dit probleem die men wel voorgesteld heeft, is de volgende regel:

Een hele eenvoudige benadering van de oplossing van dit probleem die men wel voorgesteld heeft, is de volgende regel: Accent op voorzetsels en partikels Het tweede probleem dat ik wil gebruiken ter illustratie is een probleem dat meer van belang is voor de spraaktechnologie. Een van de technologieën die spraaktechnologen

Nadere informatie

De bovenkamer. Josée Coenen. een kleurrijke grammatica van het Nederlands. colofon

De bovenkamer. Josée Coenen. een kleurrijke grammatica van het Nederlands. colofon Josée Coenen De bovenkamer een kleurrijke grammatica van het Nederlands colofon Dit overzicht is samengesteld door Josée Coenen, auteur van De bovenkamer. Vormgeving Marjo Starink Bazalt 2016 Voor meer

Nadere informatie

Formuleren voor gevorderden

Formuleren voor gevorderden Formuleren voor gevorderden Het programma Formuleren voor Gevorderden is gemaakt voor leerlingen in de bovenbouw van het voortgezet onderwijs en voor leerlingen in mbo en hbo voor wie vaardigheden op het

Nadere informatie

Formuleren voor gevorderden

Formuleren voor gevorderden Formuleren voor gevorderden Het Muiswerkprogramma Formuleren voor Gevorderden is gemaakt voor leerlingen in de bovenbouw van het voortgezet onderwijs en voor leerlingen in mbo en hbo voor wie vaardigheden

Nadere informatie

Samenvatting Nederlands formuleren

Samenvatting Nederlands formuleren Samenvatting Nederlands formuleren Samenvatting door een scholier 1199 woorden 3 maart 2016 7,5 2 keer beoordeeld Vak Methode Nederlands Nieuw Nederlands Nederlands Samenvatting formuleren Par 1 dubbelop

Nadere informatie

Compacte taalgids Nederlands (basis en gevorderd) les- en werkboek

Compacte taalgids Nederlands (basis en gevorderd) les- en werkboek Compacte taalgids Nederlands (basis en gevorderd) les- en werkboek Bezoek- en postadres: Bredewater 16 2715 CA Zoetermeer info@uitgeverijbos.nl www.uitgeverijbos.nl 085 2017 888 Aan de totstandkoming van

Nadere informatie

Studiewijzer TaalCompetent

Studiewijzer TaalCompetent TaalCompetent - Studiewijzer 1 Studiewijzer TaalCompetent leer-/werkboek basisvaardigheden taalbeheersing Nederlands 1 Werken met TaalCompetent 2 Overzicht uitwerkingen 3 Taaltoetsen voor de pabo 4 Kennistrainingen

Nadere informatie

(werkwoordelijk gezegde)

(werkwoordelijk gezegde) Grammatica 1F Grammatica 1F bestrijkt de basisregels van de Nederlandse grammatica die op de basisschool worden aangeleerd en waarmee in het voortgezet onderwijs meestal nog wordt geoefend. Doelgroepen

Nadere informatie

Lexicografie en lexicologie

Lexicografie en lexicologie Lexicografie en lexicologie Basisliteratuur: Piet van Sterkenburg (ed.) (2003), A Practical Guide to Lexicography. John Benjamins Publishing Company, Amsterdam/Philadelphia. + aanvullende literatuur op

Nadere informatie

Semantic Versus Lexical Gender M. Kraaikamp

Semantic Versus Lexical Gender M. Kraaikamp Semantic Versus Lexical Gender M. Kraaikamp Samenvatting Semantisch versus lexicaal geslacht: synchrone en diachrone variatie in Germaanse geslachtscongruentie De meeste Germaanse talen, waaronder het

Nadere informatie

Grammatica 2F. Doelgroepen Grammatica 2F. Omschrijving Grammatica 2F. meewerkend voorwerp. voegwoord alle woordsoorten

Grammatica 2F. Doelgroepen Grammatica 2F. Omschrijving Grammatica 2F. meewerkend voorwerp. voegwoord alle woordsoorten Grammatica 2F Grammatica 2F bestrijkt de basisregels van de Nederlandse grammatica die op de basisschool worden aangeleerd en waarmee in het voortgezet onderwijs meestal nog wordt geoefend. Doelgroepen

Nadere informatie

1 keer beoordeeld 4 maart 2018

1 keer beoordeeld 4 maart 2018 7 Samenvatting door Syb 764 woorden 1 keer beoordeeld 4 maart 2018 Vak Nederlands Nederlands Toets week 3 ZAKELIJKE TEKSTEN LEZEN Het onderwerp van een tekst bestaat uit een paar woorden. Een deel onderwerp

Nadere informatie

Benodigde voorkennis taal verkennen groep 5

Benodigde voorkennis taal verkennen groep 5 Taal actief 4 taal verkennen groep 5-8 taal verkennen groep 5 In dit document een overzicht opgenomen van de benodigde voor de lessen Taal verkennen groep 5. Deze kenn maakt onderdeel uit van de leerlijn

Nadere informatie

Formuleren voor gevorderden

Formuleren voor gevorderden Formuleren voor gevorderden Het Muiswerkprogramma Formuleren voor Gevorderden is gemaakt voor leerlingen in de bovenbouw van het voortgezet onderwijs en voor leerlingen in mbo en hbo voor wie vaardigheden

Nadere informatie

Vak: Nederlands EBR Klas: IG2 hv Onderdeel: Fictie en Schrijven Algemene informatie: Wat moet je kennen: Wat moet je kunnen: Toetsing:

Vak: Nederlands EBR Klas: IG2 hv Onderdeel: Fictie en Schrijven Algemene informatie: Wat moet je kennen: Wat moet je kunnen: Toetsing: Vak: Nederlands EBR Klas: IG2 hv Onderdeel: Fictie en Schrijven 4 Lessen Nederlands: Stimuleren vrij lezen, Verhaalfragmenten aanbieden/promopraatjes Nieuw Nederlands Hoofdstuk: Spreken en Gesprekken blz.

Nadere informatie

π (spreek uit uiltje ): hulpwerkwoorden of modale hulpwerkwoorden 46

π (spreek uit uiltje ): hulpwerkwoorden of modale hulpwerkwoorden 46 Inhoud Inleiding 6 1 Wie? (mensen) Wat? (dieren en dingen) 10 π Het zelfstandig naamwoord (man, vrouw, Jan) 12 π Het zelfstandig naamwoord, meervoud (lepels, bloemen) 13 π Het zelfstandig naamwoord, verkleinwoord

Nadere informatie

instapkaarten taal verkennen

instapkaarten taal verkennen -b fl41..- 1 rair î ; : ; - / 0 t- t-, 9 S QURrz 71 1 t 5KM 1o r MALNBERG St 4) 4 instapkaarten ji - S 1,1 1 thema 5 1 les 2 S S S - -- t. Je leert hoe je van het hele werkwoord een voltooid deelwoord

Nadere informatie

Toets grammaticale termen met sleutel

Toets grammaticale termen met sleutel Schrijf Vaardig 1, 2 en 3 Methode met grammaticale opbouw voor anderstaligen Toets grammaticale termen met sleutel Marilene Gathier u i t g e v e r ij c o u t i n h o c bussum 2012 Deze toets hoort bij

Nadere informatie

Inhoud. 1 Spelling 10

Inhoud. 1 Spelling 10 Inhoud 1 Spelling 10 1 geschiedenis van de friese spelling (stavering) in het kort 10 2 spellingregels 12 Hulpmiddelen 12 Klinkers en medeklinkers 12 Lettergrepen 13 Stemhebbend en stemloos 13 Basisregels

Nadere informatie

Programma van Inhoud en Toetsing (PIT)

Programma van Inhoud en Toetsing (PIT) Lesperiode: 1 week 36 t/m week 38 Hoofdstuk: Spelling 2 t/m 6 De stam van het werkwoord Splitsbare werkwoorden Persoonsvorm tegenwoordige tijd en de bijbehorende regel De stam van werkwoorden kunnen noteren

Nadere informatie

Het Muiswerkprogramma Basisgrammatica bestrijkt de grammatica die nodig is voor het leren van de Nederlandse spelling en zinsbouw.

Het Muiswerkprogramma Basisgrammatica bestrijkt de grammatica die nodig is voor het leren van de Nederlandse spelling en zinsbouw. Basisgrammatica Het Muiswerkprogramma Basisgrammatica bestrijkt de grammatica die nodig is voor het leren van de Nederlandse spelling en zinsbouw. Doelgroepen Basisgrammatica Het computerprogramma Basisgrammatica

Nadere informatie

De kleine Nederlands voor Dummies. Margreet Kwakernaak

De kleine Nederlands voor Dummies. Margreet Kwakernaak De kleine Nederlands voor Dummies Margreet Kwakernaak Amersfoort, 2016 Inhoud Inleiding.............................................................. 9 Hoofdstuk 1: Zinsdelen een naam geven: redekundig

Nadere informatie

Combinaties. Stof bij dit college

Combinaties. Stof bij dit college Combinaties Taal maakt combinaties op verschillende niveaus: Fonemen combineren tot morfemen (creëren van betekenis) Morfemen combineren tot woorden (complexe betekenissen) Woorden combineren tot woordgroepen,

Nadere informatie

Programma van Inhoud en Toetsing (PIT)

Programma van Inhoud en Toetsing (PIT) Vak: Nederlands Programma van Inhoud en Toetsing (PIT) 2016-2017 Lesperiode: 1 Hoofdstuk: Spelling 2 t/m 6 De stam van het werkwoord Splitsbare werkwoorden Persoonsvorm tegenwoordige tijd en de bijbehorende

Nadere informatie

DE SAMENGESTELDE ZIN ONDERWERPSZIN. ( Wie niet sterk is ),( moet ) [ slim ] { zijn }.

DE SAMENGESTELDE ZIN ONDERWERPSZIN. ( Wie niet sterk is ),( moet ) [ slim ] { zijn }. 1 DE SAMENGESTELDE ZIN Voordat een zin als samengestelde zin ontleed kan worden, moet hij eerst als enkelvoudige zin ontleed zijn, d.w.z. in een zin met maar één persoonsvorm ( en andere zinsdelen). Een

Nadere informatie

Zinnen 1. Henriëtte de Swart

Zinnen 1. Henriëtte de Swart Zinnen 1 Henriëtte de Swart Combinaties Taal maakt combinaties op verschillende niveaus: Fonemen combineren tot morfemen (creëren van betekenis) Morfemen combineren tot woorden (complexe betekenissen)

Nadere informatie

Programma van Inhoud en Toetsing (PIT)

Programma van Inhoud en Toetsing (PIT) Schooljaar 2015 2016 Nederlands havo vwo 1 Lesperiode: 1 week 36 t/m week 38 Hoofdstuk: Spelling H 2 t/m 6 De stam van het werkwoord Splitsbare werkwoorden Persoonsvorm tegenwoordige tijd en de bijbehorende

Nadere informatie

Transparency in Language: A Typological Study S.C. Leufkens

Transparency in Language: A Typological Study S.C. Leufkens Transparency in Language: A Typological Study S.C. Leufkens Transparency in language. A typological study Sterre Leufkens Een taal kun je zien als een verzameling vormen (woorden, zinnen, klanken, regels),

Nadere informatie

Online cursus spelling en grammatica

Online cursus spelling en grammatica Handleiding Online cursus spelling en grammatica Het hoofdmenu In het hoofdmenu kun je links op een niveau klikken. Daarnaast zie je een overzicht van de modules die bij dit niveau horen. Modules Rechts

Nadere informatie

Eigen vaardigheid Taal

Eigen vaardigheid Taal Eigen vaardigheid Taal Door middel van het beantwoorden van de vragen in dit blok heeft u inzicht gekregen in uw kennis en vaardigheden van de grammatica en spelling van de Nederlandse taal. In het overzicht

Nadere informatie

2. Syntaxis en semantiek

2. Syntaxis en semantiek 2. Syntaxis en semantiek In dit hoofdstuk worden de begrippen syntaxis en semantiek behandeld. Verder gaan we in op de fouten die hierin gemaakt kunnen worden en waarom dit in de algoritmiek zo desastreus

Nadere informatie

Programma van Inhoud en Toetsing (PIT)

Programma van Inhoud en Toetsing (PIT) 2018-2019 Klas: HV1 Lesperiode: 1 + 2 Diploma grammatica Methode: Nieuw Nederlands 5 e editie Hoofdstuk: Grammatica HF 1 t/m 6 Bladzijde: 25 t/m 30, 67 t/m 72, 109 t/m 114, 151 t/m 156, 193 t/m 198, 235

Nadere informatie

71 S. instapkaarten taal verkennen 5KM. MALtABERG. QVRre. v;rw>r t. -t.

71 S. instapkaarten taal verkennen 5KM. MALtABERG. QVRre. v;rw>r t. -t. v;rw>r t 7 S SS QVRre F9 - -t. t- L 5KM i r MALtABERG instapkaarten taal verkennen S -4 taal verkennen komt er vaak een -e achter. Taa actief. instapkaarten taal verkennen. groep 8 Maimberg s-hertogenbosch

Nadere informatie

Programma van Inhoud en Toetsing (PIT)

Programma van Inhoud en Toetsing (PIT) Vak: Nederlands, onderdeel taalportfolio Lesperiode: 1 Taalportfolio deel 1 In je taalportfolio komen 4 opdrachten die gedurende het jaar worden uitgedeeld en uitgelegd. In de eerste rapportperiode worden

Nadere informatie

Zinsontleden en woordbenoemen groep 7/8

Zinsontleden en woordbenoemen groep 7/8 Zinsontleden en woordbenoemen groep 7/8 Naam: 1 Inhoudsopgave: 3 - Onderwerp 4 - Persoonsvorm 5 - Gezegde 6 - Lijdend voorwerp 7 - Meewerkend voorwerp 8 - Werkwoorden 8 - Zelfstandig naamwoorden 9 - Bijvoeglijk

Nadere informatie

Woordsoorten. De woorden in een zin kunnen in een bepaalde groep worden ingedeeld. De woordsoort geeft aan tot welke groep een woord behoort.

Woordsoorten. De woorden in een zin kunnen in een bepaalde groep worden ingedeeld. De woordsoort geeft aan tot welke groep een woord behoort. Woordsoorten De woorden in een zin kunnen in een bepaalde groep worden ingedeeld. De woordsoort geeft aan tot welke groep een woord behoort. Woord Uitleg Voorbeeld Werkwoord Lidwoord Zelfstandig Bijvoeglijk

Nadere informatie

Extra opdrachten met het zinsbouwpakket. Bijlage bij het Basisboek syntaxis

Extra opdrachten met het zinsbouwpakket. Bijlage bij het Basisboek syntaxis Extra opdrachten met het zinsbouwpakket Bijlage bij het Basisboek syntaxis 1 Hoofdstuk 1: 1. De volgende opdrachten kun je alleen uitvoeren als je het zinsbouwpakket hebt. a. Zoek het puzzelstukje 'wolf'

Nadere informatie

Niveauproef voor Nederlands in ASO 3 de graad

Niveauproef voor Nederlands in ASO 3 de graad Niveauproef voor Nederlands in ASO 3 de graad Waarom? Voor Nederlands zijn er 3 modules van elk 4 uur per week. De uren worden aansluitend gegeven, het gaat dus om een volledige namiddag. De vaardigheden

Nadere informatie

Programma van Inhoud en Toetsing (PIT)

Programma van Inhoud en Toetsing (PIT) Het programma van deze PIT wordt gedurende het schooljaar aangepast aan het tempo en het niveau van de klas. Vak: Nederlands, onderdeel taalportfolio Klas: IG1 - EBR Lesperiode: 1 en 2 Taalportfolio opdracht

Nadere informatie

π (spreek uit uiltje ): hulpwerkwoorden of modale hulpwerkwoorden 46

π (spreek uit uiltje ): hulpwerkwoorden of modale hulpwerkwoorden 46 Inhoud Inleiding 6 1 Wie? (mensen) Wat? (dieren en dingen) 10 π Het zelfstandig naamwoord (man, vrouw, Jan) 12 π Het zelfstandig naamwoord, meervoud (lepels, bloemen) 13 π Het zelfstandig naamwoord, verkleinwoord

Nadere informatie

Cover Page. The handle holds various files of this Leiden University dissertation.

Cover Page. The handle   holds various files of this Leiden University dissertation. Cover Page The handle http://hdl.handle.net/1887/40632 holds various files of this Leiden University dissertation. Author: Meelen, M. Title: Why Jesus and Job spoke bad Welsh : the origin and distribution

Nadere informatie

Programma van Inhoud en Toetsing (PIT)

Programma van Inhoud en Toetsing (PIT) Vak: Nederlands, onderdeel taalportfolio /HV Lesperiode: 1 Taalportfolio deel 1 In je taalportfolio komen 4 opdrachten die gedurende het jaar worden uitgedeeld en uitgelegd. In de eerste rapportperiode

Nadere informatie

Programma van Inhoud en Toetsing (PIT)

Programma van Inhoud en Toetsing (PIT) Week 1 t/m week 12 Nieuw Nederlands. 3 vwo. 5 e editie Onderdeel Grammatica Zinsdelen en Grammatica Woordsoorten 1 en 2 2 uur per week Additionele methode: Klare taal plus Weten wat de volgende begrippen

Nadere informatie

Basisgrammatica. Doelgroep Basisgrammatica

Basisgrammatica. Doelgroep Basisgrammatica Basisgrammatica In Muiswerk Basisgrammatica wordt aandacht besteed aan de drie belangrijkste woordsoorten die de traditionele grammatica onderscheidt. Verder komen de eerste beginselen van zinsontleding

Nadere informatie

Iets wat alleen een mens kan. Geheel Deel Mensen Persoon Voorwerp Inhoud Product uitstreek product

Iets wat alleen een mens kan. Geheel Deel Mensen Persoon Voorwerp Inhoud Product uitstreek product Samenvatting door Sam 813 woorden 2 maart 2016 6,8 21 keer beoordeeld Vak Methode Nederlands Nieuw Nederlands Lezen Tekststructuren: Voor/nadelenstructuur Verleden/heden(/toekomst)structuur Aspectenstructuur

Nadere informatie

Samenvatting Nederlands Formuleren

Samenvatting Nederlands Formuleren Samenvatting Nederlands Formuleren Samenvatting door Luca 1052 woorden 28 maart 2016 8,2 1 keer beoordeeld Vak Methode Nederlands Nieuw Nederlands Dubbelop Onjuiste herhaling; Tautologie; Pleonasme; Contaminatie;

Nadere informatie

PIT HAVO-2 +HAVO/VWO Onderdeel: Spelling H1 en H2 Algemene informatie: Wat moet je kennen: Wat moet je kunnen: Toetsing:

PIT HAVO-2 +HAVO/VWO Onderdeel: Spelling H1 en H2 Algemene informatie: Wat moet je kennen: Wat moet je kunnen: Toetsing: PIT HAVO-2 +HAVO/VWO-2 2016-2017 Vak: Nederlands Onderdeel: Spelling H1 en H2 Lesperiode: 1 Aantal lessen per week: 4 Hoofdstuk: 1 en 2 Extra materiaal: Nieuw Nederlands Online De leerling kent de volgende

Nadere informatie

Toets: Lees vaardig Blok 1+2 en Nieuwsbegrip

Toets: Lees vaardig Blok 1+2 en Nieuwsbegrip JAAROVERZICHT NEDERLANDS H3 Omschrijving lesstof per week Blok 1 Wk1. Spreken informatieve tekst/ artikel oefenen Begin Lees vaardig blok 1+2 Toetsper. 1 week 39 Toets: Lees vaardig Blok 1+2 en Nieuwsbegrip

Nadere informatie

Onderdeel: Grammatica zinsdelen Algemene informatie: Wat moet je kennen: Wat moet je kunnen: Toetsing:

Onderdeel: Grammatica zinsdelen Algemene informatie: Wat moet je kennen: Wat moet je kunnen: Toetsing: Onderdeel: Grammatica zinsdelen Lesperiode: 2 1, 2 en 5 Extra materiaal: PowerPoint Stappenplan zinsdelen op blz. 268 t/m 270 zinsdelen: Onderwerp Werkwoordelijk- en naamwoordelijk gezegde Lijdend voorwerp

Nadere informatie

Natuurlijke Taalverwerking I shift-reduce en chart parsing

Natuurlijke Taalverwerking I shift-reduce en chart parsing Natuurlijke Taalverwerking I shift-reduce en chart parsing Gosse Bouma en Geert Kloosterman 2e semester 2005/2006 Shift-reduce conflicten Epsilon-regels Breadth-first zoeken Gebruik van een chart Toepassing:

Nadere informatie

Een voorbeeldopgave: Ik geef de hond te eten. Wat is de? Een werkwoord, een lidwoord, een zelfstandig

Een voorbeeldopgave: Ik geef de hond te eten. Wat is de? Een werkwoord, een lidwoord, een zelfstandig Bij alle spellen in Taalzee moeten de opgaven binnen een bepaalde tijd opgelost worden. Bij de meeste spellen is dat 20 seconden. Alle spellen bevatten opgaven die variëren van heel makkelijk tot heel

Nadere informatie

Programma van Inhoud en Toetsing (PIT)

Programma van Inhoud en Toetsing (PIT) Fictie Klas: MH-1 Lesperiode:1 Taalportfolio In je taalportfolio komen 5 opdrachten die gedurende het jaar worden uitgedeeld en uitgelegd. In de eerste rapportperiode worden de eerste 3 opdrachten beoordeeld

Nadere informatie

Programma van Inhoud en Toetsing (PIT)

Programma van Inhoud en Toetsing (PIT) Trimester 1 2015-2016 Week 1 t/m week 6 Piet de Kleijn (2005) Alexander. Leerboek uitbreiding Nederlandse woordenschat voor anderstaligen. Amsterdam: Rosenburg Publishers De woorden van Hoofdstuk 1 en

Nadere informatie

Samenvatting Nederlands Module 9

Samenvatting Nederlands Module 9 Samenvatting Nederlands Module 9 Samenvatting door een scholier 1519 woorden 26 juni 2004 7,5 55 keer beoordeeld Vak Methode Nederlands Kiliaan Module 9: A3 Tekstsoorten A4 Structuur van de boodschap C4

Nadere informatie

TAALVERZORGING KGT 2 SPORTIEF PERRON 1

TAALVERZORGING KGT 2 SPORTIEF PERRON 1 Sportief! TAALVERZORGING KGT SPORTIEF PERRON Je zit alweer in het tweede jaar van het vmbo. Vorig jaar heb je veel geleerd bij het onderdeel Taalverzorging, maar misschien ben je ook wel iets vergeten.

Nadere informatie

Wat is een corpus en waarvoor wordt het gebruikt?

Wat is een corpus en waarvoor wordt het gebruikt? Wat is een corpus en waarvoor wordt het gebruikt? Een corpus is een verzameling teksten of getranscribeerde geproken taal met een samenstelling en proportionering van teksttypen die geschikt is voor een

Nadere informatie

Samenvatting Nederlands Redekundig ontleden

Samenvatting Nederlands Redekundig ontleden Samenvatting Nederlands Redekundig ontleden Samenvatting door Bernard 1165 woorden 29 januari 2015 6,8 14 keer beoordeeld Vak Nederlands Redekundig ontleden Allereerst, wat is redekundig ontleden? Redekundig

Nadere informatie

Onderdeel: Grammatica -- RKW Algemene informatie: Wat moet je kennen: Wat moet je kunnen: Toetsing:

Onderdeel: Grammatica -- RKW Algemene informatie: Wat moet je kennen: Wat moet je kunnen: Toetsing: PIT IG3 2017-2018 Trimester 2 Vak: Nederlands Onderdeel: Grammatica -- RKW Woordsoorten Week 13 t/m 24 Aantal lessen per week: 3 Nieuw Nederlands 5 e editie 1, 2 en 3 De leerling kent de onderstaande woordsoorten:

Nadere informatie

Hiermee wijs je een speciaal iemand of iets aan. Je begint met de ene zinsstructuur en maakt de zin af in een andere zinsstructuur.

Hiermee wijs je een speciaal iemand of iets aan. Je begint met de ene zinsstructuur en maakt de zin af in een andere zinsstructuur. Kernwoordenlijst Kernwoord Uitleg Voorbeeld Aanwijzend Achtervoegsel Afleiding Anakoloet (ontspoorde zin) Beknopte bijzin Bepaling van gesteldheid Betrekkelijk Bezittelijk Bijstelling Bijvoeglijk naamwoord

Nadere informatie

1. Van taal naar taalwetenschap

1. Van taal naar taalwetenschap 1. Van taal naar taalwetenschap Opdracht 1.1 Vraag: Ga voor jezelf na hoe de verkleinwoorden van Nederlandse zelfstandige naamwoorden worden gevormd (dus: huis huisje, enzovoorts) en probeer zo de onbewuste,

Nadere informatie

In dit boekje staan verschillende mogelijkheden om iets op te lossen.

In dit boekje staan verschillende mogelijkheden om iets op te lossen. In dit boekje staan verschillende mogelijkheden om iets op te lossen. Mochten er aanvullingen zijn, kunt u altijd een e-mail sturen naar info@obs-delandweert.nl. ONTLEDEN Taalkundig ontleden. benoem de

Nadere informatie

Nederlandse Samenvatting

Nederlandse Samenvatting Nederlandse Samenvatting Agrammatische Broca-afasie wordt meestal veroorzaakt door een hersenbeschadiging in (de omgeving) van het gebied van Broca (Brodmann s areas 44 en 45). Hierdoor krijgt de patiënt

Nadere informatie

6.2. Boekverslag door C. 727 woorden 17 mei keer beoordeeld. Nederlands. Paragraaf 1. Dubbel op. Onjuiste herhaling

6.2. Boekverslag door C. 727 woorden 17 mei keer beoordeeld. Nederlands. Paragraaf 1. Dubbel op. Onjuiste herhaling Boekverslag door C. 727 woorden 17 mei 2016 6.2 3 keer beoordeeld Vak Methode Nederlands Nieuw Nederlands Nederlands Paragraaf 1 Dubbel op Onjuiste herhaling 2x een voorzetsel wordt gebruikt, maar 1 overbodig

Nadere informatie

* Mijn vader vindt dat je aan make-up niet te veel geld aan moet uitgeven.

* Mijn vader vindt dat je aan make-up niet te veel geld aan moet uitgeven. 1.8 Nederlands formuleren Als je zuiver Nederlands schrijft, moet je net als een verzorgde spelling een verzorgde zinsbouw gebruiken. Veel voorkomende fouten moet je daarbij vermijden. Deze fouten vind

Nadere informatie

Natuurlijke-Taalverwerking I

Natuurlijke-Taalverwerking I 1 atuurlijke-taalverwerking I Gosse Bouma en Geert Kloosterman (pract) 2e semester 2005/2006 Overzicht Week1 : Inleiding, Context-vrije grammatica. Week 2-3 : Definite Clause Grammar Regels, gebruik van

Nadere informatie

Programma van Inhoud en Toetsing (PIT)

Programma van Inhoud en Toetsing (PIT) Programma van Inhoud en Toetsing (PIT) 2015-2016 Lesperiode: 1 week 36 t/m week 38 Hoofdstuk: Spelling 2 t/m 6 De stam van het werkwoord Splitsbare werkwoorden Persoonsvorm tegenwoordige tijd en de bijbehorende

Nadere informatie

LTX016B05. Nieuwe ontwikkelingen in de syntaxis. College 4

LTX016B05. Nieuwe ontwikkelingen in de syntaxis. College 4 LTX016B05 Nieuwe ontwikkelingen in de syntaxis College 4 2/111 Vandaag: eerste college Regeer- en Bindtheorie (1/6) 3/111 Vandaag:! inhoudelijk gedeelte (een paar onderdelen van de theorie)! theoretisch

Nadere informatie

Muiswerk Grammatica I-III is bedoeld om anderstaligen te leren hoe het Nederlands in elkaar zit.

Muiswerk Grammatica I-III is bedoeld om anderstaligen te leren hoe het Nederlands in elkaar zit. Grammatica I-III NT2 Muiswerk Grammatica I-III is bedoeld om anderstaligen te leren hoe het Nederlands in elkaar zit. Doelgroepen Grammatica I-III NT2 Grammatica I-III nt2 is bedoeld voor anderstalige

Nadere informatie