Hoofdklemtoon op Nederlandse woorden bepalen met behulp van Transformation-Based Learning. Karen Keune s k keune@yahoo.com

Transcriptie

1 Hoofdklemtoon op Nederlandse woorden bepalen met behulp van Transformation-Based Learning Afstudeerscriptie Informatiekunde Karen Keune s k keune@yahoo.com Scriptiebegeleider en eerste lezer: Gosse Bouma Tweede lezer: Tamás Bíró Informatiekunde Rijksuniversiteit Groningen 27 november 2003

2 2

3 Inhoudsopgave 1 Inleiding Klemtoon op woorden Waarvoor het automatisch bepalen van klemtoon belangrijk is Wat text-to-speech is Beperkt of onbeperkt aantal woorden Waarom Machine Learning gebruikt wordt Transformation-Based Learning Waarom TBL wordt gebruikt Hoe TBL werkt fntbl Baseline-systeem op basis van taalkundige regels Inleiding Taalkundige regels voor klemtoon Major- en minorgeneralistaties Gewicht van de lettergreep Taalkundige eigenschappen automatisch bepalen Data Verdeling train en test data Taalkundige eigenschappen in inputfile TBL Klemtoon bepalen m.b.v. taalkundige regels Major-minor methode Alternatieve methode Conclusie klemtoon bepalen m.b.v. taalkundige regels Uiteindelijke input voor TBL Automatisch klemtoon bepalen met TBL Inleiding Benodigde files voor het runnen van TBL Templates Testrules Trainen en testen met TBL Velden ltrgr, cv en ZL Hoeveelheid context voor ltrgr, cv en ZL Informatie eerder automatisch bepaalde klemtoon toevoegen Resultaat TBL testen op data uit testb Conclusie trainen en testen met TBL

4 4 INHOUDSOPGAVE 5 Onbeklemtoonde woorden beklemtonen m.b.v. defaultregels Inleiding Defaultregels toepassen Voorkeur voor alternatieve methode Foutenanalyse Inleiding Percentage juist beklemtoonde woorden per aantal lettergrepen Percentage woorden per lettergreep voor alle, juiste en onjuiste woorden Klemtoonplaatsing voor alle, juiste en onjuiste woorden Onjuist beklemtoonde woorden Dubbel beklemtoonde woorden Onbeklemtoonde woorden Eénmaal onjuist beklemtoonde woorden Conclusie foutenanalyse Conclusie Baseline-systeem op basis van taalkundige regels Automatisch klemtoon bepalen met TBL Onbeklemtoonde woorden beklemtonen Foutenanalyse Discussie 53

5 Hoofdstuk 1 Inleiding Spraak is een belangrijk communicatiemiddel. Wanneer mensen iets willen duidelijk maken doen ze dat vaak door te spreken. In de laatste jaren komen er steeds meer mogelijkheden om ook met sprekende computers te communiceren. Zo kun je bij het telefonisch opvragen van reistijden van de Nederlandse Spoorwegen een sprekende computer aan de lijn krijgen en kan een computer je de krant voorlezen. Wanneer gebruik gemaakt wordt van sprekende computers is het erg belangrijk dat hun spraak natuurlijk klinkt en niet als een typische robotstem. Om dit te bereiken is het toevoegen van prosodische informatie aan een tekst essentieel. Op deze manier wordt een tekst niet geheel eentonig uitgesproken, maar wordt er intonatie aan de tekst toegevoegd, waardoor deze, als dit goed gedaan wordt, vanzelf een stuk natuurlijker klinkt. Prosodische informatie moet aan elk woord apart toegevoegd worden, maar ook aan zinnen. Van elk woord wordt de ene lettergreep met meer nadruk uitgesproken dan een andere lettergreep. De klemtoon in een woord ligt voor dat woord altijd op dezelfde plaats. Of het woord nu aan het begin van de zin staat of ergens in het midden, dezelfde lettergreep zal beklemtoond worden. Bij het toevoegen van intonatie aan zinnen ligt dit anders. In de ene zin geeft een woord belangrijke informatie en moet daarom beklemtoond worden, hoewel in een andere zin hetzelfde woord juist niet beklemtoond moet worden omdat de nadruk van de zin op andere woorden ligt. Ook wordt een woord dat aan het einde van een vraagzin staat anders uitgesproken dan een woord dat aan het einde van bijvoorbeeld een uitroep staat. In dit onderzoek zal echter alleen gekeken worden naar de klemtoon die standaard op een woord ligt. Er zal worden onderzocht hoe goed het bepalen van hoofdklemtoon op willekeurige Nederlandse woorden met behulp van Transformation-based Learning werkt. In de rest van dit hoofdstuk zal dieper ingegaan worden op hoe klemtoon op woorden wordt gelegd en waarvoor het belangrijk is dat klemtoon automatisch bepaald kan worden. Ook zal worden uitgelegd waarom willekeurige woorden gebruikt worden en waarom hoofdklemtoon met behulp van Machine Learning bepaald zal worden. In het volgende hoofdstuk zal uitgelegd worden waarom er voor gekozen is om met Transformation-based Learning te werken en hoe deze methode precies werkt. 5

6 6 Hoofdstuk 1. Inleiding 1.1 Klemtoon op woorden Woorden zijn onderverdeeld in één of meerdere lettergrepen. Tijdens het spreken worden niet alle lettergrepen in een woord op dezelfde manier uitgesproken. Wanneer er klemtoon op een woord ligt, zijn de toonhoogte, duur en luidheid van de klanken in deze lettergreep anders dan wanneer er geen klemtoon op de lettergreep ligt. Bij het beklemtonen van een lettergreep, gaat de toonhoogte van de klanken uit die lettergreep omhoog, duurt de lettergreep langer en wordt de lettergreep luider uitgesproken. In een woord ligt er klemtoon op één of meerdere lettergrepen. Een woord heeft echter maar op één lettergreep hoofdklemtoon. Wanneer een woord uit één lettergreep bestaat krijgt deze lettergreep altijd hoofdklemtoon. Wat langere woorden krijgen vaak nog op een extra lettergreep klemtoon. Deze klemtoon heeft nevenklemtoon en is wat zwakker dan hoofdklemtoon. Samenstellingen krijgen ook meer dan éénmaal klemtoon. Bij samenstellingen krijgt één deel van de samenstelling hoofdklemtoon, het andere deel krijgt samenstellingsklemtoon. Deze delen van een samenstelling kunnen ieder ook nevenklemtoon krijgen. In dit onderzoek zal alleen naar de hoofdklemtoon op woorden gekeken worden. Andere soorten klemtoon worden achterwege gelaten. 1.2 Waarvoor het automatisch bepalen van klemtoon belangrijk is Het beklemtonen van woorden is een belangrijk onderdeel bij het omzetten van tekst naar spraak (text-to-speech). Wanneer woorden hierbij niet beklemtoond worden zal een tekst die uitgesproken wordt erg robotachtig klinken. Elke letter zal dan in elke lettergreep op dezelfde manier uitgesproken worden. De tekst klinkt dan erg saai Wat text-to-speech is Text-to-speech wordt voor steeds meer doeleinden gebruikt. Het wordt onder andere gebruikt voor telecommunicatie. Hierbij kunnen er telefoongesprekken gevoerd worden met computers. Wanneer bijvoorbeeld iemand de computer een vraag stelt kan het juiste antwoord op de vraag door de computer in een database opgezocht worden en kan de computer de gevonden tekst omzetten in spraak. Voor gehandicapte mensen kan text-to-speech ook een uitkomst zijn. Mensen die moeite hebben met spreken kunnen hun tekst intikken op een toetsenbord waarna deze tekst door de computer kan worden uitgesproken. Visueel gehandicapten hebben bijvoorbeeld baat bij text-to-speech doordat ze zo geschreven teksten in spraak aangeboden krijgen. Deze teksten kunnen variëren van weerberichten tot s die de blinde wel ontvangt, maar zelf niet kan lezen Beperkt of onbeperkt aantal woorden Er is een groot verschil tussen het voorlezen van bijvoorbeeld een weerbericht of het omroepen van treininformatie op stations en het voorlezen van een krant of een . Bij de eerste twee genoemde voorbeelden, het weerbericht en de

7 1.3. Waarom Machine Learning gebruikt wordt 7 treininformatie, is er sprake van beperkt aantal woorden dat uitgesproken moet kunnen worden. Zo hoeft de computer die het weerbericht voorleest de zin: Appels zijn deze week in de aanbieding. niet te kunnen voorlezen. Doordat voor het voorlezen van het weerbericht het domein van woorden dat uitgesproken moet kunnen worden van tevoren bekend is, kunnen deze woorden één voor één door iemand uitgesproken worden en in de computer opgeslagen worden, om deze woorden wanneer ze nodig zijn te kunnen laten horen. Omdat de klemtoon al op deze woorden is geplaatst is het kunnen bepalen van klemtoon op woorden voor deze toepassingen niet nodig. In een krantenbericht of een kunnen echter alle mogelijke woorden staan. Het is onmogelijk om alle bestaande woorden in de computer op te slaan en vervolgens uit te spreken wanneer ze in een bericht voorkomen. Denk alleen al eens aan alle mogelijke samenstellingen die gemaakt kunnen worden. Wanneer bijvoorbeeld met behulp van een lexicon van 60K gekeken wordt hoeveel procent van 125M data niet in dit lexicon voorkomt, blijkt dit 3,63 procent zijn. (Ordelman, van Hessen en de Jong, 2001). Voor deze woorden is het belangrijk dat een geschreven tekst door een computer uitgesproken kan worden. Een onderdeel hiervan is dat de computer voor alle mogelijke woorden kan bepalen op welke lettergreep hoofdklemtoon komt te liggen. Om deze reden is het dan ook belangrijk dat klemtoon niet alleen voor bepaalde groepen woorden, zoals zelfstandige naamwoorden of monomorfemen, bepaald kan worden maar voor alle mogelijke woorden die in een tekst kunnen staan. Hier vallen bijvoorbeeld ook leenwoorden en samenstellingen onder. Hierom wordt er in dit hoofdstuk onderzocht hoe goed hoofdklemtoon te bepalen is voor willekeurige woorden. 1.3 Waarom Machine Learning gebruikt wordt Met behulp van taalkundige regels kan klemtoon worden bepaald. Er zijn verschillende methodes om dit te doen. Klemtoon kan bijvoorbeeld bepaald worden met behulp van parameters (Hayes, 1981) of constraints (Nouveau 1994, Gilbers 1996). Wanneer klemtoon aan de hand van parameters of constraints wordt bepaald, wordt van een universele grammatica uitgegaan. Er zijn een aantal parameters of constraints in de universele grammatica die relevant zijn voor het bepalen van klemtoon. Met behulp van deze parameters of constraints kunnen een aantal regelmatigheden in een taal gevonden worden die beschreven worden. Doordat van een aantal universele eigenschappen van een taal wordt uitgegaan wordt het vinden van regels die klemtoon juist kunnen beschrijven beperkt. Er kunnen alleen regelmatigheden gevonden worden die in overeenstemming zijn met de universele regels. Ook kunnen er alleen generalisaties gevonden worden, zodat woorden die niet aan deze generalisaties voldoen, automatisch onregelmatigheden zijn. Zo wordt ook een grote groep woorden die niet aan de regelmatigheden voldoet als onregelmatig gezien, hoewel er voor deze groep woorden misschien best weer regels zijn te vinden die verklaren waarom in deze gevallen klemtoon anders ligt. Ook wordt klemtoon met behulp van parameters of constraints bepaald met specifieke eigenschappen van een woord. Zo wordt een lettergreep bijvoorbeeld als zwaar of licht gezien of worden alle consonanten met de letter C van consonant weergegeven en niet als de klank die werkelijk beschreven staat zoals l of n. Zo kan een regel zijn: Wanneer de finale lettergreep zwaar is krijgt deze klemtoon. Hierbij wordt dan geen onderscheid

8 8 Hoofdstuk 1. Inleiding gemaakt tussen de informatie die verder in een lettergreep staat. Wanneer Machine Learning gebruikt wordt om hoofdklemtoon op woorden te bepalen hoeft er geen gebruik gemaakt te worden van parameters of constraints. Ook wordt er niet van een universele grammatica uitgegaan. Wel kunnen lettergrepen en hun taalkundige eigenschappen meegegeven worden aan de input van het programma en met deze informatie kunnen automatisch regels voor klemtoon gevonden worden. Hiermee kunnen veel regels gevonden worden die de regelmatigheden van het Nederlandse klemtoonpatroon beschrijven, die met parameters of constraints niet beschreven kunnen worden doordat er hierbij met de al vooraf bepaalde regels veel mogelijke regels worden uitgesloten. Er kan bij Machine Learning naar meerdere eigenschappen van een lettergreep worden gekeken. Zo kan worden meegenomen uit welke fonemen de lettergreep bestaat of dat een lettergreep zwaar of licht is. Ook zijn woorden niet regelmatig of onregelmatig. Wanneer een regel ervoor zorgt dat veel woorden juist beklemtoond worden, maar ook een aantal woorden hierdoor onjuist beklemtoond worden, kan er altijd nog een volgende regel gezocht worden die weer regelmatigheden in deze groep woorden vindt. Omdat klemtoonbepaling op Nederlandse woorden zeer complex is, is het erg moeilijk om een taalkundige beschrijving te maken die hoofdklemtoon aan willekeurige woorden toewijst. Doordat voor het Nederlands hoofdklemtoon het meest voorspelbaar is voor zelfstandige naamwoorden, wordt er vaak alleen bepaald hoe klemtoon aan deze groep woorden kan worden toegewezen (Booij 1995, Kager 1989). Andere soorten woorden hebben een minder duidelijk regelmatig patroon en zijn daardoor stukken moeilijker te beklemtonen met parameters of constraints. Er is onderzoek gedaan naar het beklemtonen van Nederlandse monomorfemen met behulp van Instance-based Learning (Daelemans, Gillis en Durieux, 1994a). Instance-based Learning is een vorm van Machine Learning waarbij niet uitgegaan wordt van een universele grammatica die het vinden van regels kan beperken. De resultaten van dit onderzoek zijn erg goed. Op bijna 90 procent van de woorden wordt de hoofdklemtoon juist gelegd. Ook het onderzoek van Busser (1998) waarbij willekeurige woorden beklemtoond worden met IGTree (Daelemans, van den Bosch en Weijers, 1997), een Machine Learning methode die in grote mate overeenkomt met Memory-based Learning, wordt een hoog percentage woorden, 87,8 procent, juist beklemtoond. Doordat bij het toekennen van klemtoon fonemen gebruikt worden die automatisch van grafemen naar fonemen omgezet zijn, zullen een aantal fonemen onjuist zijn. Wanneer alle fonemen, net als bij dit onderzoek, juist zouden zijn, zou het percentage juist beklemtoonde woorden waarschijnlijk iets hoger liggen. Ook dit onderzoek van Busser geeft erg goede resultaten. Om bovenstaande redenen is ervoor gekozen om juist met Machine Learning hoofdklemtoon op willekeurige Nederlandse woorden te bepalen. Hiervoor zal de methode Transformation-based Learning gebruikt worden. In het volgende hoofdstuk zal uitgelegd worden waarom voor deze methode gekozen is en hoe de methode werkt.

9 Hoofdstuk 2 Transformation-Based Learning Transformation-based Learning (TBL) werd in 1992 door Eric Brill geïntroduceerd. In 1995 schreef Brill een artikel waarin hij uitgebreid uitlegt wat TBL is (Brill, 1995). Dit artikel geeft goed de basis van TBL weer. In dit hoofdstuk zal worden uitgelegd waarom er in dit onderzoek gebruik wordt gemaakt van TBL en hoe TBL precies werkt. 2.1 Waarom TBL wordt gebruikt Er is om verschillende redenen gekozen voor het werken met TBL in dit onderzoek. Een goede reden is dat TBL geschikt is voor het oplossen van taalkundige problemen. Dit is onder andere gedaan voor part-of-speech tagging (Brill 1992 en 1994), syntactic parsing (Brill 1993), prepositional phrase attachment disambiguation (Brill en Resnik 1994), text chunking (Ramshaw en Marcus 1995), en spelling correction (Mangu en Brill 1997). Andere redenen voor het werken met TBL zijn dat TBL gemakkelijk aan te passen is voor andere taalkundige problemen, dat de output van TBL goed te begrijpen is doordat TBL geen statistisch programma is waar cijfers uit rollen, maar een programma waarbij regels als output worden gegeven en dat de resultaten naar een FSA gecompileerd kunnen worden (Roche en Schabes, 1995) waardoor deze efficiënt gebruikt worden. 2.2 Hoe TBL werkt Aangezien TBL in dit onderzoek wordt gebruikt om hoofdklemtoon aan woorden toe te kennen, zal de werking van TBL aan de hand van dit probleem worden uitgelegd. Om met TBL te werken is een dataset nodig waarmee gewerkt kan worden. Dit kan een bijvoorbeeld een set zinnen of een set woorden zijn. Aangezien er bij klemtoontoekenning op woorden geen rekening wordt gehouden met de context van het woord is voor dit onderzoek een set woorden nodig. 9

10 10 Hoofdstuk 2. Transformation-Based Learning Vervolgens moet de dataset geannoteerd worden. Dit kan heel simpel gedaan worden door de tag die waarschijnlijk het meest voor zal komen in de dataset aan ieder stukje data toe te kennen of door een aantal mogelijke tags random toe te kennen aan ieder stukje data uit de dataset. Dit kan in sommige gevallen ook al iets nauwkeuriger gedaan worden door bijvoorbeeld handmatig een programma te schrijven dat om gegronde redenen tags toekent aan de data uit de dataset. Hiervoor is ook gekozen bij het maken van de baseline voor dit onderzoek. Aan elke lettergreep uit een woord zal worden toegevoegd of deze lettergreep volgens een aantal taalkundige regels wel of geen klemtoon zou moeten krijgen. Hoe dit precies is gedaan staat beschreven in het volgende hoofdstuk. Het is mogelijk om verschillende kenmerken van een lettergreep aan de baseline voor het trainprogramma mee te geven. Zo kan bijvoorbeeld de lettergreep in fonemen geschreven meegegeven worden, maar kan ook nog abstracte informatie meegegeven worden, die bijvoorbeeld het gewicht van een lettergreep geeft. Ook moet bekend zijn wat de juiste tag is die bij elk stukje data hoort. Hiervoor kan de data die gebruikt wordt handmatig getagd worden of kan al bestaande informatie gebruikt worden. Voor het corpus dat in dit onderzoek wordt gebruikt is voor elk woord al bekend op welke lettergreep klemtoon ligt. Hiervoor hoeft dus niets meer handmatig geannoteerd te worden. De data moet opgedeeld worden in trainen testdata. Door het automatisch toekennen van tags wordt een bepaald percentage woorden nog onjuist beklemtoond. Door nu regels te leren die toegepast kunnen worden op de data waarin fouten zitten, en deze fouten te verbeteren wordt het percentage onjuist beklemtoonde woorden steeds kleiner. Dit verbeteren van de geannoteerde data gebeurt in de learner. Voordat dit gedaan kan worden moet de learner weten met welke gegevens uit de input data er rekening gehouden moet worden bij het verbeteren van de geannoteerde data. Hiervoor worden templates gebruikt die door de gebruiker zelf moeten worden meegegeven. Deze templates beschrijven de transformaties die mogelijk zijn om de output beter op de waarheid te laten lijken. Een template kan bijvoorbeeld aangeven dat er naar de lettergreep zelf en naar de voorafgaande lettergreep moet worden gekeken. Ook wordt in een template aangegeven welke data aangepast kan worden. In dit geval dus de handmatig geannoteerde tekst. Aan de hand van templates kan de learner dan transformaties uitvoeren. Een transformatie bestaat uit twee componenten. Een herschrijfregel en de omgeving waar de regel betrekking op heeft. Een mogelijke herschrijfregel is: Verander de tag van 0 naar 1. Voor klemtoontoekenning zou dit bijvoorbeeld betekenen dat een lettergreep die geen klemtoon krijgt (0), wel klemtoon moet krijgen (1). De beschrijving van de omgeving waar de regel betrekking op heeft kan dan zijn: De voorafgaande lettergreep is licht. Deze transformatie zorgt er dus voor dat alle lettergrepen die voorafgegaan worden door een lichte lettergreep en geen klemtoon krijgen, beklemtoond worden. Gedurende het trainen met de learner wordt steeds de transformatie gevonden die de beste score oplevert. Een transformatie kan onjuiste tags juist maken

11 2.3. fntbl 11 maar ook juiste tags onjuist maken. De score is nu het aantal tags dat juist getransformeerd wordt min het aantal tags dat onjuist getransformeerd wordt. Elke keer nadat de transformatie met de beste score gevonden wordt, wordt deze toegepast op het geannoteerde corpus waarmee getraind wordt. Op basis van het verbeterde corpus wordt opnieuw de regel gevonden met de beste score. Het leren gaat door totdat er geen transformaties meer gevonden kunnen worden waarvan de toepassing een positief effect heeft op de verbetering van het geannoteerde corpus. De eerste transformaties die worden gevonden zullen erg algemene regels zijn die voor heel veel woorden gelden. Ook zullen er door deze regels heel wat woorden fout verbeterd worden. Gedurende het trainen zullen er steeds specifiekere regels gevonden worden die vaak de fouten die in het begin veroorzaakt zijn, door de algemene regels, weer verbeteren. Het aantal regels dat gevonden wordt hangt af van de templates die gegeven wordt en van de grootte van het traincorpus. Om tot de best mogelijke resultaten voor een bepaald probleem te komen kan het nuttig zijn om meerdere keren te trainen waarbij er elke keer gebruikt wordt gemaakt van een andere set templates. Zo kan bekeken worden welke informatie uit de inputdata het meest geschikt is om mee te trainen. Na het trainen kan er getest worden met de testdata. Dit is het deel van het gebruikte corpus waarmee niet getraind is. Zo wordt bekend hoeveel procent van de data juist geannoteerd wordt door de regels die gevonden zijn tijdens het leren. In het geval waarin hoofdklemtoon aan woorden toegekend wordt, kan nu berekend worden hoeveel procent van de woorden na het leren juist beklemtoond is. 2.3 fntbl Voor dit onderzoek is de versie fntbl 1, gemaakt door Radu Florian en Grace Ngai (2001) gebruikt. De reden hiervoor is dat deze versie sneller werk dan de tagger van Brill. Met Brills tagger worden de regels die toegepast kunnen worden na elke transformatie helemaal opnieuw berekend. De regels die verbeteringen geven worden gegenereerd en er wordt vervolgens voor de regel die de meeste verbeteringen geeft (good counts) uitgerekend hoeveel verslechteringen (bad counts) deze regel geeft. Dit wordt herhaald voor de regel die na deze regel het best is en dit gaat zo door totdat er geen regels meer zijn die in totaal een betere score kunnen halen dan de beste score die tot dan toe berekend is. Dit heeft dus als voordeel dat niet voor alle mogelijke regels de bad counts berekend hoeven worden. Het nadeel is echter dat deze methode steeds langzamer werkt naarmate de score van de beste regel afneemt. fntbl is een versie van TBL die sneller werkt doordat het algoritme dat hiervoor gebruikt wordt voor een regel zowel de good counts als de bad counts onthoudt. Deze counts worden opgeslagen en herberekend wanneer nodig, wanneer een nieuw geselecteerde regel aan het corpus toegevoegd wordt. Het voordeel hiervan is dat alleen de scores van regels die mogelijk veranderen herberekend hoeven te worden wanneer een regel toegepast moet worden op het train corpus. Wanneer de regel: 1 rflorian/fntbl/tbl-toolkit/tbl-toolkit.html

12 12 Hoofdstuk 2. Transformation-Based Learning Beklemtoon een lettergreep die onbeklemtoond is, wanneer deze lettergreep zwaar is. toegepast wordt op het corpus en de regel: Haal de klemtoon van een lettergreep af, wanneer deze lettergreep superlicht is. een andere mogelijke regel is waarvan de score berekend is, dan hoeft de score van deze regel niet aangepast te worden omdat de eerste regel geen mogelijke veranderingen meebrengt voor de tweede regel. Een lettergreep kan namelijk niet zwaar en superlicht zijn. Deze methode kan tot vier zo snel werken als Brills methode (Radu Florian en Grace Ngai, 2001).

13 Hoofdstuk 3 Baseline-systeem op basis van taalkundige regels 3.1 Inleiding Wanneer er met behulp taalkundige regels klemtoon bepaald wordt, is het belangrijk niet alleen naar het woord te kijken zoals dat normaliter geschreven wordt, maar ook naar expliciete taalkundige informatie uit dat woord. Zo kan er naar een lettergreep die omgezet is in fonemen gekeken worden, maar kan er ook een kenmerk zijn, van een gehele lettergreep, dat belangrijk is voor de bepaling van klemtoon, dat daarom als zodanig bekeken wordt. Om met behulp van taalkundige regels automatisch klemtoon toe te kennen is het noodzakelijk dat de taalkundige informatie die hiervoor nodig is, automatisch bepaald kan worden. In dit hoofdstuk worden eerst een aantal taalkundige features besproken die van belang zijn bij het bepalen van klemtoon op een woord. Deze features worden vervolgens automatisch bepaald met fonologische informatie uit Celex 1, ontwikkeld door het Max-Planck-Instituut te Nijmegen, en worden in de input voor TBL gezet. Om hierna klemtoon aan de woorden toe te kennen worden taalkundige regels gebruikt waarmee automatisch klemtoon wordt toegekend. De taalkundige regels waarmee klemtoon bepaald is worden geëvalueerd met behulp van informatie waaruit blijkt welke lettergrepen echt beklemtoond zijn. Zo kan namelijk bepaald worden welk percentage woorden door de taalkundige regels juist beklemtoond is. Ook wordt aan de input voor TBL toegevoegd welke lettergrepen volgens deze regels beklemtoond zijn. Als laatste wordt in de input voor TBL gezet welke lettergrepen echt beklemtoond zijn. In het volgende hoofdstuk kan met deze file getraind en getest worden. 3.2 Taalkundige regels voor klemtoon Klemtoon wordt toegekend aan een lettergreep uit een woord. Aan de hand van de positie van een lettergreep in een woord en aan de hand van verschillende taalkundige features die deze lettergrepen bevatten, worden regels gemaakt die

14 14 Hoofdstuk 3. Baseline-systeem op basis van taalkundige regels klemtoon toekennen. Er is niet één manier waarop deze features gebruikt moeten worden. De verschillende features helpen allemaal bij het bepalen van klemtoon. Er zijn door taalkundigen meerdere methodes geschreven om klemtoon aan een woord toe te voegen. Wanneer een woord in lettergrepen verdeeld is en elke lettergreep in fonemen geschreven is, bevat deze lettergreep heel veel verschillende informatie. Met behulp van taalkundige informatie die explicieter is, is het makkelijker en sneller om klemtoon toe te kennen. Om deze reden worden hieronder een aantal nuttige features van lettergrepen gegeven die kunnen helpen bij het bepalen van klemtoon Major- en minorgeneralistaties Kager (1989) gebruikt verschillende kenmerken van een woord om hoofdklemtoon voor het Nederlands te bepalen. Ten eerste moet het woord in lettergrepen verdeeld zijn. Dit is nodig omdat klemtoon op een lettergreep valt en ook omdat Kager de positie van een lettergreep binnen een woord gebruikt, om te bepalen of er op deze lettergreep klemtoon ligt. De meest gedetailleerde informatie die Kager uit een lettergreep gebruikt zijn niet de fonemen uit die lettergreep, maar de categorie waartoe elke vocaal binnen die lettergreep behoort. De categorieën die hij gebruikt zijn medeklinker, korte klinker, lange klinker, diftong en schwa. De informatie over een lettergreep die Kager verder gebruikt is het verschil tussen open en gesloten lettergrepen en het onderscheid tussen superzware, zware, lichte, en superlichte lettergrepen. Kager verdeelt de regels onder in de belangrijkste regels major generalisaties en de iets minder belangrijke regels minor generalisaties. Deze generalisaties staan hieronder weergegeven: Majorgeneralisaties 1. Hoofdklemtoon bevindt zich nooit verder dan drie syllabes verwijderd van de rechter woordgrens 2. Hoofdklemtoon valt op de syllabe voor een syllabe die een (onderliggende) schwa als kern heeft en waarin deze schwa voorafgegaan wordt door een consonant 3. Hoofdklemtoon kan niet op de voorlaatste (antepenult) syllabe vallen, indien de voorlaatste syllabe gesloten is en een volle vocaal bevat of indien de voorlaatste syllabe een diftong bevat. Minorgeneralisaties 1. Woorden met finaal superzware (VVC of VCC) syllabes hebben finaal hoofdklemtoon (waarbij VV = lange klinker, V = korte klinker en C = medeklinker) 2. Woorden met finaal een diftong hebben finaal hoofdklemtoon 3. Woorden met finaal een gesloten syllabe met een korte vocaal hebben antepenult hoofdklemtoon; in geval van tweesyllabige woorden penult. 4. Woorden met finaal een open syllabe hebben penult hoofdklemtoon Deze regels zijn niet voor elk woord toepasbaar. Ze zijn geschreven voor een grote groep regelmatige woorden.

15 3.2. Taalkundige regels voor klemtoon Gewicht van de lettergreep In tegenstelling tot Kager gebruikt Féry (1998) alleen het gewicht van een lettergreep om klemtoon te bepalen. Zij verdeelt lettergrepen onder in de categorieën zwaar, licht en superlicht om klemtoon te bepalen. Zij doet dit voor het Duits, maar aangezien de manier van klemtoon bepalen voor het Duits veel weg heeft van de manier waarop dit voor het Nederlands gedaan kan worden, wordt haar methode in dit onderzoek ook voor het Nederlands gebruikt. Door voor elke lettergreep alleen aan te geven of deze zwaar, licht of superlicht is, wordt de informatie over het gewicht van een lettergreep expliciet gegeven. Féry deelt de lettergrepen als volgt in: zwaar: CVCC, CVVC licht: CVC, CVV, CV superlicht: Hierin voor een schwa of een syllabische sonorant. Aangezien de methode die Féry gebruikt niet alle mogelijke lettergrepen omvat die er zijn, worden er voor dit onderzoek een aantal regels toegevoegd, zodat het gewicht van elke lettergreep gegeven kan worden. Met behulp van Celex wordt bekeken wat alle mogelijke lettergrepen zijn, wanneer de vocalen uit de lettergrepen in de vijf categorieën die nodig zijn voor het bepalen van de majoren minorgeneraties, worden omgezet. Zo worden alle mogelijke weergaven van lettergrepen bestaande uit V,VV, C, vv gevonden. In deze verdeling staat vv voor een diftong. De uiteindelijke verdeling, op basis van de verdeling van Caroline Féry, komt er nu als volgt uit te zien: Zwaar Een lettergreep die eindigt op CVCC, CVVC, CvvC, VCC, VVC, vvc of CC, gevolgd door 0 of meer C s. Licht Een lettergreep die eindigt op CVV, Cvv, CVC of CV. De lettergrepen VV, vv, VC, V en C. Superlicht Een lettergreep waar een schwa in staat. Uit Féry s onderzoek blijkt onder andere dat een zware lettergreep meestal beklemtoond is en dat een superlichte lettergreep dit nooit is. Verder gebruikt ook zij de positie van de lettergreep in het woord om klemtoon te bepalen. Ook Daelemans, Gilles en Durieux (1994b) geven de regel dat een lettergreep met een schwa erin nooit klemtoon kan krijgen.

16 16 Hoofdstuk 3. Baseline-systeem op basis van taalkundige regels 3.3 Taalkundige eigenschappen automatisch bepalen Door met behulp van een script de taalkundige eigenschappen van een lettergreep te bepalen, kunnen de regels automatisch worden toegepast. Het is bovendien voor TBL belangrijk dat taalkundige eigenschappen van woorden expliciet in de inputfile komen te staan. Op deze manier is het voor TBL gemakkelijker om handig en snel features van woorden te vinden die van belang zijn bij het bepalen van klemtoon. Zo worden regels sneller gevonden en zijn er minder regels nodig om tot een goed trainresultaat te komen Data Om eigenschappen van woorden automatisch te bepalen wordt de lexicale database Celex gebruikt. De inhoud van deze file ziet er als volgt uit: 30\aal\15\ al\[a:l]\[vvc] 31\aal\13\ al\[a:l]\[vvc] 32\aalbes\18\ al-bes\[a:l][bes]\[vvc][cvc] 33\aalbessen\18\ 40\Aalders\24\\\ 41\aalelger\25\ Het vierde veld van elke regel bevat de fonologische transcriptie van het woord. Ook wordt elk woord in dit veld in lettergrepen verdeeld. Dit is precies de informatie die nodig is om de verschillende eigenschappen automatisch te bepalen. Uit deze file is de kolom gefilterd waarin de informatie staat die nodig is. De file bestaat uit woorden. Voor dit onderzoek zijn eigennamen, woorden met een spatie erin, woorden waarop twee keer klemtoon ligt en dubbele woorden uit deze file verwijderd. Er blijven nu woorden over Verdeling train en test data Om met behulp van TBL een goed programma te kunnen schrijven dat klemtoon bepaalt, is het nodig om met train en test data te werken. 80 procent van de woorden uit Celex die gebruikt worden, wordt train data. 10 procent van de woorden wordt gebruikt als test data. Deze data zal testa worden genoemd. De overige 10 procent wordt tevens gebruikt als test data, alleen worden deze woorden pas gebruikt wanneer het programma helemaal klaar is en er voor het laatst getest wordt. Er mogen met behulp van deze test data geen veranderingen meer worden aangebracht in het programma. Deze test data wordt testb genoemd. 3.4 Taalkundige eigenschappen in inputfile TBL Om nu de eigenschappen van elk woord expliciet in de inputfile te krijgen wordt elk woord opgedeeld in lettergrepen. Dit wordt gedaan door op elke regel één

17 3.5. Klemtoon bepalen m.b.v. taalkundige regels 17 lettergreep uit het woord te zetten. Na de laatste lettergreep van een woord volgt een lege regel die het woordeinde aangeeft. Na deze lege regel komt de eerste lettergreep van het volgende woord. Op deze manier wordt er per lettergreep naar een woord gekeken en kan er gezien worden op welke positie van het woord een lettergreep staat. De lettergrepen van een woord worden weergegeven in fonemen. Het veld waarin deze lettergrepen staan wordt vanaf nu ltrgr genoemd. Dit veld wordt aan de input van TBL toegevoegd om ook zeer gedetailleerde informatie uit een lettergreep te kunnen halen. Deze informatie gaat verloren wanneer de fonemen in categorieën ingedeeld worden. Om nu de expliciete informatie te geven die het systeem van Kager nodig heeft om hoofdklemtoon toe te kunnen kennen, worden alle fonemen opgedeeld in de vijf categorieën die hiervoor nodig zijn. Deze informatie komt achter de lettergreep te staan die in fonemen is weergegeven. Voor de woorden aagt, aagtappel en aagtappelen komt dit er als volgt uit te zien: axt VVCC axt VVCC A V p@l C@C axt VVCC A V p@ C@ l@ C@ Om de nu zeer algemene informatie toe te voegen die over een lettergreep alleen zegt of deze lettergreep zwaar, licht of superlicht is, wordt wederom een nieuw veld toegevoegd, genaamd ZL@. De voorlopige input komt er nu als volgt uit te zien: axt VVCC Z axt VVCC Z A V L p@l axt VVCC Z A V L p@ l@ In dit veld wordt een zware lettergreep met een Z aangegeven, een lichte lettergreep met een L en een superlichte lettergreep met 3.5 Klemtoon bepalen m.b.v. taalkundige regels Achter de velden ltrgr, cv en ZL moet een veld komen te staan dat aangeeft of er volgens taalkundige regels klemtoon op deze lettergreep valt. In dit onderzoek

18 18 Hoofdstuk 3. Baseline-systeem op basis van taalkundige regels wordt aan de hand van twee mogelijke methodes automatisch bepaald op welke lettergreep van elk woord klemtoon komt. De twee methodes staan hieronder beschreven Major-minor methode Om te bepalen of op een bepaalde lettergreep klemtoon ligt worden de eerder in dit hoofdstuk besproken majoren minorgeneralisaties van Kager (1989) toegepast. Wanneer een lettergreep volgens deze methode klemtoon krijgt, wordt er een 1 in het veld achter het veld ZL gezet, wanneer dit niet het geval is, komt er een 0 in dit veld. Dit nieuwe veld zal verder klemprob genoemd worden. Na het toevoegen van dit veld zal de voorlopige input er als volgt uit komen te zien: axt VVCC Z 1 axt VVCC Z 0 A V L 1 p@l 0 axt VVCC Z 0 A V L 1 p@ 0 l@ 0 Wanneer alleen deze regels toegevoegd worden wordt slechts 26,0 procent van de woorden juist beklemtoond. Om dit resultaat te verbeteren wordt de regel die zowel Gillis, Daelemans en Durieux als Féry voorstellen toegevoegd, die stelt dat een lettergreep met een schwa erin nooit klemtoon kan hebben. Na het toevoegen van deze regel wordt 35,0 procent van de woorden juist beklemtoond. Aangezien er nu nog veel woorden zijn die niet of dubbel beklemtoond zijn, worden er nog een aantal defaultregels toegevoegd om het resultaat te verbeteren. De eerste drie regels die gebruikt worden gaan uit van het principe dat klemtoon meestal op één van de drie laatste lettergrepen van een woord ligt, maar nooit op een lettergreep met een schwa erin. Door te stellen dat klemtoon nooit op een lettergreep valt die een schwa bevat, wordt wederom de regel gebruikt die Féry en Daelemans geven. Ook wordt hierbij de regel die Kager geeft gebruikt die stelt dat klemtoon altijd op één van de drie laatste lettergrepen van een woord komt. Aangezien de woorden waarvan elk van de drie laatste lettergrepen een schwa bevat nu geen klemtoon krijgen, is een extra regel toegevoegd die stelt dat wanneer dit het geval is de eerste lettergreep die vooraf gaat aan deze drie lettergrepen die geen schwa bevat, klemtoon krijgt. De volgende regels worden toegevoegd: 1. Leg klemtoon op de antepenult (A), wanneer er geen klemtoon op het woord ligt en de antepenult geen schwa bevat. 2. Leg klemtoon op de penult (P), wanneer er geen klemtoon op het woord ligt en de penult geen schwa bevat. 3. Leg klemtoon op de finale lettergreep (F), wanneer er geen klemtoon op het woord ligt en de laatste lettergreep geen schwa bevat.

19 3.5. Klemtoon bepalen m.b.v. taalkundige regels Wanneer een woord zowel in de antepenult als de penult en de finale lettergreep een schwa heeft, leg de klemtoon dan op de lettergreep voor de antepenult indien deze lettergreep geen schwa bevat. 5. Wanneer een woord zowel in lettergreep voor de antepenult als de antepenult als de penult en de finale lettergreep een schwa heeft, leg de klemtoon dan op de lettergreep die twee lettergrepen voor de antepenult ligt. 6. Verwijder, wanneer een woord twee keer klemtoon heeft, de klemtoon die als tweede in het woord wordt gegeven. 7. Eénlettergrepige woorden krijgen altijd klemtoon. Na het toevoegen van deze regels hebben alle woorden éénmaal klemtoon. De regels staan in bovenstaande volorde omdat ze zo het beste werken. Zowel wanneer de eerste drie regels van volgorde verwisseld worden, als wanneer in de zesde regel klemtoon op de tweede lettergreep komt te staan gaan de resultaten achteruit. Door het toevoegen van deze regels wordt nu 44,8 procent van de woorden juist beklemtoond. Door het verwisselen van volgorde van de eerste drie regels worden de in tabel 3.1 gegeven percentages woorden juist beklemtoond per mogelijke volgorde. volgorde testa % juist APF 44,8 AFP 44,2 PAF 44,7 PFA 44,7 FAP 44,0 FPA 44,0 Tabel 3.1: Klemtoon met extra defaultregels Zoals uit tabel 3.2 afgelezen kan worden, ligt het percentage juist beklemtoonde woorden, wanneer in plaats van de laatste klemtoon de eerste klemtoon verwijderd wordt, op 41,4 procent. Hierbij wordt de volgorde antepenulte, penulte, finale lettergreep aangehouden bij het bepalen van klemtoon. beklemtoond eerste klemtoon laatste klemtoon % juist 44,8 41,5 Tabel 3.2: Dubbele klemtoon verwijderd Alternatieve methode Aangezien de bovenstaande methode om voorlopige klemtoon toe te kennen zonder een aantal defaultregels toe te voegen een redelijk laag percentage woorden juist beklemtoont, heb ik nog een andere methode gebruikt om klemtoon toe te kennen aan een woord. Binnen deze methode wordt er slechts gebruikt

20 20 Hoofdstuk 3. Baseline-systeem op basis van taalkundige regels gemaakt van een aantal, door mijzelf gemaakte, defaultregels. Met deze regels wordt er, net als bij de regels die extra gebruikt worden bij de major- minor generalisaties, vanuit gegaan dat klemtoon meestal op één van de laatste drie lettergrepen ligt, behalve wanneer al deze lettergrepen een schwa bevatten. Dan komt de klemtoon op de eerst voorafgaande lettergreep die geen schwa bevat. Dit zijn de regels die nu gebruikt worden: 1. Leg klemtoon op de antepenult (A), wanneer er geen klemtoon op het woord ligt en de antepenult geen schwa bevat. 2. Leg klemtoon op de penult (P), wanneer er geen klemtoon op het woord ligt en de penult geen schwa bevat. 3. Leg klemtoon op de finale lettergreep (F), wanneer er geen klemtoon op het woord ligt en de laatste lettergreep geen schwa bevat. 4. Wanneer een woord zowel in de antepenult als de penult en de finale lettergreep een schwa heeft, leg de klemtoon dan op de lettergreep voor de antepenult indien deze lettergreep geen schwa bevat. 5. Wanneer een woord zowel in lettergreep voor de antepenult als de antepenult als de penult en de finale lettergreep een schwa heeft, leg de klemtoon dan op de lettergreep die twee lettergrepen voor de antepenult ligt. 6. Eénlettergrepige woorden krijgen altijd klemtoon. Deze alternatieve methode om klemtoon te bepalen geeft een stuk betere resultaten dan de methode waarin majoren minorgeneralisaties gebruikt worden. De volgorde antepenult, penult, finaal geeft hierbij, net zoals bij de eerdere methode het hoogste percentage juist beklemtoonde woorden. Alleen wordt met behulp van deze methode 57,0 procent van de woorden juist beklemtoond in plaats van 44,8 procent in bovenstaande methode. Alle resultaten staan weergegeven in tabel 3.3. volgorde testa % juist APF 57,0 AFP 44,2 PAF 44,7 PFA 44,7 FAP 44,0 FPA 44,0 Tabel 3.3: Klemtoon m.b.v. alternatieve methode 3.6 Conclusie klemtoon bepalen m.b.v. taalkundige regels Wanneer de alternatieve methode wordt gebruikt om klemtoon op woorden te leggen, wordt het hoogste percentage juiste woorden gevonden. Dit percentage

21 3.7. Uiteindelijke input voor TBL 21 is 57,0 procent. Hierbij moet de klemtoon, wanneer deze lettergreep geen schwa bevat, op de antepenult gelegd worden, anders op de penult en indien deze lettergreep ook een schwa bevat, op de finale lettergreep. Wanneer de finale lettergreep ook een schwa bevat en er daardoor nog steeds geen klemtoon toegekend kan worden, wordt de klemtoon op de eerste lettergreep voor de antepenult, die geen schwa bevat, gelegd. De methode waarbij majoren minorgeneralistaties worden gebruikt werkt beduidend minder goed dan de alternatieve methode. Wanneer alleen de majoren minorgeneralisaties gebruikt worden bij het bepalen van klemtoon wordt slecht 26,0 procent van de woorden juist beklemtoond. Door de regel toe te voegen die stelt dat er nooit klemtoon op een lettergreep komt die een schwa bevat, komt het percentage juist beklemtoonde woorden op 35,0 procent te liggen. Na het toevoegen van een aantal defaultregels die ervoor zorgen dat elk woord éénmaal beklemtoond is, ligt het percentage juist beklemtoonde woorden op 44,8 procent. Met deze methode wordt 12,2 procent van de woorden minder juist beklemtoond dan met behulp van de alternatieve methode. De methode van Kager waarin majoren minorgeneralistaties gebruikt worden om klemtoon te bepalen is geschreven voor een grote groep regelmatige woorden. Het loslaten van deze regels op een grote groep woorden uit Celex die niet alleen regelmatige woorden bevat, maar bijvoorbeeld ook onregelmatige woorden, samenstellingen en woorden van buitenlandse oorsprong, geeft dus geen goed resultaat. Doordat deze regels wel volgens taalkundige redenaties opgesteld zijn en voor een redelijk deel van de woorden uit het gebruikte corpus zouden moeten gelden, worden de resultaten van beide methodes gebruikt als input voor Machine Learning. Het zou kunnen zijn dat er om deze reden een aantal goed te gebruiken regels worden herkend bij het trainen. Aan de hand van de resultaten die gevonden worden wanneer Machine Learning toegepast is, zal besloten worden welke methode het best bruikbaar is. 3.7 Uiteindelijke input voor TBL Door achter de al eerder in dit hoofdstuk gegenereerde velden voor de input voor TBL een veld te zetten waarin staat of een lettergreep ook daadwerkelijk klemtoon moet krijgen wordt de uiteindelijke input voor TBL verkregen. In dit veld wordt, net als in het veld dat hiervoor staat, met een 1 aangegeven dat een lettergreeep beklemtoond is en met een 0 aangegeven dat een lettergreep onbeklemtoond is. Om te weten welke lettergreep klemtoon krijgt wordt de klemtooninformatie uit Celex gebruikt, die voor elke lettergreep aangeeft of deze lettergreep beklemtoond is of niet. Om deze reden zal dit veld vanaf nu Celex worden genoemd. De uiteindelijke input voor TBL komt er nu als volgt uit te zien: axt VVCC Z 1 1 axt VVCC Z 0 1 A V L 1 0 p@l 0 0

22 22 Hoofdstuk 3. Baseline-systeem op basis van taalkundige regels axt VVCC Z 0 1 A V L 1 0 p@ 0 0 l@ 0 0

23 Hoofdstuk 4 Automatisch klemtoon bepalen met TBL 4.1 Inleiding Na het creëren van inputdata voor TBL kan het Machine Learning proces bijna uitgevoerd worden. Wel is het nog belangrijk dat er bepaald kan worden welke informatie uit de input gebruikt wordt voor het trainen. Dit kan bepaald worden met behulp van templates. In het eerste deel van het hoofdstuk staat beschreven hoe deze templates werken. Vervolgens wordt in een aantal stappen, met behulp van verschillende templates, uitgezocht welke input het beste werkt. Er wordt gekeken of het verstandig is om zowel met het veld ltrgr als met de velden cv en ZL rekening te houden tijdens het trainen of dat het juist verstandig is om bijvoorbeeld alleen veld cv te gebruiken voor het trainen. Ook wordt bepaald hoeveel lettergrepen er het beste in de context kunnen staan. Er kan bijvoorbeeld naar twee lettergrepen voor en na het veld worden gekeken, maar ook naar drie lettergrepen. Vervolgens wordt gekeken of het nut heeft het veld klemprob waarin de voorlopige klemtoon staat ook te gebruiken tijdens het trainen. De templates die uiteindelijk het beste resultaat geven bij het testen zullen gebruikt worden om ook de data uit testb te testen. 4.2 Benodigde files voor het runnen van TBL Templates Templates worden gebruikt om aan te geven met welke informatie uit de inputfile er getraind en getest gaat worden. Met behulp van deze templates wordt aangegeven naar welke velden uit de input en naar welke hoeveelheid context er gekeken wordt. Wanneer er naar een grotere context van de lettergreep wordt gekeken, kan er meer rekening gehouden worden met de omgeving waarin de lettergreep staat. Wanneer er bijvoorbeeld een zware lettergreep voor de betreffende lettergreep staat en de lettergreep wordt gevolgd door een superlichte lettergreep, dan zal de verwachting voor wel of geen klemtoon waarschijnlijk anders liggen dan wanneer alle lettergrepen licht zijn. 23

24 24 Hoofdstuk 4. Automatisch klemtoon bepalen met TBL Een voorbeeld van templates die voor dit onderzoek gebruikt zijn staat hieronder: ZL_0 => klemprob ZL_0 ZL_1 => klemprob ZL_0 ZL_1 ZL_2 => klemprob ZL_-1 ZL_0 => klemprob ZL_-1 ZL_0 ZL_1 => klemprob ZL_-1 ZL_0 ZL_1 ZL_2 => klemprob ZL_-2 ZL_-1 ZL_0 => klemprob ZL_-2 ZL_-1 ZL_0 ZL_1 => klemprob ZL_-2 ZL_-1 ZL_0 ZL_1 ZL_2 => klemprob cv_0 => klemprob cv_0 cv_1 => klemprob cv_0 cv_1 cv_2 => klemprob cv_-1 cv_0 => klemprob cv_-1 cv_0 cv_1 => klemprob cv_-1 cv_0 cv_1 cv_2 => klemprob cv_-2 cv_-1 cv_0 => klemprob cv_-2 cv_-1 cv_0 cv_1 => klemprob cv_-2 cv_-1 cv_0 => klemprob Met deze templates wordt er naar de velden ZL en cv gekeken. In ZL 0 geeft ZL aan dat er naar het veld ZL wordt gekeken. De 0 geeft aan dat er naar de lettergreep gekeken moet worden waar het programma op dat moment is. Wanneer de template ZL -1 ZL 0 ZL 1 klemprob gegeven wordt betekent dit dat er voor de betreffende lettergreep naar het veld ZL gekeken moet worden, maar dat ook voor de lettergreep die voor deze lettergreep komt naar het veld ZL gekeken moet worden. Dit wordt aangegeven met ZL -1. ZL 1 geeft hier aan dat er ook voor de lettergreep die na de betreffende lettergreep komt naar het veld ZL gekeken moet worden. Het veld klemprob, dat achter de pijl staat, geeft het veld aan waarin veranderingen moeten plaatsvinden. Met behulp van de informatie uit de velden cv en ZL moeten regels gemaakt worden die de waarden in klemprob verbeteren. Voor dit onderzoek moet achter de juiste lettergrepen wel of geen klemtoon komen. In het veld klemprob staat aangegeven of een lettergreep volgens de in het vorige hoofdstuk beschreven major-minor of alternatieve methode klemtoon krijgt. Met behulp van templates worden nu regels gevonden die verbeteringen aanbrengen in klemprob, zodat een hoger percentage van de woorden juist beklemtoond wordt Testrules De regels die met behulp van de templates gevonden worden, worden naar een file weggeschreven. De regels komen als volgt in de file te staan: GOOD:2566 BAD:795 SCORE:1771 RULE: ZL_-2=L ZL_-1=L ZL_0=Z ZL_1=@ => klemprob=1 GOOD:2044 BAD:397 SCORE:1647 RULE:

25 4.3. Trainen en testen met TBL 25 cv_0=vcc => klemprob=0 GOOD:1582 BAD:188 SCORE:1394 RULE: ZL_0=L => klemprob=0 GOOD:1564 BAD:349 SCORE:1215 RULE: cv_-1=cvv cv_0=cvvcc => klemprob=1 GOOD:1418 BAD:255 SCORE:1163 RULE: ZL_-2=ZZZ ZL_0=Z => klemprob=1 De SCORE van een regel is erg belangrijk. SCORE = GOOD - BAD. Het geeft aan hoeveel extra woorden juist beklemtoond zijn door het toevoegen van deze regel. Achter RULE staat de regel gegeven die toegevoegd is. De regel cv -1=CVV cv 0=CVVCC klemprob=1 geeft aan dat, wanneer de betreffende lettergreep uit CVVCC bestaat en de lettergreep ervoor uit CVV, de betreffende lettergreep beklemtoond wordt. Deze regel geeft geen informatie over waar in het woord deze lettergreep moet staan. Dit gebeurt wel bij de regel ZL -2=ZZZ ZL -1=@ ZL 0=Z klemprob=1. Hierin geeft ZZZ een lege regel aan. Aangezien er tussen de laatste lettergreep van een woord en de eerste lettergreep van het volgende woord altijd een lege regel staat, is nu bekend dat de ZL -1 de eerste lettergreep van een woord moet zijn en ZL 0 de tweede. 4.3 Trainen en testen met TBL De inputfile voor TBL bestaat uit vijf velden. Het laatste veld geeft aan waar de klemtoon daadwerkelijk ligt. De andere vier velden zeggen allemaal iets over de betreffende lettergreep en kunnen gebruikt worden om te voorspellen of op die lettergreep klemtoon ligt. De input ziet er als volgt uit: axt VVCC Z 1 1 axt VVCC Z 0 1 A V L 1 0 p@l 0 0 axt VVCC Z 0 1 A V L 1 0 p@ 0 0 l@ Velden ltrgr, cv en ZL Eerst wordt onderzocht welke features van een lettergreep het meest effectief zijn voor TBL. De features die hiervoor gebruikt worden staan in de velden ltrgr, cv en ZL. In het veld ltrgr staan de fonemen waaruit de lettergreep bestaat. In dit veld staan mogelijke waarden voor een lettergreep. Er zullen dus erg veel regels nodig zijn om voor al deze mogelijke lettergrepen na te gaan wanneer zij beklemtoond zijn. Ook elk veld uit de context dat bekeken wordt heeft weer mogelijke waarden. Het is dus erg inefficiënt om alleen met behulp van deze informatie klemtoon te bepalen.

Nog meer weergeven