Natuurlijke-Taalverwerking I



Vergelijkbare documenten
Natuurlijke-taalverwerking 1. Daniël de Kok

Syllabus Natuurlijke-Taalverwerking I. Gosse Bouma Afdeling Informatiekunde Rijksuniversiteit Groningen

Taal- en Spraaktechnologie Ambiguïteit

Inhoudsopgave. Syllabus Natuurlijke-Taalverwerking I. Gosse Bouma Afdeling Informatiekunde Rijksuniversiteit Groningen

Inhoudsopgave. Syllabus Natuurlijke-Taalverwerking I. Gosse Bouma Afdeling Informatiekunde Rijksuniversiteit Groningen

Natuurlijke-Taalverwerking I Definite Clause Grammar deel 1

Natuurlijke-taalverwerking. Week 2

Introductie tot de cursus

Inleiding: Combinaties

Natuurlijke Taalverwerking I shift-reduce en chart parsing

Natuurlijke-Taalverwerking 1

Natuurlijke-Taalverwerking

Studentnummer: Inleiding Taalkunde 2013 Eindtoets Zet op ieder vel je naam en studentnummer!

Natuurlijke-taalverwerking

Combinaties. Stof bij dit college

Zinnen 1. Henriëtte de Swart

Taalkunde en Computertaalkunde in de Lage Landen: een verhouding die eerst spannend was, dan gespannen en nu gewoon ontspannen

Informatiekunde in Groningen

Inleveropdracht 1: Morfologie & Syntaxis

Een inleiding tot taaltechnologie

1e Deeltentamen Inleiding Taalkunde

Natuurlijke-Taalverwerking I Definite Clause Grammar 2

Er zijn alle soorten modificaties hoe je deze FST beter kan maken. Bijvoorbeeld, door - teen van thirteen - nineteen in het algemeen te lezen.

Algoritmiek. 8 uur college, zelfwerkzaamheid. Doel. Hoe te realiseren

Hoe te leren voor de UNIT toetsen

HANDLEIDING EUROGLOT TRANSLATOR MODULE

HANDLEIDING EUROGLOT TRANSLATOR MODULE

Modelleren en Programmeren: Prolog

Natuurlijke-Taalverwerking I Definite Clause Grammar 2

Opdrachten Werkcollege 4

Algoritmiek. 12 uur college, werkgroep, zelfwerkzaamheid. Doel. Eindniveau. Hoe te realiseren

Inleiding taalkunde. Inleiding - 23 april 2013 Marieke Schouwstra

Logische Complexiteit Hoorcollege 4

Taaltechnologie. Januari/februari Inhoud

IN2505 II Berekenbaarheidstheorie Tentamen Maandag 2 juli 2007, uur

Inleiding Informatiekunde I

Huiswerk 3: Prolog. Inleiding Taalkunde. Dinsdag 31 mei

compileren & interpreteren - compileren: vertalen (omzetten) - interpreteren: vertolken

Samenvatting Impliciet leren van kunstmatige grammatica s: Effecten van de complexiteit en het nut van de structuur

Inhoud. Introductie tot de cursus

Automaten & Complexiteit (X )

Overzicht. Tekstmanipulatie. Doel van de cursus. Doel van de cursus. Tekstmanipulatie: tekst automatisch bewerken en onderzoeken. Waarom Linux?

LTX001P05. Syntaxis 1: Zinsleer. Welkom!

Oriëntatie Kunstmatige Intelligentie. Taalverwerving

Complexiteit. Anna Chernilovskaya. Inleiding Taalkunde

Wat? Betekenis 2: lambda-abstractie. Boek. Overzicht van dit college. Anna Chernilovskaya. 7 juni 2011

Complexiteit. Rick Nouwen. Inleiding Taalkunde

Zoeken in een Afrikaans corpus: baie maklik! Liesbeth Augustinus Ineke Schuurman Vincent Vandeghinste Peter Dirix Frank Van Eynde

Toetsplan Bacheloropleiding Informatiekunde

Een Steen van Rosetta voor het geautomatiseerd herkennen van digitaal beeldmateriaal

Samenvatting. wh-vraagzinnen genoemd, omdat in het Engels dergelijke vraagwoorden met de letters wh beginnen.

Ontsluiten van gesproken documenten. Arjan van Hessen

LTX016B05. Nieuwe ontwikkelingen in de syntaxis. College 13 (slot)

De klasse van recursief opsombare talen is gesloten onder en. Dit bewijzen we met behulp van een recursieve opsomming

1 Wat is het probleem? 3.1 Kies ik de goede manier van leren? Hoofdstukken

Toolbox voor Strategisch OmgevingsManagement

Themaboek IBL1 - Internationaal marktanalist

Hoofdstuk 18 - Tips om voorleessoftware in te zetten in de klas

Spelspiek. Michel Boekestein (INL)

Betekenis 2: lambda-abstractie

Inleiding. Syntaxis: de combinaties van woorden tot woordgroepen en zinnen.

CONCEPT. Domein A 1: Lezen van zakelijke teksten. Tussendoelen Nederlands onderbouw vo havo/vwo

Achtergrond Spraakherkenning De uitdaging van spraakherkenning

Hoorcollege 1 datavisualisatie

2. Syntaxis en semantiek

Onderwijs- en examenregeling

informatie architectuur 9 december 2010 IAM V

Workshop voorbereiden Authentieke instructiemodel

LTX016B05. Nieuwe ontwikkelingen in de syntaxis. College 2

In Vlaanderen bestaat er nog geen leerlijn programmeren! Hierdoor baseren wij ons op de leerlijn die men in Nederland toepast voor basisscholen.

Hoofdstuk 12: Spelling en grammatica

Inhoud. Mijn leven. het internet en ik

# 4 De leerling leert strategieën te gebruiken bij het verwerven van informatie uit gesproken en geschreven teksten.

Faculteit der Letteren - Formulier voor de beschrijving van modules

Wiskundige wetma/gheden in taal. functiewoorden. inhoudswoorden. Woordfrequenties. Rangnummer en voorkomens. Woordfrequenties Top

Zinnen 2. Inleiding. Inleiding. Kenmerken. Syntaxis: de combinaties van woorden tot woordgroepen en zinnen. Kenmerken (Features)

NAAM: DATUM: KLAS: NEDERLANDS: opentaal.org

Natuurlijke-Taalverwerking I Shift-reduce Parsing

VOLAUTOMATISCH TEKSTEN SAMENVATTEN

Hoeveel is oneindig minus oneindig?

AI Kaleidoscoop. College 9: Natuurlijke taal. Natuurlijke taal: het probleem. Fases in de analyse van natuurlijke taal.

Hoe leer ik uit... Naam: Klas:

CONCEPT. Domein A 1: Lezen van zakelijke teksten. Tussendoelen Nederlands onderbouw vo, vmbo

Vernieuwing Bacheloropleidingen Informatica en Informatiekunde

Vaksubkernen Inhouden vwo kerndoelen onderbouw. kiezen. De leerling kan referentiële verwijzingen expliciteren.

Trefwoorden, Woordwolken, Verwante woorden

SOCIAL SOFTWARE EN WEB 2.0

Aartsbisdom Mechelen-Brussel Vicariaat Onderwijs Diocesane Pedagogische Begeleiding Secundair Onderwijs

Wat maakt WizeNote uniek?

De Taxonomie van Bloom Toelichting

Personalia. Adres: Bosbeemdstraat 6. Telefoonnummer (vast): Telefoonnummer (mobiel):

Latijn en Grieks in de 21ste eeuw

Waarmaken van Leibniz s droom

Opdracht 1 Topics on Parsing and Formal Languages - fall 2010

Met welk werk kunnen kinderen uit groep 5-6 thuiskomen en hoe kunt u uw kind thuis helpen?

Veilig leren lezen Kern 1: ik - maan - roos vis

Leerstofoverzicht Lezen in beeld

WHITEPAPER Duizenden teksten snel en voordelig vertalen? Laat een vertaalmachine het werk doen!

Computercommunicatie B: Informatiesystemen

100 Gouden regels voor zakelijke teksten. Pyter Wagenaar & Heidi Aalbrecht

Transcriptie:

1 atuurlijke-taalverwerking I Gosse Bouma en Geert Kloosterman (pract) 2e semester 2005/2006 Overzicht Week1 : Inleiding, Context-vrije grammatica. Week 2-3 : Definite Clause Grammar Regels, gebruik van variabelen, parse-bomen, betekenis,.. Week 4-5 : Automatisch Ontleden Top-down vs bottom-up, shift-reduce en chart parsing,... Week 6-7 : Unificatie-grammatica Feature-structuren en unificatie, macro s, vraag-zinnen,... 2 3 Studiehandleiding Wat is natuurlijke-taalverwerking? Zie estor of www.let.rug.nl/~gosse/ntv1 Links naar de syllabus, aanvullende literatuur, collegeaantekeningen, practicumopdrachten Practicum start volgende week Het ontwikkelen van programma s en toepassingen waarbij kennis van de structuur en de betekenis van natuurlijke taal een rol speelt. Beoordeling Practicum (4 opdrachten, 50%) Tentamen (50%) Beide onderdelen moeten voldoende zijn

4 5 Voorbeelden Grammatica-correctie (identificeren en corrigeren van grammaticale fouten in tekst), Automatisch vertalen Automatisch e-mail beantwoorden, Informatie Extractie Google define citroenzuur Citroenzuur is een zwak organisch zuur. Het komt in citrusvruchten voor en is een natuurlijk conserveermiddel en antioxidant. Daarnaast wordt het gebruikt om een zure smaak aan voedsel te geven... Automatisch vertalen... Term is de erkenning een uitdaging in aan het vakgebied verbonden informatieherwinning geweest. De terugwinning van informatie baseert zich zwaar op de identificatie van de relevante concepten, welke door termijnen worden vertegenwoordigd. 6 7...is moeilijk Term recognition has been a challenge in domain-specific information retrieval. The discovery of knowledge relies heavily on the identification of relevant concepts, which are represented by terms. Term is de erkenning een uitdaging in aan het vakgebied verbonden informatieherwinning geweest. De ontdekking van kennis baseert zich zwaar op de identificatie van relevante concepten, die door termijnen worden vertegenwoordigd. babelfish.altavista.com, worldlingo...is moeilijk De termijn erkenning is een uitdaging in domijn-specifiek informatie inwinnen geweest. De ontdekking van kennis steunt op zwaar op de identificatie van relevante begrip, die door termijnen vertegenwoordigd worden. ets.freetranslation.com Term is de erkenning een uitdaging in aan het vakgebied verbonden informatieherwinning geweest. De ontdekking van kennis baseert zich zwaar op de identificatie van relevante concepten, die door termijnen worden vertegenwoordigd.

8 9 Makkelijk en Moeilijk Makkelijk Spellingcontrole Voice Response Rapporten genereren uit tabellen Vertaalhulp Domein-specifieke dialoogsystemen Web-search Moeilijk Grammaticale controle Volledige spraakherkenning Samenvatten van artikelen Automatisch vertalen Turing-test Automatisch vragen beantwoorden Automatisch vragen beantwoorden (2 voor 12) Wie is de voorzitter van het Europese Parlement? Klaus Hänsch, voorzitter van het Europese Parlement, drukte het iets sterker uit... Ook de voorzitter van de CDA-delegatie in het Europese Parlement, oud-minister Maij... 10 11 Automatisch vragen beantwoorden Zelfs makkelijke toepassingen zijn moeilijk Wanneer vond de Duitse hereniging plaats? Sinds de Duitse hereniging in oktober 1990 is de sterfte in Oost-Duitsland sterk toegenomen. Al in 1962 voorspelde hij de Duitse hereniging en het uiteenvallen van de Sovjet-Unie. Spellingcorrectie: Lijkt gemakkelijk: markeer alle woorden die niet in het woordenboek staan, Maar is moeilijk: geen woordenboek is volledig, iedere dag worden nieuwe woorden geïntroduceerd.

12 13 Omvang van een Woordenboek 125K (Groene Boekje) 500K+ (van Dale). Soms ontbreekt 40% van de woordtypes in een tekst in het woordenboek. Tokens: aantal woorden in een tekst, Types: aantal verschillende woorden in een tekst. Meer cijfers Kun je een goede woordenlijst afleiden uit een corpus (verzameling tekst): Woorden Corpus OOV 20K 110M 6.6% 40K 145M 4.5% 60K 125M 3.6% OOV = out of vocabulary rate, aantal woordtokens dat niet in het woordenboek staat. 14 15 Spellingcorrectie opzoeken Brandt Corstius Deze jongen vind(t) je aardig. (Daarom wil hij een date.) (Daarom wil jij een date.) Wel/geen spelfout hangt af van betekenis. De derde wet van de computer-taalkunde: a een bepaalde tijd, bv 1 jaar, werken, krijg je 80% goede resultaten. Elke halvering van de gap tussen 80 en 100% betekent een vermenigvuldiging van de aanvankelijk bestede tijd met een vaste factor die groter is dan 1. Wat je ook doet, de semantiek gooit roet.

16 17 Rol van de Taalkunde Computationele Taalkunde Kennis van taal en spraak: de structuur van woorden (morfologie), uitspraak (fonologie), zinsbouw (syntaxis), betekenis (semantiek). Het gebruikvan de computer voor taalkundigonderzoek: Komt de woordvolgorde heeft geslapen vaker voor dan geslapen heeft? Welke regels voor het toekennen van klemtoon aan ederlandse woorden werken het beste? Kun je met Machine Learning betere regels vinden? 18 19 Rol van de Informatica Rol van de Kunstmatige Intelligentie Technieken en algoritmen: eindige (finite state) automaten (voor snel analyseren en herkennen van strings), parsers voor context-vrije grammatica,... Taalverwerking is een aspect van menselijke intelligentie, atuurlijke-taalverwerking modelleert een aspect van menselijke intelligentie, Technieken: Machine Learning, Ontologische kennis en netwerken

20 21 Rol van de Informatiekunde Grammatica Slim coderen (m.n. in XML) van informatie (woordenboeken, grammatica s, tekst- en spraakcorpora, treebanks, etc.) Toepassingen: Samenvatten van web-content, Informatie extractie, on-line vertalen, multilinguale zoekmachine s, etc. Veel toepassingen vereisen een kennis van de structuur van zinnen (zinsbouw, grammatica): Grammatica-correctie (jan word ziek), Automatisch vertalen,... 22 23 Grammatica Een taal is een (oneindige) verzameling zinnen, Zinnen zijn reeksen woorden, iet alle reeksen woorden zijn zinnen, Een grammatica beschrijft welke reeksen woorden goede zinnen vormen, en wat de structuur van die reeksen is Context-vrije Grammatica S P VP Det een P Det Det het A eendje VP V ei VP V P V legt A lelijke

24 25 Boomstructuren Herschrijf-grammatica Det het P A S V legt VP Det P S P VP Det VP de VP de hond VP de hond V de hond snurkt Det 3 de P 2 4 hond S 1 VP 5 V 6 snurkt lelijke eendje een ei 26 27 Taal en Grammatica Ambiguïteit Een reeks woorden W wordt herkend door grammatica G, wanneer je, door S te herschrijven, W kunt genereren. Alle reeksen die door G worden herkend, vormen de taal van G. Wij willen dat ons dochtertje in vrede opgroeit Wij hopen dat het dochtertje van Maxima slaapt VP VP PP PP

28 29 Ambiguïteit CP Ambiguïteit groeit exponentieel Compl P VP dat ons dochtertje PP in vrede V opgroeit Wanneer deel 1 van een zin 5 mogelijke analyses heeft, en deel 2 3, heeft de hele zin 3 5 analyses Compl P CP VP Grammatica s die duizenden analyses aan een zin van 20 woorden toekennen zijn niet ongewoon. dat Det V het PP slaapt dochtertje van Maxima 30 31 All-and-only principe All: Een grammatica moet alle zinnen van een taal kunnen herkennen, Only: Een grammatica mag geen ongrammaticale zinnen herkennen. Bijna alle grammatica s voldoen niet aan All, Veel grammatica s voldoen niet aan Only. Hoe nuttig is CFG? Een groot deel van het ederlands kun je met CFG beschrijven, maar Duizenden regels nodig, Sommige aspecten van de taal zijn niet context-vrij, Definite Clause Grammar lijkt op CFG, maar levert Compactere grammatica s, Meer expressieve kracht.