Informatiekunde in Groningen



Vergelijkbare documenten
Natuurlijke-taalverwerking 1. Daniël de Kok


De ontleding van het Corpus Gesproken Nederlands

Natuurlijke-Taalverwerking I

Parse and Corpus-based Machine Translation. STEVIN Programmadag

Studentnummer: Inleiding Taalkunde 2013 Eindtoets Zet op ieder vel je naam en studentnummer!

Inleiding: Combinaties

WHITEPAPER Sentiment Analyse

Political Mashup Kickoff Meeting

Syllabus Natuurlijke-Taalverwerking I. Gosse Bouma Afdeling Informatiekunde Rijksuniversiteit Groningen

Natuurlijke-taalverwerking. Week 2

Alpino and Corpus Linguistics

2. Syntaxis en semantiek

Natuurlijke-Taalverwerking 1

Leraar in onderzoek. Exacte Wetenschappen. Onderzoeksprogramma voor wis- en natuurkundedocenten

Hoofdstuk 16 - Vreemde talen ondersteunen

Ontleden. Er zijn twee manieren van ontleden: taalkundig ontleden en redekundig ontleden.

Verkenning van semasiologische variatie in verkeerstermen in het Nederlands

Spreekvaardigheidstraining met behulp van Automatische Spraak-Herkenning (ASH)

Inleveropdracht 1: Morfologie & Syntaxis

Clean code improves test quality

SBR/ XBRL. verantwoordingsketen. Stand van zaken

slides2.pdf 2 nov

ONDERZOEK VOOR JE PROFIELWERKSTUK HOE DOE JE DAT?

Domein de Aarde Hoofdstuk 1 (inclusief daltontaken) Domein de Aarde Hoofdstukken 1 en 2 (inclusief daltontaken)

Tekstuele databestanden

Text Mining/Linked Data

AANVRAAG VOOR GEBRUIK TE MAKEN VAN HET PROSPECT ONDERZOEK OF HAAR DEELONDERZOEKEN Versie 12 december 2002

Inleiding. Syntaxis: de combinaties van woorden tot woordgroepen en zinnen.

Samenvatting (Summary in Dutch)

Kennisbasis Duits 8 juli Taalkundige kennis

Onderlinge verstaanbaarheid van Nederlands en Duits

Toepassing XBRL in BVE

Handleiding voor installatie en gebruik van

Sietse Vis LoRa Business Specialist Board Member LoRa Alliance voor KPN

Enquête crowdsourcing knaw voor onderzoekers en collectiebeheerders

Projectplan overzicht (deel 1)(ja, mits)

Programmeren. Inleiding

Big Data en de officiële statistiek Enkele voorbeelden

SPECIAL: Beleggen vanuit de ogen van een Nederlands kampioen

Weblectures Op de TUDelft

Inhoudsopgave. Voorwoord blz. 3. Aardrijkskunde blz. 4. Biologie blz. 5. Duits blz. 6. Economie blz. 7. Engels blz. 8. Frans blz.

OPZOEKEN IN HET WOORDENBOEK (1)

Visuele geletterdheid

Zorgen over leven met CF. Inge Heeres en Annelies Kok Verpleegkundig consulenten CF Erasmusmc-Sophia

REFERENTIES INVOEGEN EN BRONNENLIJST MAKEN MET MS WORD 2013 (APA)

ICT in Digi-Taal Presentatie titel

Coachende ouders: kinderen boeien en uitdagen

Zelftest Informatica-terminologie

Feedbackrijke didactiek Lesideeën en opdrachten. Sergej Visser

Atheneum-4 EXAMENJAAR Periode. Toetsvorm /Duur. Gewicht school- examen. Werkperiode/ inleverdatum/ toetsdatum. Atheneum-5

Deze keuze maak je voor de algemene vorming: een pakket van 28 lesuren.

ONDERZOEKSGERICHT LEREN

NIEUWE RAAMLEERPLANNEN

Latijn en Grieks in de 21ste eeuw

PTA HAVO-TOP LEERJAAR 2 PENTA COLLEGE CSG HOOGVLIET / VAVO-RIJNMOND

Examenprogramma wiskunde D havo

LogTag Recorders. Praxas B.V (0)

Opdracht 2: Data analyseren en interpreteren op groepsniveau (technisch lezen voor leerkrachten van groep 3 (Opdracht 2a) en groep 4 (Opdracht 2b))

Wilco te Winkel. De (digitale) toekomst van de readerregeling voor het wetenschappelijk onderwijs

Collectie KLA: Griekse en Latijnse taal- en letterkunde

Data Value Center Smart Industry (DVC-SI)

Zinnen 1. Henriëtte de Swart

Geodata: registreren, ontsluiten, archiveren

C-value method for multi-word term extraction

Taal is geen logica. Dr. Sjef Barbiers over Nederlandse dialecten. Akademie Nieuws december door Liesbeth Koenen

Update NBC+ Mark Knijnenburg. 11 september 2014

Een vertaalworkflow simuleren en evalueren. Departement Toegepaste Taalkunde Erasmushogeschool Brussel

Molecular Pathology for Pathologists. Pr P. Pauwels

Inkoopcommissie digitale content

Het Nederlands en Taal en Spraaktechnologie

HANDLEIDING FIRE APP : Beschikbaarheidsapplicatie iphone Android WIRELESS MISSION

Combinaties. Stof bij dit college

Samenvatting. wh-vraagzinnen genoemd, omdat in het Engels dergelijke vraagwoorden met de letters wh beginnen.

Transcriptie:

kunde in John Alfa-informatica Rijksuniversiteit Huus van de Taol 3 juni 2009

Technologie voor taal

kunde Studie waar computer centraal staat: Programmeren, ontwerpen, analyseren van ICT producten Gericht vooral op taal en geschiedenis Veel afgestudeerden in grotere ICT bedrijven of met eigen bedrijven Een aanrader voor jongen mensen die in ICT verder willen! Vandaag: Een kijk in de keuken van de onderzoekers

Nederlandse syntaxis top smain vc ppart mod pp prep bij0 obj1 np noun juwelier1 app noun A. B. Bakema2 mod pp prep aan5 obj1 np det det de6 noun A-straat7 mod pp prep in8 obj1 noun 9 mod adv vannacht11 mod pp prep om12 obj1 noun twintig over twee13 obj1 1 np det det een16 mod adj half17 noun tegel18 ld pp prep door19 obj1 np det det de20 noun ruit21 verb gooi22 verb ben10 su 1

Van Noord: Parsing Taalkundige grammatica plus Stochastisch model van toepassing 30 jaargangen kranten ( 500 Mln woorden), 8 CPU jaar kunde: 10-20% HPC cluster use Verbeteringen t.a.v. ANS, Van Dale Samenwerkingen met Van Dale, KPN, Spectrum,... Basis voor practische toepassingen

Parsing Nauwkeurigheid (F-Score) Accuracy 82 84 86 88 90 0 50 100 150 200 250 300 Time (weeks) 2PR

Toepassingen van Parsing OVIS, Openbaar Vervoer systeem Telefooninformatiesysteem voor NS Samenwerking met Philips, KPN 83% gesprekken succesvol Sentimentanalyse in politieke krantartikels VU dissertatie detecteert positieve/negatieve attitude Standaardgebruik in veel STEVIN (NL/BE, OCW, EZ, NWO) Voorbeeld: interpreteer verwijzingen (hij, zij,...)

Bouma: Vragen beantwoorden Vind exact antwoord in tekstverzameling Wanneer is Willem de Zwijger overleden? 1584 in Delft Internationale Concurrentie: CLEF Bronnen: AD & NRC (1994 & 1995) Test sets: 200 vragen 4,1M zinnen (XML bestanden), 78M woorden allemaal ontleden, opgeslagen 25 Gb, 500 CPU dagen

Rol van taalkunde? Wie verleende asiel aan Mengistu? Zimbabwe verleende asiel aan Mengistu Aan Mengistu werd asiel verleend door Zimbabwe Wanneer vond de Duitse hereniging plaats? Sinds de Duitse hereniging in oktober 1989... Al in 62 voorspelde hij de Duitse hereniging... datum syntactisch afhankelijk van hereniging

CLEF 05 Evaluatie Data vrijgegeven: 18 mei, resultaten ingediend: 25 mei 200 vragen 60 definitie vragen (Wat is gingivitis?) 49,5% correct (op 2 na s werelds beste, beste in NL) s werelds beste vóór 2005: 47% (2004)

Medische Terminologie Extraheer terminologie, verhoudingen van medische teksten renale dysplasië, nierenfalen, renale infectie, glomerulaire filtratiesnelheid, hydronephrosis, kreatinefosfaat, acute glomeruli-nefritis,... streptococcale longontsteking is bacteriële longontsteking is pneumonia is longziekte is cardio-pulmonaire ziekte is... hoge koorts is-symptoom-van streptococcale longonsteking bacteriële longontsteking veroorzaakt glomeruli-nehpritis Bronnen: Wikipedia, Merck, Elsevier Medical UMLS (Unified Medical Language System) Toepassingen in indiceren, opleiding, automatisch samenvatten,... Fahmi proefschrift

Reeksvergelijkingen Vergelijkbaarheid in uitspraak meten Editafstand, (pair) Hidden Markov Models Applications Detecteer verwisselbare drogennamen (Kondrak, FDA) Detecteer transliteraties van vreemde namen IR, IE Pervez Musharraf, Pervez Musharaf,...

Dialectuitspraken: 10 8 vergelijkingen

taal Woordenboek van de Drentse Dialecten!! Digitalisering van Sonttolregisters (G. Welling) Diagrammatische Redenatie (L. Bosveld) Automatische Vertaling (J. Tiedemann) Tekstverrijking (geographische referentie, definities) toevoeging voor krantteksten e-learning Ideën (dromen) Invloeddetecteren (stijl,..., plagiaat) extractie voor rechtsteksten, technische hanboeken,... Webdiensten voor geestes- en sociaalwetenschappers (samenwerking met UB )

Technologie voor taal www.infokunde.nl kunde: voor studenten die graag met computers werken!