Zoeken in een Afrikaans corpus: baie maklik! Liesbeth Augustinus Ineke Schuurman Vincent Vandeghinste Peter Dirix Frank Van Eynde

Vergelijkbare documenten
Taalkunde en Computertaalkunde in de Lage Landen: een verhouding die eerst spannend was, dan gespannen en nu gewoon ontspannen

NEDERBOOMS D3.1 Case Study on NP/PP Alternation

Parse and Corpus-based Machine Translation. STEVIN Programmadag

Inconsistenties in dependency treebanks

De ontleding van het Corpus Gesproken Nederlands

Natuurlijke Taalverwerking I shift-reduce en chart parsing

Natuurlijke-taalverwerking

Het verrassende resultaat van een copulativiteitspeiling

Het Taalportaal Een nieuwe wetenschappelijke grammatica voor het Nederlands en het Fries (en het Afrikaans)

De automatische analyse van subjectiviteit en causale samenhang in tekst

FESLI. Gebruikershandleiding. Gebruikershandleiding bij de FESLI web applicatie CLARIN-NL

INPOLDER. Gebruikershandleiding en demonstratie scenario. Gebruikershandleiding en demonstratiescenario bij de INPOLDER web applicatie CLARIN-NL

Autorisatie in Relatiebeheer

Congruentie met coördinaties in het Nederlands

CoZo handleiding. voor de ziekenhuis medewerker

BIBLIOTHEEK SOCIALE WETENSCHAPPEN. Handleidingen

Dit het op(ge)hou reën: Een corpusonderzoek over de vervangende infinitief in het Afrikaans

De intensiverende resultatiefconstructie

Cover Page. The handle holds various files of this Leiden University dissertation.

De rol van demografie in taalverandering. Freek Van de Velde KU Leuven

Resultaten en Beschikbaarheid 1e Ronde projecten, SPRAAK en CORNETTO Jan Odijk i.s.m. TST-Centrale

Snel aan de slag met Novell Vibe Mobile

Natuurlijke-Taalverwerking I

Het World Wide Web als corpus

XML Introductie.

Data-driven identification of fixed expressions and their modifiability Villada Moirón, María Begoña

Handleiding website GCB

Offective > CRM > Vragenlijst

Handleiding importeren HDN-browsercertificaat

Computer instellen voor de e-services

E-diensten Klantcontact Zaak & Document Integraties

Rapporten. Labels en Rapporten in Atlantis 1. Atlantis heeft twee manieren om output te genereren: 1. labels 2. rapporten (reports)

Handleiding voor MaxRes van MaxMind Technologies

MIMORE. Demonstratieproject CLARIN-NL. Folkert de Vriend. Meertens Instituut, Amsterdam 26/08/2010

RULES RELEASE EVENTS. Mavim. Rules 7 Rules 8 Rules 9. Rules 2008

Gebruikershandleiding GO search 2.0

HTS lokaal testen: testen met het Hogrefe TestSystem op uw eigen pc

FAQ Kind en Gezin Gemeentelijke kindrapporten. V Hoe maak ik een rapport? De samenstelling van een rapport bevat 3 verplichte stappen.

Exchange Online en Windows Mobile Handleiding gebruiker niet-kpn mobiele data abonnementen

INSTRUCTIE HOE MAAK IK EEN PROCES AAN?

1. Pagina s. Verwijder pagina: hiermee kun u een pagina van uw website verwijderen. Bewerk pagina: hiermee kunt u de pagina bewerken.

JSTOR Zoeken in JSTOR

Documentatie. Remote Access Voorziening Etam (RAVE)

GEBRUIKERSHANDLEIDING

Menu Door op de menuknop te klikken kunt u het hoofdmenu sluiten of openen. De menuknop is het icoon met drie streepjes vlak onder elkaar.

Taal- en Spraaktechnologie Ambiguïteit

Handleiding CROW Kennisbank. Handleiding. CROW Kennisbank. Contentmanagement

Beknopte handleiding voor de concordancer WordSmith en WConcord

[Dossier] Taal- en spraaktechnologie in Vlaanderen: dood of levend? Els Lefever en Lieve Macken. <foto s auteurs: zie gelijknamig bestand>

Verwerkingsideeën bij Pandora - thema - tijd - analoge tijden

Deel 2: Endnote bibliografische software gebruiken als databasemanager en editor

Door op een Internet Explorer balk het internet-adres van Google in te toetsen kom je op de start pagina van Google:

Handleiding SNS online voor de student Openen

Handleiding. CROW Kennisbank. Contentmangement

Werkschrift : Hoe werk ik op WikiKids?

HTS applicatie: digitaal testen via uw eigen pc met het Hogrefe TestSystem (HTS)

CoZo handleiding. voor de huisarts

Voornaamste toepassing : genereren van output en het bouwen van lijsten voor bestandsbeheer Is direct met Office gelinkt Kan data exporteren in

Handleiding Online Kennisbank CROW. Contentmanagement

Dag van Respect & Twinning

Handleiding draaien en gebruiken Achmea dyslexie monitor

2. SAEGIS TM AutoScreen

Creatief met digitale foto's

Gebruikershandleiding

Handleiding. CROW Kennisbank. Contentmanagement

Op basis van klanten-,product-,barcodegegevens wordt automatisch een barcode document aangemaakt

Searching and Downloading OpenStreetMap Data

HowardsHome Nieuws feed. HowardsHome.com Fultonbaan NE Nieuwegein Tel: Fax:

CoZo handleiding. voor de mobiele arts

Computer of docent in 2020?

Remote Access Voorziening Etam (RAVE)

Handleiding Management Drives

Uitleg Eigenaren & Eigenarenafrekening

Wat is een corpus en waarvoor wordt het gebruikt?

ProQuest. Zoeken in ProQuest-databanken: Political Science Database, Sociology Database, Social Science Database.

Woordvolgorde aan te pakken met flexibiliteit

Klanthandleiding. gids voor. Een gebruiksaanwijzing voor DHL klanten

Handleiding voor Zotero versie 2.0

CoZo handleiding. voor de patiënt

Count-e Statistieken. Statistieken

COAVA. Gebruikershandleiding. Gebruikershandleiding bij de COAVA web applicatie CLARIN-NL

IcarOS maakt het mogelijk op een veilige manier bestanden en informatie online uit te wisselen. IcarOS biedt een eenvoudige en gebruiksvriendelijke

Elia Supplier Information Guide Registreren als Elia leverancier op Ariba

Meld u aan. Mijn School

De resultaten worden op alfabetische volgorde getoond en kunnen zowel clusters als deelnemers bevatten.

Ontleden. Er zijn twee manieren van ontleden: taalkundig ontleden en redekundig ontleden.

Handleiding competitie.nevobo.nl

Handleiding TAPI Driver

Maximo Tips and Tricks

Lekker snel XML met SQL (.nl)

Dutch Parallel Corpus Multilinguaal & multifunctioneel. Lieve Macken Hogeschool Gent

Google, meer dan zoeken alleen! Workshop Digitale Week Bib Sint-Niklaas Caroline Van de Velde

Single Sign-On in ZIVVER met Microsoft Azure AD

Schrijven geoptimaliseerde teksten

Instellen CASH API 3.0 Voor CASHWin gebruikers

RIZIV INAMI. eid Gebruikersgids voor Mac

Stap 0: Voorbereiding

Een brede computationele grammatica voor het Nederlands

RIZIV INAMI. eid Gebruikersgids voor PC

Transcriptie:

Zoeken in een Afrikaans corpus: baie maklik! Liesbeth Augustinus Ineke Schuurman Vincent Vandeghinste Peter Dirix Frank Van Eynde Colloquium Afrikaans - 23 oktober 2015

AFRIBOOMS PROJECT Syntactisch geannoteerd corpus (treebank) voor Afrikaans Parser voor Afrikaans Doorzoekbaar maken van de treebank (voor taalkundig onderzoek) 2013-2014 NWU (CTexT) & KU Leuven (CCL)

GrETEL 4 AFRIKAANS Greedy Extraction of Trees for Empirical Linguistics Zoekmachine voor treebanks

GrETEL Greedy Extraction of Trees for Empirical Linguistics Zoekmachine voor treebanks Treebank = syntactisch geannoteerd corpus o o o Penn Treebank (Engels) TüBa (Duits) LASSY, CGN, SoNaR (Nederlands)

AFRIKAANSE TREEBANK NCHLT treebank Geschreven Afrikaans Afrikaans deel van NCHLT Annotated Tekst Corpora (National Centre for Human Language Technologies) 44 715 woorden 1 934 zinnen Manueel gecorrigeerd

GrETEL Greedy Extraction of Trees for Empirical Linguistics Zoekmachine voor treebanks Treebank = syntactisch geannoteerd corpus o o o Parser Penn Treebank (Engels) TüBa (Duits) LASSY, CGN, SoNaR (Nederlands) o Bv. Alpino (Van Noord 2006)

PARSER Ek het die boek gelees. >> parser >>

>> parser >> PARSER

PARSER >> parser >> XML-boomstructuur Zoektaal: XPath

XPATH //node[node[@rel="aux" and @pt="verb" and @lemma="het"] and node[@rel="obj" and node[@rel="det" and @pt="det"] and node[@rel="hd" and @pt="noun"]] and node[@rel="hd" and @pt="verb" and @lemma="lees"]]

XPATH //node[node[@rel="aux" and @pt="verb" and @lemma="het"] and node[@rel="obj" and node[@rel="det" and @pt="det"] and node[@rel="hd" and @pt="noun"]] and node[@rel="hd" and @pt="verb" and @lemma="lees"]]

XPATH //node[node[@rel="aux" and @pt="verb" and @lemma="het"] and node[@rel="obj" and node[@rel="det" and @pt="det"] and node[@rel="hd" and @pt="noun"]] and node[@rel="hd" and @pt="verb" and @lemma="lees"]]

XPATH

GrETEL 2 zoekmodi: o Voorbeeld-gebaseerd zoeken o Zoeken met XPath

GrETEL 2 zoekmodi: o Voorbeeld-gebaseerd zoeken voordeel: geen of beperkte kennis van de data en/of formele zoektalen (zoals XPath) vereist o Zoeken met XPath

de gebruiker 1. Geef een voorbeeld 2. Bekijk parse 3. Geef de relevante items aan in de zin 4. Selecteer treebank 5. (Bewerk XPath) 6. Bekijk de resultaten GrETEL Parst de zin (met Alpino) Genereert automatisch een XPath instructie Presenteert resultaten

OVERZICHT GrETEL in een notendop GrETEL demo o o Case study Zoekopties Conclusies

CASE STUDY Constructies met het + object met een bepaald lidwoord (die) + werkwoord Bv. Ek het die boek gelees.

GrETEL ONLINE

INPUT

INPUT PARSE

SELECTIE MATRIX

LEIDRAAD VOOR SELECTIE

TREEBANK SELECTIE

QUERY OVERZICHT

RESULTATEN Constructies met het + object met een bepaald lidwoord (die) + werkwoord Bv. Ek het die boek gelees. 79 hits, verdeeld over 73 zinnen

RESULTATEN

RESULTATEN: data

RESULTATEN: data greedy search

RESULTATEN: bomen

MEER RESULTATEN Optie 1: Gebruik verschillende query s Constructies met het + object met een bepaald lidwoord (die) + werkwoord Constructies met het + object met een onbepaald lidwoord ( n) + werkwoord Bv. Ek het die boek gelees. 79 hits Bv. Ek het n boek gelees. 42 hits TOTAAL: 121 hits

MEER RESULTATEN Optie 2: Pas de XPath query aan (via XPath Search ) //node[node[@rel="aux" and @pt="verb" and @word="het" and @lemma="het"] and node[@rel="obj" and node[@rel="det" and @pt="det" and (@lemma="die" or @lemma="'n")] and node[@rel="hd" and @pt="noun"]] and node[@rel="hd" and @pt="verb"]]

MEER RESULTATEN

MEER RESULTATEN Optie 2: Pas de XPath query aan (via XPath Search )

OVERZICHT GrETEL in een notendop GrETEL demo o o Case study Zoekopties Conclusies

GEAVANCEERD ZOEKEN

GEAVANCEERD ZOEKEN

GEAVANCEERD ZOEKEN

GEAVANCEERD ZOEKEN

ZOEKOPTIES

WOORDVOLGORDE PP-over-V o V + PP o Hy sal die man help met sy werk. o o PP + V Hy sal die man met sy werk help.

PP-over-V o o WOORDVOLGORDE V + PP Hy sal die man help met sy werk 2 576 hits in 1 530 zinnen Maar: resultaten bevatten ook PP + V!

PP-over-V o o WOORDVOLGORDE V + PP + woordvolgorde optie Hy sal die man help met sy werk 1 090 hits in 847 zinnen Resultaten bevatten enkel V + PP

OVERZICHT GrETEL in een notendop GrETEL demo o o Case study Zoekopties Conclusies

CONCLUSIES GrETEL: zoekmachine voor treebanks, nu ook voor Afrikaans! Input = natuurlijke taal Output = sample van gelijkaardige zinnen Syntactic concordancer Online beschikbaar (via Mozilla Firefox) Geen installatie nodig

TOEKOMSTMUZIEK Meer data toevoegen: Taalkommissiekorpus Parser verbeteren

Probeer het zelf uit! http://gretel.ccl.kuleuven.be/afribooms