Number agreement in copular constructions A treebank-based investigation

Vergelijkbare documenten
Number agreement in copular constructions A treebank-based investigation

Example. Dutch language lesson. Dutch & German Language Education Pieter Wielick

Van 'gastarbeider' tot 'Nederlander' Prins, Karin Simone

2019 SUNEXCHANGE USER GUIDE LAST UPDATED

SAMPLE 11 = + 11 = + + Exploring Combinations of Ten + + = = + + = + = = + = = 11. Step Up. Step Ahead

Four-card problem. Input

TOEGANG VOOR NL / ENTRANCE FOR DUTCH : lator=c&camp=24759

Improving the properties of polymer blends by reactive compounding van der Wal, Douwe Jurjen

University of Groningen. Stormy clouds in seventh heaven Meijer, Judith Linda

MyDHL+ Van Non-Corporate naar Corporate

LDA Topic Modeling. Informa5ekunde als hulpwetenschap. 9 maart 2015

University of Groningen. Who cares? Kamstra, Aafke

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

Een model voor personeelsbesturing van Donk, Dirk

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE. Toets Inleiding Kansrekening 1 8 februari 2010

Interaction Design for the Semantic Web

Today's talented youth field hockey players, the stars of tomorrow? Gemser, Marije

University of Groningen. Safe and Sound van den Bosch, Kirsten Anna-Marie

LONDEN MET 21 GEVARIEERDE STADSWANDELINGEN 480 PAGINAS WAARDEVOLE INFORMATIE RUIM 300 FOTOS KAARTEN EN PLATTEGRONDEN

Add the standing fingers to get the tens and multiply the closed fingers to get the units.

COGNITIEVE DISSONANTIE EN ROKERS COGNITIVE DISSONANCE AND SMOKERS

University of Groningen

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

ANGSTSTOORNISSEN EN HYPOCHONDRIE: DIAGNOSTIEK EN BEHANDELING (DUTCH EDITION) FROM BOHN STAFLEU VAN LOGHUM

KPMG PROVADA University 5 juni 2018

Preschool Kindergarten

Global TV Canada s Pulse 2011

Understanding the role of health literacy in self-management and health behaviors among older adults Geboers, Bas

FOR DUTCH STUDENTS! ENGLISH VERSION NEXT PAGE

GernEdiT The GermaNet Editing Tool

0515 DUTCH (FOREIGN LANGUAGE)

Mensen met een verstandelijke handicap en sexueel misbruik Kooij, D.G.

De Relatie tussen Werkdruk, Pesten op het Werk, Gezondheidsklachten en Verzuim

possessive determiners

Bouwen op een gemeenschappelijk verleden aan een succesvolle toekomst Welling, Derk Theodoor

Grammatica overzicht Theme 5+6

Voorbereiding pilot studie Power for Teens voor tieners met overgewicht en angstige en depressieve klachten.

Draagvlak migratiebeleid Postmes, Thomas; Gordijn, Ernestine; Kuppens, T.; Gootjes, Frank; Albada, Katja

Citation for published version (APA): Kallenberg, C. (1982). Systemic autoimmune disease and Raynaud's phenomonen. Groningen: [S.n.].

Voorbeelden van machtigingsformulieren Nederlands Engels. Examples of authorisation forms (mandates) Dutch English. Juli 2012 Versie 2.

University of Groningen. Pieces of the Puzzle Vissia, Eline Margreta

RECEPTEERKUNDE: PRODUCTZORG EN BEREIDING VAN GENEESMIDDELEN (DUTCH EDITION) FROM BOHN STAFLEU VAN LOGHUM

Sectie Infectieziekten

Firewall van de Speedtouch 789wl volledig uitschakelen?

University of Groningen

NMOZTMKUDLVDKECVLKBVESBKHWIDKPDF-WWUS Page File Size 9,952 KB 29 May, 2016

Travel Survey Questionnaires

Multiple sclerose Zwanikken, Cornelis Petrus

Contents. Introduction Problem Definition The Application Co-operation operation and User friendliness Design Implementation

Schoolsucces van Friese leerlingen in het voortgezet onderwijs de Boer, Hester

Introductie in flowcharts

University of Groningen. Quantitative CT myocardial perfusion Pelgrim, Gert

University of Groningen

Cambridge Assessment International Education Cambridge International General Certificate of Secondary Education. Published

Dementiezorg In De Praktijk, Deel 1: Van Achterdocht Tot Zwerfgedrag (Dutch Edition) By Ronald Geelen

0515 FOREIGN LANGUAGE DUTCH

UvA-DARE (Digital Academic Repository) Health targets: navigating in health policy. van Herten, L.M. Link to publication

MyDHL+ Uw accountnummer(s) delen

0515 DUTCH (FOREIGN LANGUAGE)

Classification of triangles

Nieuwsbrief NRGD. Editie 11 Newsletter NRGD. Edition 11. pagina 1 van 5.

(1) De hoofdfunctie van ons gezelschap is het aanbieden van onderwijs. (2) Ons gezelschap is er om kunsteducatie te verbeteren

Het beheren van mijn Tungsten Network Portal account NL 1 Manage my Tungsten Network Portal account EN 14

Emotionele Arbeid, de Dutch Questionnaire on Emotional Labor en. Bevlogenheid

Citation for published version (APA): Verbakel, N. J. (2007). Het Chronische Vermoeidheidssyndroom, Fibromyalgie & Reuma.

Quantitative STIR MRI as prognostic imaging biomarker for nerve regeneration Viddeleer, Alain

S e v e n P h o t o s f o r O A S E. K r i j n d e K o n i n g

Quality requirements concerning the packaging of oak lumber of Houthandel Wijers vof ( )

NEDERBOOMS D3.1 Case Study on NP/PP Alternation

Luister alsjeblieft naar een opname als je de vragen beantwoordt of speel de stukken zelf!


Ius Commune Training Programme Amsterdam Masterclass 15 June 2018

Ius Commune Training Programme Amsterdam Masterclass 16 June 2016

The genesis of the game is unclear. Possibly, dominoes originates from China and the stones were brought here by Marco Polo, but this is uncertain.

Settings for the C100BRS4 MAC Address Spoofing with cable Internet.

STRAATVERLICHTING IN ASSEN. Levenscyclusanalyse van de Kegel 2000 en de Stela Square 10 LED Kerstholt, René

University of Groningen

open standaard hypertext markup language internetprotocol transmission control protocol internet relay chat office open xml

AVG / GDPR -Algemene verordening gegevensbescherming -General data Protection Regulation

University of Groningen

Handleiding Zuludesk Parent

University of Groningen. Inferior or superior Carmona Rodriguez, Carmen

University of Groningen. De afkoelingsperiode in faillissement Aa, Maria Josepha van der

Neuroanatomical changes in patients with loss of visual function Prins, Doety

2010 Integrated reporting

ALGORITMIEK: answers exercise class 7

Activant Prophet 21. Prophet 21 Version 12.0 Upgrade Information

Geslacht, Emotionele Ontrouw en Seksdrive. Gender, Emotional Infidelity and Sex Drive

Laat maar zitten Janssen, Janine Hubertina Lambertha Joseph

Dutch survival kit. Vragen hoe het gaat en reactie Asking how it s going and reaction. Met elkaar kennismaken Getting to know each other

Dynamics of inner ear pressure change with emphasis on the cochlear aqueduct Laurens-Thalen, Elisabeth Othilde

Published in: Onderwijs Research Dagen 2013 (ORD2013), mei 2013, Brussel, Belgie

Laboratory report. Independent testing of material surfaces. Analysis of leaching substances in treated wood samples conform guide line EU 10/2011

Citation for published version (APA): Mazzola, P. (2016). Phenylketonuria: From body to brain [Groningen]: Rijksuniversiteit Groningen

University of Groningen. Up2U Harder, Annemiek T.; Eenshuistra, Annika

Citation for published version (APA): Crane, L. M. A. (2011). Intraoperative fluorescence imaging in cancer Groningen: s.n.

General info on using shopping carts with Ingenico epayments

Hypothalamus, pituitary and thyroid. The control system of thyroid hormone production. Sluiter, Wim J.

University of Groningen. De besmettelijkheid van de ftisis Groenhuis, Dirk Johan Jacob

De Relatie Tussen de Gehanteerde Copingstijl en Pesten op het Werk. The Relation Between the Used Coping Style and Bullying at Work.

Transcriptie:

Number agreement in copular constructions A treebank-based investigation Frank Van Eynde Center for Computational Linguistics KU Leuven Current Trends in AI Free University of Brussels March 27, 2015

THE PHENOMENON (1) a. Zijn broer is een schurk. b. * Zijn broer is schurken. (2) a. Zijn broers zijn schurken. b. * Zijn broers zijn een schurk. (3) a. Ik ben beste maatjes met de president van Finland. b. Zijn broers zijn een gevaar voor de maatschappij. Questions: how common are the mismatches? under which circumstances do the mismatches occur?

COMPOSITION AND SIZE OF LASSY SMALL Treebank Contents # sent # word wr-p-p Books, brochures, newspapers, reports, periodicals and magazines, proceedings, legal texts, policy documents, surveys, guides and manuals 17,691 281,424 wr-p-e E-magazines, newsletters, web sites, teletext pages 14,420 232,631 ws-u Auto cues, news scripts, text for the visually impaired 14,032 184,611 dpc Dutch Parallel Corpus 11,716 193,029 wikipedia Dutch Wikipedia pages 7,341 83,360 Total 65,200 975,055 (4) De slachtoffers zijn volgens de verkeerspolitie vermoedelijk Nederlanders. [ws-u-e-a-0000000205.p.18.s.2]

DEPENDENCY TREES

ADDITION OF DETAILED PART OF SPEECH TAGS Number values are added to nouns and pronouns. Noun Pronoun Sum % Singular 188,297 25,900 214,197 71.30 Plural 58,458 8,265 66,723 22.21 Underspecified 0 19,486 19,486 6.49 Sum 246,755 53,651 300,406 The underspecified value is assigned to some of the (im)personal, demonstrative and reflexive pronouns (u, er, die, zich,...). (5) a. Die komt niet. b. Die komen niet. (6) a. Hij heeft zich vergist. b. Ze hebben zich vergist.

QUERYING THE TREEBANK - I (7) //node[node[@rel= hd and @pt= ww ] and node[@rel= su ] and node[@rel= predc ]] (17903 hits) The linear order of the daughters is free. The query also returns combinations in which the predicative complement is an adjective, an adverb, a prepositional phrase or a clause. (8) a. Zijn broer is onbetrouwbaar. b. Ze zijn niet meer samen. c. Die kwestie is van groot belang. d. Het probleem is dat ze niet willen verkopen.

QUERYING THE TREEBANK - II Focus on the combinations in which the subject and the predicative complement both have a NUMBER value. (9) //node[node[@rel= hd and @pt= ww ] and node[@rel= su and @getal] and node[@rel= predc and @getal]] (164 hits) (10) //node[node[@rel= hd and @pt= ww ] and node[@rel= su and node[@rel= hd and @getal]] and node[@rel= predc and @getal]] (129 hits) (11) //node[node[@rel= hd and @pt= ww ] and node[@rel= su and @getal] and node[@rel= predc and node[@rel= hd and @getal]]] (1915 hits) (12) //node[node[@rel= hd and @pt= ww ] and node[@rel= su and node[@rel= hd and @getal]] and node[@rel= predc and node[@rel= hd and @getal]]] (1527 hits)

CHECKING AGREEMENT SU PREDC sg sg sg und sg pl pl sg pl pl und x Sum X X 130 2 8 12 7 5 164 XP X 79 0 11 19 18 2 129 X XP 1640 11 142 53 46 23 1915 XP XP 1272 4 22 137 90 2 1527 Sum 3121 17 183 221 161 32 3735 (13) //node[node[@rel= hd and @pt= ww ] and node[@rel= su and @getal= ev ] and node[@rel= predc and @getal= ev ]] (14) //node[node[@rel= hd and @pt= ww ] and node[@rel= su and @getal= mv ] and node[@rel= predc and @getal= mv ]] (130 hits) (7 hits)

ELIMINATING IRRELEVANT HITS - I Object-oriented PREDCs of verbs like noemen and vinden (15) De Limburgers noemen het vierjaarlijkse Wereld Muziek Concours in Kerkrade het Wimbledon van de blaasmuziek. (16) Ook de kleine schaal van de fondsen vinden de onderzoekers een probleem. Disfluencies (17) Ook voor de bekendmaking van het beleid aan de mensen en de politieke discussies in de samenleving zijn ze groot belang.

ELIMINATING IRRELEVANT HITS - II Annotation errors Wrong part of speech (18) Want ongeacht rang of stand, schutters zijn gelijk. (19) De ambtenaar is lui. Wrong function (20) Sommige historici zien in deze gebeurtenis het einde van de korte 20ste eeuw. (21) Soms zijn die golven hoger dan gewoonlijk, zoals de voorbije weken het geval was, met een angstaanjagend hoog dodental tot gevolg. Wrong NUMBER value (22) Het is koren op de molen van de terroristen. (23) De benedictines Joan Chittister is de enige spreekster op het congres die wat te vrezen heeft van haar kerk.

RESULT sg sg sg und sg pl pl sg pl pl und x Sum 3121 17 183 221 161 32 3735 Obj-Or PredC -26 0-3 -21-2 -2-54 Disfluency 0 0-1 0 0-1 Annot. Error -2-11 -13-1 0-27 Result 3095 15 169 186 158 30 3653

HOW COMMON ARE THE MISMATCHES? The mismatches account for 355 of the 3653 relevant occurrences (9.72 %). In clauses with a singular subject the predicate nominal is plural in 169 of the 3279 relevant occurrences (5.15 %). Since this is well below the average frequency of plurals (22.21 %), we observe an agreement effect. In clauses with a plural subject the predicate nominal is singular in 186 of the 344 relevant occurrences (54.07 %). Since this is below the average frequency of singulars (71.30 %), we observe an agreement effect, but notice that the effect is rather limited.

MISMATCHES IN CLAUSES WITH A SINGULAR SUBJECT Two types, depending on whether the verb is plural or singular. (24) Het worden spannende maanden. (25) Bij een vrouw is de grens veertien glazen. Type 1 : The verb and the PREDC jointly trigger a plural interpretation (153 hits) Type 2 : The verb and the subject jointly trigger a singular interpretation (16 hits)

SINGULAR SUBJECT VS. PLURAL VERB AND PREDC The subject is the neuter (im)personal pronoun (het or t) or a neuter demonstrative pronoun (dit or dat) (145 hits) (26) a. Het worden spannende maanden. b. Dit zijn uiterst verontrustende berichten. c. Zijn vrouwen en zijn verleden: dat zijn de belangrijkste inspiratiebronnen. (27) a. Het wordt/*worden een spannende maand. b. Dat wordt/*worden spannend.

The subject is headed by a quantifying noun (5 hits) (28) a. Een kind kan zien dat het trio van de As van het kwaad toevallig ook de vijanden van Israël zijn b. Zijn overzicht beslaat 14 koppen, maar een aantal daarvan zijn alleen maar definities. c. Daarbij kwam dat van de 9 miljoen Zuidelijken vier miljoen slaven waren. d. Niet minder dan 85 procent van de loopbaanonderbrekers zijn vrouwen en slechts 15 procent zijn mannen. The subject is headed by a singulare tantum (3 hits) (29) a. De kleding die ze droegen waren vermoedelijk dierenvellen. b. EVISTA zijn gele ovaalvormige tabletten. c. OPTRUMA zijn gele ovaalvormige tabletten.

SINGULAR SUBJECT AND VERB VS. PLURAL PREDC The predicate nominal contains a numeral (9 hits) (30) Bij een vrouw is de grens veertien glazen. (31) Als de kruitdampen zijn opgetrokken, is het resultaat vijf zwaargewonden. (32) daardoor is het verschil met Biaggi in de WK-stand 21 punten. (33) De studieomvang van een masteropleiding is tenminste 60 ECTS studiepunten. (34) Het was vanochtend 25 graden onder nul. (35) In de hoogtijdagen was dat nog geen 40 dagen.

The predicate nominal is headed by a plurale tantum (2 hits) (36) Goud blijft de belangrijkste financiële activa van bijna alle centrale banken. (37) Anders is het geen domotica. The predicate nominal is autoreferential (4 hits) (38) Het thema dit jaar is Steden. (39) Hoewel het product screeningen heet, voldoet vrijwel geen... (40) Het derde punt is voor mij relaties. (41) Competenties was het centrale orderwoord. Other (1 hit) (42) De naamsveranderingen van de partijen was niet de enige wijziging.

MISMATCHES IN CLAUSES WITH A PLURAL SUBJECT Two types, depending on whether the verb is singular or plural. (43) De minderheden was echter het zwakke punt van de jonge staat. (44) De verkiezingen waren een gemiste kans. Type 1 : The verb and the PREDC jointly trigger a singular interpretation (7 hits) Type 2 : The verb and the subject jointly favour a plural interpretation, but do not always manage to impose it (179 hits)

PLURAL SUBJECT VS. SINGULAR VERB AND PREDC The predicate nominal has a determiner, definite or indefinite. (45) a. Vooral in de katoensector is de VS de grootste en meest schadelijke subsidieverstrekker. b. De minderheden was echter het zwakke punt van de jonge staat. (46) a. studieboeken in braille was al veel langer een taak van FNB. b.... de vraag of de afwijkende loopbanen slechts een voorbijgaand fenomeen is c. De Vulcans is een ras van zeer intelligente mensachtigen, die logica als de basis voor iedere beslissing zien. d. De Ferengi is een ras van kleine mensachtigen met enorm grote oren. e. De Borg is een ras van met mechanische implantaten verbeterde mensachtigen.

PLURAL SUBJECT AND VERB VS. SINGULAR PREDC Two subtypes: distributive vs. collective (47) Beide aftredende bestuurders blijven wel aandeelhouder. (48) De verkiezingen waren een gemiste kans.

DISTRIBUTIVE INTERPRETATION - I The subject contains a numeral or a quantifying determiner; the predicate nominal is usually bare. (49) a. Hiervan zijn tevens zes Belgische Europarlementariërs lid. b. Vijf Vlamingen op duizend zijn drager van het virus dat hepatitis B veroorzaakt. c. Dit keer zijn twee actualiteitenrubrieken van de publieke omroep zelf nieuws: Netwerk en Twee Vandaag. d. Volgens sommige bronnen werden minstens 156 mensen hiervan het slachtoffer. (50) a. Beide aftredende bestuurders blijven wel aandeelhouder. b. Beide banken zijn dan ook partner in het megaproject... c.... omdat alle Waalse partijen voorstander van een lokaal migrantenstemrecht zijn. d. Niet alle commissarissen zijn werkelijk commissaris. e. Veel Vandersteen-fans zijn daarom meer liefhebber van zijn strips uit de jaren 40 en 50.

DISTRIBUTIVE INTERPRETATION - II There is a quantifying adverb and the subject is definite. (51) De slachtoffers zijn allemaal Irakees. (52) We zijn allemaal het slachtoffer van de platonische manier van denken in tweedelingen. (53) Zij had... gemerkt dat vrouwen vaak het eerste slachtoffer waren van de politieke instabiliteit en het aanhoudende geweld. (54) De Arabische staten die onder Brits bewind hadden gestaan werden veelal een monarchie.

DISTRIBUTIVE INTERPRETATION - III Mediated by anaphora (55) Zo zullen steeds minder jongemannen zichzelf in een volgende generatie ervan kunnen overtuigen dat ze een goede moslim zijn als ze onschuldige medemensen afmaken. The wider context (56) Dat betekent niet dat de initiatiefnemers nu ineens managers zijn. Ze zijn en blijven vooral boer. (57) Overigens zullen de drempels niet gelden voor werknemers uit Malta en Cyprus. Die eilanden worden per 1 mei óók EU-lidstaat.

COLLECTIVE INTERPRETATION - I The predicate nominal has a unique referent and is introduced by a definite determiner. (58)... omdat in de plannen de roltrappen de enige vluchtweg uit de ondergrondse zijn. (59) ze zijn sinds jaar en dag dé twistappel tussen Pakistan en India. (60) a. Zoals bij andere anticoagulantia zijn bloedingen de meest voorkomende bijwerking van Xigris. b. De Mechelse Veilingen zijn dan ook de grootste coöperatieve veiling van Europa. c. De Leien (Frankrijklei, Italiëlei, Amerikalei, Britselei) zijn de belangrijkste verkeersader binnen Antwerpen. (61) a. De kernen Heukelom en Montenaken werden de gemeente Vroenhoven b. Vrije verkiezingen zijn het kloppend hart van de democratie. c. Competenties blijven de hoeksteen van een degelijk human capital management.

COLLECTIVE INTERPRETATION - II The predicate nominal is headed by a collective noun and is introduced by a determiner. (62) Is het omdat wij een volk van bierdrinkers zijn dat Belgische vorsers zich zo frequent - en met succes - over leverziekten buigen? (63) In sommige gemeenten zijn ze zelfs een grote meerderheid... (64) Tijdens de Derde Republiek waren de monarchisten de reactionaire groepering van die tijd. The predicate nominal is headed by a collective noun AND it has a unique referent. (65).. dat zij de beste brassband zijn van Nederland. (66) Onder deze laatsten waren de Grieken de grootste groep.

COLLECTIVE INTERPRETATION - III The predicate nominal is topicalized. (67) a. Een heel specifiek Brussels fenomeen zijn de 22 gemeenschapscentra, die de lokale draaischijf vormen van het Vlaamse sociale en culturele leven. b. Een grote natte spons lijken de aardappelvelden van Wim Witte. (68) a. Onzin zijn ook de verhalen dat hij twee buitenechtelijke Londense zoons zou hebben. b. Reden hiervoor waren de wandaden in België gepleegd door de Duitse troepen tijdens de Eerste Wereldoorlog. The predicate nominal is topicalized AND it has a unique referent. (69) a. De enige internationale taal tegenwoordig zijn films. b. Het grootste probleem tijdens de wedstrijden zijn de spreekkoren.

COLLECTIVE INTERPRETATION - IV The subject is a plurale tantum. (70) Volgens hem zijn de hersenen maar een belangrijk orgaan naast andere. (71) In 1795 werden de Oostenrijkse Nederlanden... een deel van de Franse Republiek. The subject is a plurale tantum AND the predicate nominal has a unique referent. (72) Anderzijds blijven hormonale anticonceptiva de hoeksteen van de contraceptie.

AMBIGUITY (73) Zijn vijftien goals van vorig seizoen waren dan ook geen toeval. (74) Als men ouder wordt zijn de kinderen vaak een grote hulp bij praktische problemen. (75) De Iraakse sporters zijn publiekslieveling.

CONCLUSIONS - I Predicate nominals canonically show number agreement with the subject, but mismatches are not excluded. The availability of treebanks provides us with an opportunity to investigate the phenomenon in actual language use. Treebank search by means of examples and/or XPath queries yields a wealth of relevant data, both quantitative and qualitative. Irrelevant hits must be set aside: object-oriented predicate nominals, disfluencies, annotation errors. The mismatches account for 9.72 % of the relevant cases.

CONCLUSIONS - II In clauses with a singular subject the predicate nominal is plural in 5.15 % of the cases. The mismatches come in two types: if the verb is plural, the clause has a plural interpretation and the subject is coerced to have a plural interpretation; if the verb is singular, the clause has a singular interpretation and the predicate nominal is coerced to have a singular interpretation

CONCLUSIONS - III In clauses with a plural subject the predicate nominal is singular in 54.07 % of the cases. The mismatches come in two types: if the verb is singular, the clause as a whole has a singular interpretation and the subject is coerced to have a singular interpretation; if the verb is plural, the clause can have a distributive interpretation, imposing a plural interpretation on the predicate nominal, but it can also have a collective interpretation, imposing a singular interpretation on the subject. The analysis of the mismatches provides useful data for theoretical and descriptive linguistics.

REFERENCES Frank Van Eynde, On the agreement between predicative complements and their target. In: Stefan Müller (ed.), Proceedings of the 19th International Conference on Head-driven Phrase Structure Grammar. Stanford, CSLI Publications, 2012, pp. 349 367. (http://csli-publications.stanford.edu/hpsg/2012) Frank Van Eynde, Predicative constructions. A monostratal Montagovian treatment. Stanford, CSLI Publications, 2015. Frank Van Eynde et al., Number agreement in copular constructions. A treebank-based investigation. 35 pages. Submitted to Lingua. Thank you!