Number agreement in copular constructions A treebank-based investigation Frank Van Eynde Center for Computational Linguistics KU Leuven Current Trends in AI Free University of Brussels March 27, 2015
THE PHENOMENON (1) a. Zijn broer is een schurk. b. * Zijn broer is schurken. (2) a. Zijn broers zijn schurken. b. * Zijn broers zijn een schurk. (3) a. Ik ben beste maatjes met de president van Finland. b. Zijn broers zijn een gevaar voor de maatschappij. Questions: how common are the mismatches? under which circumstances do the mismatches occur?
COMPOSITION AND SIZE OF LASSY SMALL Treebank Contents # sent # word wr-p-p Books, brochures, newspapers, reports, periodicals and magazines, proceedings, legal texts, policy documents, surveys, guides and manuals 17,691 281,424 wr-p-e E-magazines, newsletters, web sites, teletext pages 14,420 232,631 ws-u Auto cues, news scripts, text for the visually impaired 14,032 184,611 dpc Dutch Parallel Corpus 11,716 193,029 wikipedia Dutch Wikipedia pages 7,341 83,360 Total 65,200 975,055 (4) De slachtoffers zijn volgens de verkeerspolitie vermoedelijk Nederlanders. [ws-u-e-a-0000000205.p.18.s.2]
DEPENDENCY TREES
ADDITION OF DETAILED PART OF SPEECH TAGS Number values are added to nouns and pronouns. Noun Pronoun Sum % Singular 188,297 25,900 214,197 71.30 Plural 58,458 8,265 66,723 22.21 Underspecified 0 19,486 19,486 6.49 Sum 246,755 53,651 300,406 The underspecified value is assigned to some of the (im)personal, demonstrative and reflexive pronouns (u, er, die, zich,...). (5) a. Die komt niet. b. Die komen niet. (6) a. Hij heeft zich vergist. b. Ze hebben zich vergist.
QUERYING THE TREEBANK - I (7) //node[node[@rel= hd and @pt= ww ] and node[@rel= su ] and node[@rel= predc ]] (17903 hits) The linear order of the daughters is free. The query also returns combinations in which the predicative complement is an adjective, an adverb, a prepositional phrase or a clause. (8) a. Zijn broer is onbetrouwbaar. b. Ze zijn niet meer samen. c. Die kwestie is van groot belang. d. Het probleem is dat ze niet willen verkopen.
QUERYING THE TREEBANK - II Focus on the combinations in which the subject and the predicative complement both have a NUMBER value. (9) //node[node[@rel= hd and @pt= ww ] and node[@rel= su and @getal] and node[@rel= predc and @getal]] (164 hits) (10) //node[node[@rel= hd and @pt= ww ] and node[@rel= su and node[@rel= hd and @getal]] and node[@rel= predc and @getal]] (129 hits) (11) //node[node[@rel= hd and @pt= ww ] and node[@rel= su and @getal] and node[@rel= predc and node[@rel= hd and @getal]]] (1915 hits) (12) //node[node[@rel= hd and @pt= ww ] and node[@rel= su and node[@rel= hd and @getal]] and node[@rel= predc and node[@rel= hd and @getal]]] (1527 hits)
CHECKING AGREEMENT SU PREDC sg sg sg und sg pl pl sg pl pl und x Sum X X 130 2 8 12 7 5 164 XP X 79 0 11 19 18 2 129 X XP 1640 11 142 53 46 23 1915 XP XP 1272 4 22 137 90 2 1527 Sum 3121 17 183 221 161 32 3735 (13) //node[node[@rel= hd and @pt= ww ] and node[@rel= su and @getal= ev ] and node[@rel= predc and @getal= ev ]] (14) //node[node[@rel= hd and @pt= ww ] and node[@rel= su and @getal= mv ] and node[@rel= predc and @getal= mv ]] (130 hits) (7 hits)
ELIMINATING IRRELEVANT HITS - I Object-oriented PREDCs of verbs like noemen and vinden (15) De Limburgers noemen het vierjaarlijkse Wereld Muziek Concours in Kerkrade het Wimbledon van de blaasmuziek. (16) Ook de kleine schaal van de fondsen vinden de onderzoekers een probleem. Disfluencies (17) Ook voor de bekendmaking van het beleid aan de mensen en de politieke discussies in de samenleving zijn ze groot belang.
ELIMINATING IRRELEVANT HITS - II Annotation errors Wrong part of speech (18) Want ongeacht rang of stand, schutters zijn gelijk. (19) De ambtenaar is lui. Wrong function (20) Sommige historici zien in deze gebeurtenis het einde van de korte 20ste eeuw. (21) Soms zijn die golven hoger dan gewoonlijk, zoals de voorbije weken het geval was, met een angstaanjagend hoog dodental tot gevolg. Wrong NUMBER value (22) Het is koren op de molen van de terroristen. (23) De benedictines Joan Chittister is de enige spreekster op het congres die wat te vrezen heeft van haar kerk.
RESULT sg sg sg und sg pl pl sg pl pl und x Sum 3121 17 183 221 161 32 3735 Obj-Or PredC -26 0-3 -21-2 -2-54 Disfluency 0 0-1 0 0-1 Annot. Error -2-11 -13-1 0-27 Result 3095 15 169 186 158 30 3653
HOW COMMON ARE THE MISMATCHES? The mismatches account for 355 of the 3653 relevant occurrences (9.72 %). In clauses with a singular subject the predicate nominal is plural in 169 of the 3279 relevant occurrences (5.15 %). Since this is well below the average frequency of plurals (22.21 %), we observe an agreement effect. In clauses with a plural subject the predicate nominal is singular in 186 of the 344 relevant occurrences (54.07 %). Since this is below the average frequency of singulars (71.30 %), we observe an agreement effect, but notice that the effect is rather limited.
MISMATCHES IN CLAUSES WITH A SINGULAR SUBJECT Two types, depending on whether the verb is plural or singular. (24) Het worden spannende maanden. (25) Bij een vrouw is de grens veertien glazen. Type 1 : The verb and the PREDC jointly trigger a plural interpretation (153 hits) Type 2 : The verb and the subject jointly trigger a singular interpretation (16 hits)
SINGULAR SUBJECT VS. PLURAL VERB AND PREDC The subject is the neuter (im)personal pronoun (het or t) or a neuter demonstrative pronoun (dit or dat) (145 hits) (26) a. Het worden spannende maanden. b. Dit zijn uiterst verontrustende berichten. c. Zijn vrouwen en zijn verleden: dat zijn de belangrijkste inspiratiebronnen. (27) a. Het wordt/*worden een spannende maand. b. Dat wordt/*worden spannend.
The subject is headed by a quantifying noun (5 hits) (28) a. Een kind kan zien dat het trio van de As van het kwaad toevallig ook de vijanden van Israël zijn b. Zijn overzicht beslaat 14 koppen, maar een aantal daarvan zijn alleen maar definities. c. Daarbij kwam dat van de 9 miljoen Zuidelijken vier miljoen slaven waren. d. Niet minder dan 85 procent van de loopbaanonderbrekers zijn vrouwen en slechts 15 procent zijn mannen. The subject is headed by a singulare tantum (3 hits) (29) a. De kleding die ze droegen waren vermoedelijk dierenvellen. b. EVISTA zijn gele ovaalvormige tabletten. c. OPTRUMA zijn gele ovaalvormige tabletten.
SINGULAR SUBJECT AND VERB VS. PLURAL PREDC The predicate nominal contains a numeral (9 hits) (30) Bij een vrouw is de grens veertien glazen. (31) Als de kruitdampen zijn opgetrokken, is het resultaat vijf zwaargewonden. (32) daardoor is het verschil met Biaggi in de WK-stand 21 punten. (33) De studieomvang van een masteropleiding is tenminste 60 ECTS studiepunten. (34) Het was vanochtend 25 graden onder nul. (35) In de hoogtijdagen was dat nog geen 40 dagen.
The predicate nominal is headed by a plurale tantum (2 hits) (36) Goud blijft de belangrijkste financiële activa van bijna alle centrale banken. (37) Anders is het geen domotica. The predicate nominal is autoreferential (4 hits) (38) Het thema dit jaar is Steden. (39) Hoewel het product screeningen heet, voldoet vrijwel geen... (40) Het derde punt is voor mij relaties. (41) Competenties was het centrale orderwoord. Other (1 hit) (42) De naamsveranderingen van de partijen was niet de enige wijziging.
MISMATCHES IN CLAUSES WITH A PLURAL SUBJECT Two types, depending on whether the verb is singular or plural. (43) De minderheden was echter het zwakke punt van de jonge staat. (44) De verkiezingen waren een gemiste kans. Type 1 : The verb and the PREDC jointly trigger a singular interpretation (7 hits) Type 2 : The verb and the subject jointly favour a plural interpretation, but do not always manage to impose it (179 hits)
PLURAL SUBJECT VS. SINGULAR VERB AND PREDC The predicate nominal has a determiner, definite or indefinite. (45) a. Vooral in de katoensector is de VS de grootste en meest schadelijke subsidieverstrekker. b. De minderheden was echter het zwakke punt van de jonge staat. (46) a. studieboeken in braille was al veel langer een taak van FNB. b.... de vraag of de afwijkende loopbanen slechts een voorbijgaand fenomeen is c. De Vulcans is een ras van zeer intelligente mensachtigen, die logica als de basis voor iedere beslissing zien. d. De Ferengi is een ras van kleine mensachtigen met enorm grote oren. e. De Borg is een ras van met mechanische implantaten verbeterde mensachtigen.
PLURAL SUBJECT AND VERB VS. SINGULAR PREDC Two subtypes: distributive vs. collective (47) Beide aftredende bestuurders blijven wel aandeelhouder. (48) De verkiezingen waren een gemiste kans.
DISTRIBUTIVE INTERPRETATION - I The subject contains a numeral or a quantifying determiner; the predicate nominal is usually bare. (49) a. Hiervan zijn tevens zes Belgische Europarlementariërs lid. b. Vijf Vlamingen op duizend zijn drager van het virus dat hepatitis B veroorzaakt. c. Dit keer zijn twee actualiteitenrubrieken van de publieke omroep zelf nieuws: Netwerk en Twee Vandaag. d. Volgens sommige bronnen werden minstens 156 mensen hiervan het slachtoffer. (50) a. Beide aftredende bestuurders blijven wel aandeelhouder. b. Beide banken zijn dan ook partner in het megaproject... c.... omdat alle Waalse partijen voorstander van een lokaal migrantenstemrecht zijn. d. Niet alle commissarissen zijn werkelijk commissaris. e. Veel Vandersteen-fans zijn daarom meer liefhebber van zijn strips uit de jaren 40 en 50.
DISTRIBUTIVE INTERPRETATION - II There is a quantifying adverb and the subject is definite. (51) De slachtoffers zijn allemaal Irakees. (52) We zijn allemaal het slachtoffer van de platonische manier van denken in tweedelingen. (53) Zij had... gemerkt dat vrouwen vaak het eerste slachtoffer waren van de politieke instabiliteit en het aanhoudende geweld. (54) De Arabische staten die onder Brits bewind hadden gestaan werden veelal een monarchie.
DISTRIBUTIVE INTERPRETATION - III Mediated by anaphora (55) Zo zullen steeds minder jongemannen zichzelf in een volgende generatie ervan kunnen overtuigen dat ze een goede moslim zijn als ze onschuldige medemensen afmaken. The wider context (56) Dat betekent niet dat de initiatiefnemers nu ineens managers zijn. Ze zijn en blijven vooral boer. (57) Overigens zullen de drempels niet gelden voor werknemers uit Malta en Cyprus. Die eilanden worden per 1 mei óók EU-lidstaat.
COLLECTIVE INTERPRETATION - I The predicate nominal has a unique referent and is introduced by a definite determiner. (58)... omdat in de plannen de roltrappen de enige vluchtweg uit de ondergrondse zijn. (59) ze zijn sinds jaar en dag dé twistappel tussen Pakistan en India. (60) a. Zoals bij andere anticoagulantia zijn bloedingen de meest voorkomende bijwerking van Xigris. b. De Mechelse Veilingen zijn dan ook de grootste coöperatieve veiling van Europa. c. De Leien (Frankrijklei, Italiëlei, Amerikalei, Britselei) zijn de belangrijkste verkeersader binnen Antwerpen. (61) a. De kernen Heukelom en Montenaken werden de gemeente Vroenhoven b. Vrije verkiezingen zijn het kloppend hart van de democratie. c. Competenties blijven de hoeksteen van een degelijk human capital management.
COLLECTIVE INTERPRETATION - II The predicate nominal is headed by a collective noun and is introduced by a determiner. (62) Is het omdat wij een volk van bierdrinkers zijn dat Belgische vorsers zich zo frequent - en met succes - over leverziekten buigen? (63) In sommige gemeenten zijn ze zelfs een grote meerderheid... (64) Tijdens de Derde Republiek waren de monarchisten de reactionaire groepering van die tijd. The predicate nominal is headed by a collective noun AND it has a unique referent. (65).. dat zij de beste brassband zijn van Nederland. (66) Onder deze laatsten waren de Grieken de grootste groep.
COLLECTIVE INTERPRETATION - III The predicate nominal is topicalized. (67) a. Een heel specifiek Brussels fenomeen zijn de 22 gemeenschapscentra, die de lokale draaischijf vormen van het Vlaamse sociale en culturele leven. b. Een grote natte spons lijken de aardappelvelden van Wim Witte. (68) a. Onzin zijn ook de verhalen dat hij twee buitenechtelijke Londense zoons zou hebben. b. Reden hiervoor waren de wandaden in België gepleegd door de Duitse troepen tijdens de Eerste Wereldoorlog. The predicate nominal is topicalized AND it has a unique referent. (69) a. De enige internationale taal tegenwoordig zijn films. b. Het grootste probleem tijdens de wedstrijden zijn de spreekkoren.
COLLECTIVE INTERPRETATION - IV The subject is a plurale tantum. (70) Volgens hem zijn de hersenen maar een belangrijk orgaan naast andere. (71) In 1795 werden de Oostenrijkse Nederlanden... een deel van de Franse Republiek. The subject is a plurale tantum AND the predicate nominal has a unique referent. (72) Anderzijds blijven hormonale anticonceptiva de hoeksteen van de contraceptie.
AMBIGUITY (73) Zijn vijftien goals van vorig seizoen waren dan ook geen toeval. (74) Als men ouder wordt zijn de kinderen vaak een grote hulp bij praktische problemen. (75) De Iraakse sporters zijn publiekslieveling.
CONCLUSIONS - I Predicate nominals canonically show number agreement with the subject, but mismatches are not excluded. The availability of treebanks provides us with an opportunity to investigate the phenomenon in actual language use. Treebank search by means of examples and/or XPath queries yields a wealth of relevant data, both quantitative and qualitative. Irrelevant hits must be set aside: object-oriented predicate nominals, disfluencies, annotation errors. The mismatches account for 9.72 % of the relevant cases.
CONCLUSIONS - II In clauses with a singular subject the predicate nominal is plural in 5.15 % of the cases. The mismatches come in two types: if the verb is plural, the clause has a plural interpretation and the subject is coerced to have a plural interpretation; if the verb is singular, the clause has a singular interpretation and the predicate nominal is coerced to have a singular interpretation
CONCLUSIONS - III In clauses with a plural subject the predicate nominal is singular in 54.07 % of the cases. The mismatches come in two types: if the verb is singular, the clause as a whole has a singular interpretation and the subject is coerced to have a singular interpretation; if the verb is plural, the clause can have a distributive interpretation, imposing a plural interpretation on the predicate nominal, but it can also have a collective interpretation, imposing a singular interpretation on the subject. The analysis of the mismatches provides useful data for theoretical and descriptive linguistics.
REFERENCES Frank Van Eynde, On the agreement between predicative complements and their target. In: Stefan Müller (ed.), Proceedings of the 19th International Conference on Head-driven Phrase Structure Grammar. Stanford, CSLI Publications, 2012, pp. 349 367. (http://csli-publications.stanford.edu/hpsg/2012) Frank Van Eynde, Predicative constructions. A monostratal Montagovian treatment. Stanford, CSLI Publications, 2015. Frank Van Eynde et al., Number agreement in copular constructions. A treebank-based investigation. 35 pages. Submitted to Lingua. Thank you!