ARTIKELEN VIERDE SOCIOLINGUISTISCHE CONFERENTIE VAN DE. bijeengebracht door Tom Koole, Jacomine Nortier en Bert Tahitu

ARTIKELEN VAN DE VIERDE SOCIOLINGUISTISCHE CONFERENTIE bijeengebracht door Tom Koole, Jacomine Nortier en Bert Tahitu Eburon Delft 2003

Publications: Dordrecht. Muysken, P. (2000). Bilingual Speech. A fypology of Code-Mixing. Cambridge:Cambridge Univenity Press. Nortier, J. (1 990). Dutch-Moroccan Arabic Code Switching among Moroccans in the Netherlandr, Fons Publications, Dordrecht. Nortier, J. (2001), 'Fawaka, what's up?" Language use among adolescents in Dutch monoethnic and ethnically mixed groups. In: A. Hvenekilde and J. Nortier (eds), Meetings at the crossroadr. Studies of multilingualism and multiculturalism in Oslo and Utrecht. Oslo: Novus Forlag 61-72. Zuckennan, S. (2001), The acquisition of 'optional' movement. Ongepubliceerd proefschrift Rijksuniversiteit Groningen. Woordvolgordevariatie in tweeledige werkwoordelijke eindgroepen. Naar een statistische evaluatie van zes factoren Gert De Sutter, Dirk Speelman, Dirk Geeraerts & Stefan Grondelaers Katholieke Universiteit Leuven, Departement LingUistiek, Onderzoekseenheid Kwantitatieve Lexicologie en Variatielinguïstiek, Blijde-lnkomststraat 21, B-3000 Leuven 1. Inleiding De onderhavige studie zal zich concentreren op de tweeledige werkwoordelijke eindgroep in een bijzinscontext. Er is in dat verband al meermaals vastgesteld dat de volgorde van de verbale elementen variabel is, zoals blijkt uit voorbeeldzin (1) en (2) (cf. ANS 1997: 1225-1234): (1) [...] dat moordende chauffeus van de weg gehaald worden (HLN)': [PART+AUX]' (2) [...] dat moordende chaufseurs van de weg worden aehaald (HLN): [AUX+PART] Zin (l) en zin (2) verschillen enkel van elkaar door de omwisseling van het voltooid deelwoord en het hulpwerkwoord. Sinds de jaren '50 van de vorige eeuw is heel wat empirisch werk vemcht om de coëxistentie van de beide woordvolgordes te verklaren, voornamelijk door het introduceren, analyseren en (tot op zekere hoogte) statistisch toetsen van tal van taalinteme en taalexteme factoren (zie o.a. Pauwels 1953, De Schutter 1964, 1976 & 1996, Haeseryn 1990, Swerts 1998, De Sutter, Speelman & Geeraerts 2002). Ondanks die massale belangstelling blijft een aantal zaken toch nog steeds onduidelijk: 1. Wat is het precieze effect van de reeds geïntroduceerde factoren? 2. Wat is de gecombineerde impact van de reeds geïntroduceerde factoren? 3. Zijn er factoren die hetzelfde verklaren en daardoor redundant zijn? 4. Wat is de verklarende en voorspellende waarde van de geïntroduceerde factoren op de totaal geobserveerde variatie? De oorzaken van deze onduidelijkheid liggen enerzijds in de heterogeniteit van het bestudeerde taalregister (geschreven versus gesproken, fictie versus non-fictie, standaardtaal versus dialect), in de heterogeniteit van de methodologie (corpusonderzoek versus enquêtes versus experimenten) en in de moeilijk inschatbare kwaliteit van de dataset (i.e. te kleine datasets). Dat heeft tot gevolg dat er weliswaar heel wat relevante factoren gevonden worden, maar dat er nauwelijks een vergelijkingsbasis is om eerdere resultaten te weerleggen of bij te stellen. Anderzijds moet ook opgemerkt worden dat de bovenstaande vragen nog niet beantwoord konden worden, omdat eerdere studies zich enkel beroepen hebben op de nietparametrische chi-kwadraattest. Met een chi-kwadraatanalyse kan men weliswaar nagaan in hoeverre één factor een invloed uitoefent op de keuze voor een bepaalde woordvolgorde, maar het is niet ondenkbaar dat twee factoren die elk afzonderlijk een statistisch significante invloed hebben, eigenlijk dezelfde bijdrage leveren tot het verklaren van de variatie. Een dergelijke redundantie is uiteraard ongewenst als men op zoek wil gaan naar de set van factoren die de geobserveerde variatie kunnen verklaren. Daarenboven is het onmogelijk om met een chi-kwadraattest na te gaan wat de gezamenlijke invloed is van alle factoren samen: het gezamenlijke effect van een set van factoren hoeft namelijk niet gelijk te zijn aan de optelsom van de verschillende individueel gemeten afhankelijkheden van de afzonderlijke

factoren. Het is ook onmogelijk om de eerder in de literatuur geïntroduceerde factoren onmiddellijk (i.e. binnen het bestek van één statistische analyse) met elkaar te vergelijken. Deze studie heeft daarom als doel om - in plaats van een nieuwe rist factoren te introduceren - de huidige stand van zaken (althans een deel daarvan) statistisch grondig te evalueren. Gebaseerd op een uitgebreid corpus zullen we zes factoren aan een logistieke regressie onderwerpen. Vijf daarvan kwamen reeds in eerder onderzoek als relevant naar voren, een zesde factor wordt in deze studie voor het eerst geïntroduceerd. Van de zes factoren die we selecteerden, zijn er twee taalextem en vier taalintem: regio en register; lengte van het middenstuk, type hulpwerkwoord, morfologische opbouw van het voltooid deelwoord en type prefuc van het deelwoord. De volgende hypotheses zullen als uitgangspunt genomen worden: HYP,,,, HYPEgi, HYP,,d HYPaux HYP,,,, HYPPrcf Belgisch Nederlands heefi een voorkeur voor de groene volgorde [PART+AUX]. Nederlands Nederlands heefi een voorkeur voor de rode volgorde [AUX+PART]. [De Schutter 1996, Stroobants 19971 In de gesproken taal is er een duidelijke voorkeur voor de groene volgorde [PART+AUX]. In de geschreven taal is er een voorkeur voor de rode volgorde [AUX+PART]. [Pauwels 1953, Sassen 1963, Stroop 1970, Haeseryn 19901 Hoe langer het middenstuk, hoe meer rode volgordes [AUX+PART] [De Schutter 1967, 1976 & 19961 Worden heeft een grotere voorkeur voor de groene volgorde [PART+AUX] dan zqn, dat op zijn beurt een grotere voorkeur heeft voor de groene volgorde [PART+AUX] dan hebben. [De Schutter 1964 & 1976, De Cubber 1986, Haeseryn 19901 Niet-samengestelde deelwoorden hebben een sterkere voorkeur voor de groene volgorde [PART+AUX] dan samengestelde deelwoorden. [De Schutter 1976, Haeseryn 19901 In traditionele morfologische benaderingen wordt een structureel onderscheid gemaakt tussen de pefixen -ge- enerzijds en -be- en -veranderzijds.' Verwacht wordt dat dit onderscheid een weerslag heeft op de keuze voor een van de woordvolgordetypes, al is het niet duidelijk in welke richting die voorkeur zich zal manifesteren. [Booij& van Santen 1998: 1031 Het materiaal in deze paper zal als volgt georganiseerd worden. Om een correcte interpretatie van de onderzoeksresultaten mogelijk te maken, werpen we in paragraaf 2 een licht op het corpus en de dataselectie (de operationalisering van de afhankelijke en onafhankelijke variabelen). In paragraaf 3 worden de resultaten van de logistieke regressie voorgesteld en besproken. Aan de hand van de resultaten van de regressieanalyse zullen we in paragraaf 4 kort ingaan op het individuele effect van de factoren: welke factorwaarde stimuleert of beperkt welke woordvolgorde en hoe kunnen we dat linguïstisch interpreteren? Tot slot vatten we in paragraaf 5 de onderzoeksresultaten samen en formuleren we enkele onderzoeksperspectieven. De dataset - Om de invloed van de zes factoren op de keuze voor woordvolgorde te, bestuderen, werd het ConDiv-corpus geschreven Nederlands gebruikt (voor een volledige corpusbeschrijving, zie Grondelaers e.a. 2000). Het corpus bestaat uit ca. 45 miljoen woorden en is opgebouwd volgens een geografische en stilistische dimensie: Tabel 1 Structuur en inhoud van het ConDiv-corpus geschreven Nederlands met langs de horizontale as de, geografische dimensie en langs de verticale as de stilistische dimensie (n = 45 489 351), Langs de geografische dimensie, de horizontale as in tabel 1, werd een onderscheid gemaakt tussen Nederlands Nederlands en Belgisch Nederlands. Langs de stilistische dimensie van het ConDiv-corpus kunnen verschillende lagen onderscheiden worden: enerzijds is er het primaire onderscheid tussen krantenmatenaal en intemetmateriaal, anderzijds kan het krantenmateriaal verder opgesplitst worden in kwaliteitskranten (NRC en De Standaard), nationale populaire kranten (De Telegraaf en Het Laatste Nieuws) en regionale populaire +\,y kranten (De Limburger, Gazet van Antwerpen en Het Belang van Limburg) en kan het g intemetmateriaal verder onderverdeeld worden in Usenetmatenaal (een collectie van e- mailberichten uit nieuwsgroepen) en IRC-matenaal (Intemet Relay Chat, babbelkanalen14. Met behulp van het corpuslinguïstische programma Abundantia Verborum (Speelman 1997) werden de relevante attestaties uit het corpus geëxtraheerd en geanalyseerd. Dat leverde 11.393 relevante observaties op, die als volgt over de twee woordvolgordevarianten verdeeld $ji zijn: ;i: i y... %,'I ;i>,.,.,,,.. >~?, Tabel Z Absolute en relatieve proporhes van de groene [PART+AUX] en rode [AUX+PART] woordvolgorde in de dataset. i.: S Zoals blijkt uit tabel 2 nemen de verbale clusters [PART+AUX] en [AUX+PART] respectievelijk een derde en twee derde van de dataset in beslag., Dataselectie: de afhankelijke variabele - Om zoveel mogelijk de invloed van verborgen factoren uit te sluiten werd op voorhand strikt bepaald aan welke eisen de werkwoordelijke eindgroep en de onmiddellijke co-text van de werkwoordelijke eindgroep moest voldoen. In

eerste instantie werden enkel tweeledige werkwoordelijke eindgroepen die opgebouwd zijn uit een voltooid deelwoord en een hulpwerkwoord in de analyse betrokken. Dit type van woordvolgorde is mainstream in het onderzoek naar de werkwoordelijke eindgroep (cf. paragraaf l), vermoedelijk omdat er meer variatie is dan in andere woordvolgordetypes (de ratio tussen doen kan [MF+AUX] en kan doen [AUX+MF], bijvoorbeeld, is in het ConDivcorpus 2% tegenover 98%). In tweede instantie werd ook de aard van het hulpwerkwoord - enkel de hulpwerkwoorden zijn, hebben en worden werden in beschouwing genomen - en het voltooid deelwoord gecontroleerd. Het voltooid deelwoord kan met name in combinatie met een vervoegde vorm van zijn zowel verbaal als adjectivisch geïnterpreteerd worden (ANS 1997: 109-1 11). In een aantal gevallen is het proces, waarbij een deelwoord overgaat naar de klasse van de adjectieven, zover gevorderd, dat er nauwelijks nog sprake kan zijn van een deelwoord (enkel formeel zou men dat nog kunnen zeggen): bestand als in bestand tegen iets, geboren, verlieg, etc. Werkwoordelijke eindgroepen met dergelijke pseudo-deelwoorden kennen niet dezelfde graad van variatie als eindgroepen met een 'echt' deelwoord en een hulpwerkwoord: pseudo-deelwoorden komen bijna uitsluitend in eindgroepen met de groene volgorde [PART+AUX]) voor. (3) [...] en beiden ontdekken dat ze op mekaar verliefd ziin (DS) (4) * [...] en beiden ontdekken dat ze op mekaar ziin verliefd. Om een vertekening van het algemene beeld te vermijden, werden dergelijke pseudodeelwoorden daarom met behulp van de informatie in de Elektronische Grote Van Dale (2002) en het Corpus Gesproken Nederlands (2002) uit de analyse geweerd. In derde instantie werd ook het type bijzin waarin de werkwoordelijke eindgroep gelokaliseerd is onder controle gehouden: in deze studie wordt enkel naar eindgroepen gekeken die zich in een complementzin bevinden die ingeleid wordt door het grammaticaal verbindend voegwoord dat. Het is, tot slot, niet ondenkbaar dat er - indien er in een zin meer dan één werkwoordelijke eindgroep voorkomt die aan de bovenstaande selectiecriteria voldoet - tijdens de taalproductie een invloed is van de woordvolgorde in de eerste werkwoordelijke eindgroep op de woordvolgorde in de volgende eindgroep(en). Om een vertekend beeld te vermijden, werd er daarom voor geopteerd om enkel de eerste werkwoordelijke eindgroepen in de dataset op te nemen. Dataselectie: de onafhankelijke variabelen - De onafhankelijke variabelen regio en register hebben respectievelijk twee en vijf waarden, parallel met de structuur van het ConDiv-corpus (cf. supra): Belgisch Nederlands versus Nederlands Nederlands en kwaliteitskranten versus populaire nationale kranten versus populaire regionale kranten versus Usenet versus Internet Relay Chat. De lengte van het middenstuk wordt geoperationaliseerd door het aantal woorden te tellen tussen het grammaticaal verbindend voegwoord dat en het begin van de werkwoordelijke eindgroep: de observaties van 1 tot en met 6 woorden zullen met elkaar gecontrasteerd worden5. De variabele hulpwerkwoord heeft de waarden zijn, hebben of worden. Voor de morfologische opbouw van het deelwoord werd een onderscheid gemaakt tussen scheidbaar samengestelde werkwoorden (bv. invoeren) en niet-samengestelde werkwoorden (bv. maken16. De variabele type prefur van het deelwoord kent drie waarden: - ge-, -be- en -ver-. I In de inleiding werd reeds gewezen op de afwezigheid van een analyse die de gecombineerde impact meet van alle factoren samen (i.c. zes factoren) op de keuze voor een bepaalde woordvolgorde. Het is tevens onduidelijk in hoeverre het redundantie-effect (twee factoren verklaren hetzelfde) een inhiberende rol speelt in het woordvolgordeonderzoek. In het domein van de inferentiële statistiek zijn er een aantal analyses die een antwoord kunnen bieden op de bovenstaande vragen. Bij de keuze voor een van die statistische analyses speelt de aard van de variabelen een cruciale rol. Aangezien in de onderhavige studie de afhankelijke variabele een nominale variabele is, kunnen we geen gebruik maken van lineaire analyses, maar moeten we de logistieke regressie gebruiken (in de sociolinguïstiek beter bekend in de vorm van Varbrul; zie Paolillo 2002 voor een introductie). Met een logistieke regressie tracht men de waarde van de afhankelijke variabele (bij een binomiale variabele, zoals groen [PART+AUX] versus rood [AUX+PART]: waarde O of waarde 1) per observatie te voorspellen door een set van, (gewogen) onafhankelijke variabelen op basis van een zogenaamde regressievergelijking. In.. concreto betekent dat dat de logistieke regressieanalyse aan de hand van de zes geselecteerde, onafiankelijke variabelen de groene (waarde = O) of de rode volgorde (waarde 1) tracht te. voorspellen. De logistieke regressieanalyse werd stapsgewijs (forward stepwise entry) met : SPSS uitgevoerd. In de eerste plaats werd de voorspellende kracht van het model zonder de onafhankelijke variabelen gemeten, d.i. het model met enkel de constante B. (intercept only). Dat resulteerde in een significant model (p I.0001) dat 62.2% van de geobserveerde variatie correct voorspelt. Vervolgens werden stap voor stap de factoren register (REGIS), lengte van het middenstuk (MID), scheidbaarheid van het deelwoord (COMP), regio (REGIO), aard van het hulpwerkwoord (AUX) en type van het prefix (PREF) aan het model toegevoegd. Tabel 3 Resultaat van de logistieke regressieanalyse na stap 6. De referentiewaarden van de 6 geselecteerde onathankelijke variabelen zijn respectievelijk Nederlanh Nederland. (REGIO), Usenet (REGIS), 6 woorden MD), zijn (AUX), scheidbaar samengesteld (COMP) en -ver- (PREF). x2 DF SIG -2 log likelihood 7885.875 model 1554.077 15,000 VARIABELE B S.E. WALD DF SIG EXP(B) I REGIO: bel -1.081.O70 235.565 1,000,339 REGIS REGIS: irc REGIS: kwa REGIS: reg REGIS: nat MID MID: 1 woord MID: 2 woorden MID: 3 woorden MID: 4 woorden MID: 5 woorden AUX AUX: hebben AUX: worden

COMPOS: niet- -1.175,074 253.215 1,000,267 samengesteld PREF 77.329 2,000 PREF: -ge-,595.o82 52.039 1.O00 1.542 PREF: -be-.o37,112.l10 1,741,834 Constant,806,155 26.948 1.O00 In de eerste kolom van tabel 3 zijn de verschillende waarden per variabele opgenomen. Per waarde krijgen we dan achtereenvolgens de regressiecoëfficiënten B, Standard Error (S.E.), de Waldstatistiek, de vrijheidsgraden (DF), de graad van significantie (SIC) en de Odds Ratio (Exp (B)). Zonder in te gaan op de concrete berekeningswijze van de verschillende resultaten in tabel 3, kunnen we toch de verschillende vragen die in de inleiding gesteld werden, beantwoorden: (1) Wat is het precieze effect van de reeds geïntroduceerde factoren? Uit de tabel (SIC) blijkt dat alle factoren een significante bijdrage leveren (p 1.0001). Ook bijna elke waarde van de onafhankelijke variabelen verschilt significant van de respectievelijke referentiewaarde (p S.0001). Dit geldt echter niet voor het verschil tussen IRC en Usenet (referentiewaarde voor REGIS) en voor het verschil tussen het morfeem -be- en de referentiewaarde -ver- (resp. p 1.500 en p S,741)~. (2) Wat is de gecombineerde impact van de reeds geïntroduceerde factoren? De variabelen samen zorgen ervoor dat het model, zoals dat in tabel 3 naar voor komt, niet alleen significant verschilt van het intercept only model (p I.0001), maar samen ook een significant effect heeft op de keuze voor een bepaalde woordvolgorde (model x2; p 1.0001). (3) Zijn er factoren die hetzelfde verklaren? Kan er met andere woorden redundantie ontdekt worden? Aangezien alle geselecteerde variabelen een significante invloed uitoefenen op de woordvolgordekeuze, kunnen we besluiten dat er van een redundantie-effect geen sprake kan zijn. Als dat wel het geval zou zijn, dan zou een of meerdere variabelen niet opgenomen zijn in het eindresultaat van de regressieanalyse. (4) Wat is de verklarende en voorspellende waarde van de geïntroduceerde factoren op de totale geobserveerde variatie? Het model voorspelt 71.9% van de totaal geobserveerde variatie correct. De zes geïntroduceerde factoren leveren dus een wezenlijke bijdrage tot de verklaring van het woordvolgordeverschi1 in werkwoordelijke eindgroepen. Toch moet opgemerkt worden dat 71.9% behoorlijk bescheiden is en dat er, ondanks de significantie van het model, andere factoren toegevoegd zullen moeten worden. 4. Het effect van de individuele factoren In hoeverre kunnen de in de inleiding geformuleerde hypotheses met betrekking tot de individuele factoren bevestigd worden? Om een antwoord te kunnen bieden op die vraag, gaan we in deze paragraaf dieper in op (a) de resultaten van de logistieke regressieanalyse (in termen van "de kans op rode woordvolgorde [AUX+PART] versus de kans op groene woordvolgorde [PART+AUX] stijgt 1 daalt n keer voor waarde x ten opzichte van referentiewaarde y"; cf. Odds Ratios in kolom EXP(B)) en (b) op de informatie die contingentietabellen te bieden hebben met betrekking tot de invloed van elke onafhankelijke variabele apart (in termen van percentages). Daarbij worden de waarden van één van de onafhankelijke variabelen (bv. regio: Belgisch Nederlands versus Nederlands Nederlands) afgezet tegen de waarden van de afhankelijke variabele (i.c. woordvolgorde: groen [PART+AUX] versus rood [AUX+PART])~. l i l l ' HYP* - (a) De Odds Ratio.339 voor de factor regio wijst erop dat de kans op rode woordvolgorde [AUX+PART] versus de kans op groene woordvolgorde [PART+AUX] voor het Belgische Nederlands ongeveer drie keer lager ligt in vergelijking met het Nederlandse Nederlands. De vooropgestelde hypothese kan dus in die mate bevestigd worden dat de kans dat er in het Nederlandse Nederlands een rode woordvolgorde [AUX+PART] gebruikt wordt, groter is dan in het Belgische Nederlands. (b) Over de onderlinge verhouding van de beide woordvolgordetypes binnen de twee taalgemeenschappen is daarmee niets gezegd. Als de variabele regio daarom in een verdere analyse apart afgezet wordt tegen de woordvolgorde, dan blijkt dat, in tegenstelling tot wat in de hypothese geformuleerd is, zowel het Belgische Nederlands als het Nederlandse Nederlands een grotere voorkeur hebben voor de rode volgorde [AUX+PART]: uit de contingentietabel blijkt nl. dat 63.3% van alle woordvolgordes in het Belgische Nederlands rood [AUX+PART] zijn, terwijl dat voor het Nederlandse Nederlands 74.3% is. Die dominante positie van de rode woordvolgorde [AUX+PART] kan vennoedelijk wel (op zijn minst gedeeltelijk) herleid worden tot een registerverschil: in de $ dataset is het aandeel van het krantenmatenaal 10 keer groter dan het aandeel van het :zl intemetmateriaal (cf. HYP,,,). ' HPregir - Aangezien er in het ConDiv-corpus geen gesproken materiaal aanwezig is, werd in eerste instantie gekeken naar andere types van registerverschilien. (a) Aan de hand van de regressieresultaten kan daarbij vastgesteld worden dat de kans op rode woordvolgorde [AUX+PART] versus de kans op groene woordvolgorde [PART+AUX] 5.6 keer groter is in regionale populaire kranten in vergelijking met Usenet, 4.8 keer groter is in kwaliteitskranten in vergelijking met Usenet en 3.7 keer groter is in de nationale populaire kranten in vergelijking met Usenet. Het IRC-materiaal verschilde in het regressiemodel niet significant van het Usenetmateriaal (p =,500). (b) Een tweede analyse, waarbij alleen de waarden van de variabele register afgezet worden tegen de beide woordvolgordetypes, laat een positieve correlatie zien tussen het aantal rode woordvolgordes [AUX+PART] en de formaliteit van de bronnen. Er kan nl. een constante afname van de rode woordvolgorde [AUX+PART] vastgesteld worden naarmate de focus verschuift van kwaliteitskranten naar het intemetmateriaal: van 75.1% voorkeur voor de rode volgorde [PART+AUX] in de kwaliteitskranten over 71.3% voorkeur in de nationale populaire kranten en 70.6% voorkeur in de regionale populaire kranten naar slechts 41.2% voorkeur in het Usenetmateriaal en 36.9% voorkeur in het IRC-materiaal. Om de initiële hypothese toch te kunnen testen, hebben we de tweede analyse uitgebreid met materiaal uit een voorlopige release van het Corpus Gesproken Nederlands 2002 (enkel de segmenten privédialogen, publieke dialogen en publieke monologen werden geselecteerd). De resultaten van die extra analyse laten duidelijk zien dat de positie van het gesproken materiaal ten opzichte van het geschreven materiaal complexer is dan de hypothese laat uitschijnen: beide types zijn niet duidelijk van elkaar te onderscheiden (althans wat de hier geanalyseerde syntactische variabele betreft), aangezien de publieke monologen (61.1% rode woordvolgordes [AUX+PART]) meer aansluiting lijken te zoeken bij de formelere geschreven taal, terwijl de publieke dialogen (40.5% rode woordvolgordes [AUXP+PART]) en privédialogen (27.8% rode woordvolgordes [AUXP+PART]) te vergelijken zijn met Usenet en IRC (de additionele waarden privédialogen, publieke dialogen en publieke monologen voor de factor register zijn echter voorlopig nog niet in het logistieke regressiemodel opgenomen). HYP,,,M - (a) De kans op rode woordvolgorde [AUX+PART] versus de kans op groene woordvolgorde [PART+AUX] ligt (telkens in vergelijking met een middenstuk van 6 woorden) 1.3 keer lager voor een middenstuk met 5 woorden, 1.5 keer lager voor een middenstuk met 4 woorden, 1.9 keer lager voor een middenstuk met 3 woorden, 3 keer lager

voor een middenstuk met 2 woorden en 4.8 keer lager met 1 woord in het middenstuk. (b) Een aparte analyse laat een positieve correlatie zien tussen lengte van het middenstuk en de keuze voor de rode woordvolgorde [AUX+PART] (conform de hypothese): hoe langer het middenstuk, hoe meer rode woordvolgordes [AUX+PART], nl. van 38.5% voorkeur voor de rode woordvolgorde [AUX+PART] in complementzinnen met een middenstuk dat slechts uit 1 woord bestaat, over 50.2% voorkeur voor een middenstuk met 2 woorden, 61.4% voorkeur voor een middenstuk met 3 woorden, 67.1% voorkeur voor een middenstuk met 4 woorden naar een voorkeur van 72.3% voor een middenstuk met 5 woorden en een voorkeur van 77.2% voor een middenstuk met 6 woorden. HYP,, - (a) Vergeleken met het hulpwerkwoord zijn in de verbale cluster stijgt de kans op rode woordvolgorde [AUX+PART] versus de kans op groene woordvolgorde [PART+AUX] 1.7 keer in het geval van het hulpwerkwoord hebben en 1.2 keer in het geval van het hulpwerkwoord worden. (b) Bij een afzonderlijke analyse kan vastgesteld worden dat (I) de rode woordvolgordes [AUX+PART] relatief het vaakst gekozen worden, onafhankelijk van het type hulpwerkwoord en dat (2) het hulpwerkwoord hebben het vaakst voor het deelwoord verschijnt [AUX+PART], meer bepaald in 74.4% van de gevallen, gevolgd door het hulpwerkwoord worden (66.9% rode woordvolgordes [AUX+PART]) en het hulpwerkwoord zijn (59.5% rode woordvolgordes [AUX+PART]). Die resultaten leiden tot een gedeeltelijke bevestiging van de hypothese: hebben komt vaker dan worden en zijn voor in de rode woordvolgorde [AUX+PART] of verschijnt, mutatis mutandis, minder in de groene woordvolgorde [PART+AUX]. Incongruent met de hypothese daarentegen komt het hulpwerkwoord zijn minder in de rode woordvolgorde [AUX+PART] voor dan het hulpwerkwoord worden, of, mutatis mutandis, komt zijn vaker na het deelwoord [PART+AUX] dan worden. HYP,,, - (a) De kans op rode woordvolgorde [AUX+PART] versus de kans op groene woordvolgorde [PART+AUX] daalt ongeveer 4 keer met een niet-samengesteld deelwoord in de verbale cluster in vergelijking met een scheidbaar samengesteld deelwoord in de verbale cluster. (b) Uit de specifieke analyse blijkt dat clusters met niet-samengestelde deelwoorden in 61.7% van de gevallen in de rode woordvolgorde [AUX+PART] verschijnen en dat scheidbaar samengestelde deelwoorden in 81.0% van de gevallen in een rode verbale eindgroep [AUX+PART] voorkomen. Dat resultaat bevestigt de hypothese. HYP,h - (a) Het structurele onderscheid tussen de prefixen -ge- enerzijds en -be- en -veranderzijds komt als significant uit de logistieke regressie: de kans op rode woordvolgorde [AUX+PART] versus de kans op groene woordvolgorde [PART+AUX] ligt bij deelwoorden die met -ge- geprefigeerd worden ongeveer 1.5 keer hoger dan deelwoorden die met -vergeprefigeerd worden. Deelwoorden die met -be- geprefigeerd worden, verschillen niet significant van -ver-deelwoorden. (b) De individuele analyse bevestigt de vermoedens die de regressieresultaten deden rijzen: deelwoorden met het prefix -ge- komen in 71.1% van de gevallen in de rode woordvolgorde [AUX+PART] voor, terwijl deelwoorden met een -beprefix en een -ver-prefix respectievelijk in 52.7% en 49.7% van de gevallen in de rode woordvolgorde voorkomen. 5. Conclusie en discussie In de voorliggende studie hebben we zes factoren statistisch geëvalueerd, waarvan in vroegere studies empirisch aangetoond werd dat ze een significante invloed uitoefenen op de keuze voor een van de beide woordvolgordeclusters [PART+AUX] en [AUX+PART] (de groene en rode woordvolgorde): regio (Vlaanderen versus Nederland), register (krantentaal versus intemettaal), de lengte van het middenstuk (1 versus 2 versus 3 versus 4 versus 5 versus 6 woorden), het íype hulpwerkwoord (zijn, hebben en worden), de morfologische opbouw van het deelwoord (scheidbaar samengesteld versus niet-samengesteld) en - als enige nieuwe onafhankelijke variabele in het woordvolgordeonderzoek - het inleidend morfeem van het deelwoord (-ge- versus -be- versus -ver-). Op basis van een uitgebreid corpus van geschreven taalgebruik werd voor elk van de zes factoren geverifieerd of ze een relevante impact hebben op de woordvolgordekeuze. In plaats van de traditionele chi-kwadraattest werd in deze studie geopteerd voor de krachtigere logistieke regressieanalyse. Uit die analyse kwam in de eerste plaats naar voren dat alle geselecteerde variabelen apart een significante impact hebben op de woordvolgorde. In de tweede plaats stelden we vast dat alle factoren samen een significante impact hebben op de woordvolgorde en kon er in de derde plaats geen redundante factoren ontdekt worden. In de vierde plaats kon op basis van de zes geïntroduceerde factoren 7 1.9% van de geobserveerde variatie correct voorspeld worden. Bij een specifiekere analyse kon vastgesteld worden dat het Nederlandse Nederlands relatief vaker de rode woordvolgorde [AUX+PART] gebruikt dan het Belgische Nederlands, was er een positieve correlatie tussen het gebruik van de rode volgorde [AUX+PART] en formaliteit van het taalmateriaal en tussen het gebruik van de rode volgorde [AUX+PART] en de lengte van het middenstuk. Verder konden we zien dat het hulpwerkwoord hebben een relatief grotere voorkeur heeft voor de rode woordvolgorde [AUX+PART] dan worden, dat op zijn beurt relatief vaker in een rode woordvolgorde [AUX+PART] voorkomt dan het hulpwerkwoord zijn. Op morfologisch vlak bleek dat niet-samengestelde deelwoorden relatief minder vaak in rode verbale clusters [AUX+PART] verschijnen dan scheidbaar samengestelde deelwoorden en kon vastgesteld worden dat deelwoorden met het prefix -ge- relatief vaker in de rode woordvolgorde [AUX+PART] voorkomen dan deelwoorden met het prefix -be- en -ver-. Toekomstig onderzoek zal de soliditeit van het gepresenteerde model moeten uitwijzen. De regressieanalyse heefì in ieder geval laten zien dat andere (taalinteme en taalexteme) variabelen in het model geïntroduceerd moeten worden om de graad van voorspellende kracht verder op te drijven. Noten ' Alle voorbeelden in dit artikel zijn geattesteerde zinnen of paradigmatische varianten van geattesteerde zinnen. Paradigmatische varianten worden enkel gecreëerd in de context van geattesteerde voorbeelden. Bij de geattesteerde zinnen wordt telkens de corpuslokatie vermeld: HLN = Het Laatste Nieuws, DS = De Standaard, HBVL = Het Belang van Limburg, GVA = Gazet van Anhverpen, NRC = NRC Handelsblad, DT = De Telegraaf; DL = De Limburger, Use-BL = Usenei- België, Use-NL = Usenet-Nederland, IRC-BL = IRC-België, IRC-NL = IRC-Nederland (zie ook paragraaf 2). Sinds Pauwels (1953) wordt de cluster [PART+AUX] (PART = participle of deelwoord, AUX = auxiliaty of hulpwerkwoord) ook wel de groene woordvolgorde genoemd, de cluster [AUX+PART] de rode woordvolgorde. In deze studie zal zowel de formele notatie als de traditionele terminologie gebruikt worden. ' Het morfeem -ge- kan beschouwd worden als een onderdeel van het deelwoordvormende circumfix - ge- + Vstam + -d4 (bv. maken => ge+maak+t). De morfemen -be- en -ver- daarentegen zijn strikt genomen geen deelwoordvormende morfemen, aangezien ze al in de verbale stam aanwezig zijn (beginnen => begonnen). Om die reden beschouwt men de deelwoorden met -be- en -ver- als formeel geleed. (Booij & van Santen 1998).