Een hengel voor te vissen: Marktplaats.nl als corpus voor onderzoek naar regionale variatie Niels Eigenraam * Abstract In this squib, it is suggested that the auction website Markplaats.nl constitutes a valuable corpus for the linguistic study of regional variation. By way of example it is shown that the infinitival construction with voor te rather than om te is more widespread in the Netherlands than has been claimed in the literature. 1 Inleiding Volgens de Dialectatlas van het Nederlands (Van der Sijs 2011) komt het gebruik van doelaanduidend voor, zoals in (1a), alleen voor in Vlaanderen en Nederlands-Limburg, terwijl daarbuiten uitsluitend om te + infinitief wordt gebruikt, zoals in (1b) (Jansen 2011: 251). (1) a. het was aardig van Jan voor te komen werken b. het was aardig van Jan om te komen werken In zijn bespreking van de SAND, waarop Van der Sijs (2011) is gebaseerd, stelde Van der Wouden (2008) al dat deze voorstelling niet juist is, en dat doelaanduidend voor in de SAND-gegevens voor Nederland ondergerapporteerd is. Hij wijt dat aan de gesloten vraagstelling van het SAND-onderzoek: de onderzoekers vroegen de geïnterviewden een zin met om te vertalen in hun dialect. Van der Wouden stelt dat vragen als komen zinnen als mee naar het bureau voor een proces-verbaal op te maken voor in uw dialect een ander beeld op hadden kunnen leveren (2008: 87). Voor definitief uitsluitsel in deze kwestie is hoe dan ook nader onderzoek noodzakelijk. Een struikelblok daarbij is dat er geen corpus bestaat dat specifiek geschikt is voor onderzoek naar regionale variatie in hedendaags Nederlands. Het Corpus Gesproken Nederlands blijkt in deze kwestie simpelweg te weinig gegevens op te leveren (paragraaf 3). Als alternatief wil ik in deze squib wijzen op de mogelijkheden van de veilingsite Marktplaats. * Universiteit Leiden. Email: nielseigenraam@gmail.com Nederlandse Taalkunde, jaargang 18, 2013-2 215
Niels Eigenraam nl. 1 Deze site stond in 2012 op nummer negen in de top tien van meest bezochte sites van Nederland. 2 Op ieder moment staan er rond de acht miljoen advertenties online en per dag komen er hier gemiddeld 300.000 bij. 3 Het taalmateriaal is actueel en meestal informeel. De voor mijn doel meest interessante eigenschap van Marktplaats-advertenties is echter dat bij iedere advertentie de plaats van herkomst van de adverteerder moet worden vermeld, waardoor regionale spreiding makkelijk in kaart te brengen is. In deze bijdrage worden de mogelijkheden en beperkingen van Markplaats.nl als corpus voor taalkundig onderzoek onderzocht aan de hand van een verkennend onderzoek naar de doelaanduidende constructie voor te + infinitief in het Nederlands Nederlands (paragraaf 4). In paragraaf 2 bespreek ik eerst de historische ontwikkeling van de constructie. 2 Ontwikkeling voor te + infinitief In hun Geschiedenis van het Nederlands in de Twintigste Eeuw signaleren Van der Horst en Van der Horst (1999) de opkomst van de voor te + infinitief-constructie in het Nederlands. Ze schetsen de ontwikkeling van de doelaanduidende constructie als volgt. In het Gotisch was de toevoeging van een infinitief, als in (2), genoeg om een zin doelaanduidend te maken. (2) urran þan jah Iosef us Galeilaia ( ) in baurg Daweidis sei haitada Beþlahaim ( ), anameljan miþ Mariin (Van der Horst 2008, dl.1: 219) Jozef ging van Galilea ( ) naar de stad van David die Bethlehem heet ( ), om beschreven te worden met Maria ( ) Daarnaast is komt ook een optioneel voorzetsel du voor, dat aan de infinitief vooraf kan gaan, zie (3). (3) Warþ þan, miþþanei þo wesun jainar, usfullnodedun dagos du bairan izai (Van der Horst 2008, dl.1: 219) En het geschiedde als zij daar waren, dat de dagen vervuld werden dat zij baren zou In het Middelnederlands verdwijnt de mogelijkheid om bedoeling aan te geven met behulp van kale infinitieven en gebruikt men de constructie te + infinitief in doelaanduidende zinnen. (4) Den beere te nemene sijn lijf/ liept al dat loepen mochte (Van der Horst & Van der Horst 1999: 134) In de loop van de tijd wordt de te + infinitief-constructie vervangen door om te + infinitief. 1 Op basis van een suggestie van Miryam de Hoo, die ik hiervoor veel dank ben verschuldigd. 2 www.alexa.nl/topsites/countries/nl 01-03-2013 3 www.marktplaats.nl/i/help/over-marktplaats/ 01-03-2013 216
Een hengel voor te vissen: Marktplaats.nl als corpus voor onderzoek naar regionale variatie (5) si ghinghen oec hout houwen/ omme te ziedene haer heten (Van der Horst & Van der Horst 1999:135) De infinitieven in (4) en (5) ondergaan nominale inflectie onder invloed van het voorzetsel (om) te. Tussen de 13 e en de 16 e eeuw wordt het gebruik van de om te + infinitief-constructie steeds frequenter, tot dit in de 17 e eeuw de norm wordt. De te + infinitief-constructie is dan zo goed als verdwenen. Van der Horst en Van de Horst zien in betekenisverlies van het voorzetsel te een mogelijke verklaring voor deze ontwikkeling. Tussen de 13 e en 16 e eeuw deed om zijn intrede in de constructie, ter versterking van de doelaanduidende betekenis. In de 20 e eeuw heeft dit proces zich herhaald, met betekenisverlies van om en substitutie door doelaanduidend voor (1999: 134-136). Een andere verklaring voor de verandering van om te naar voor te wordt gegeven door Ryckeboer (1984). Een interessante observatie van Ryckeboer is dat voor te + infinitief vooral voorkomt op plaatsen waar er intensief taalcontact is met het Frans. Het sterk geromaniseerde Middelengels heeft, naast de constructie for + infinitief, bijvoorbeeld een doelaanduidende constructie for to + infinitief. Ook in het Duits is deze invloed zichtbaar. In het Hoogduits komt de constructie um zu + infinitief voor, terwijl in de West-Duitse dialecten, die gesproken worden in een brede strook langs de Romaans-Germaanse taalgrens, sprake is van für zu + infinitief (Ryckeboer 1984: 86). Ryckeboer vermoedt echter dat de substitutie van om door voor een endogene ontwikkeling is, die past in een algemene evolutie in het Nederlands waarbij voor de functie van om overneemt. Een voorbeeld hiervan is het Middelnederlandse omme dat in zin (6) de notie doel uitdrukt. Modern Nederlands heeft in deze context voor. (6) die coninc quam omme jacht de koning kwam voor de jacht Op basis van zijn observaties concludeert Ryckeboer dat dit een relatief jonge ontwikkelingstendens is van het Nederlands, die versterkt wordt vanuit het Frans (Ryckeboer 1984: 88). 3 CGN Als er inderdaad sprake is van een tendens zoals Ryckeboer die beschrijft, is het aan te nemen dat deze zich sinds het verschijnen van zijn artikel in 1984 verder heeft verspreid richting het noorden. Om hier meer inzicht in te krijgen is, zoals beschreven in de inleiding, allereerst getracht om het gebruik van voor in doelaanduidende constructies te onderzoeken met behulp van het Corpus Gesproken Nederlands (CGN). Voor dit onderzoek is een corpus samengesteld uit alle fragmenten uit Nederland, in totaal 8856. De zoekactie resulteerde in een verzameling van 13 zinnen met de voor te + infinitief-constructie. In tabel 1 is het aantal gevallen per provincie weergegeven. 217
Niels Eigenraam Provincie Aantal % Noord-Brabant 4 30,77% Limburg 4 30,77% Gelderland 2 15,38% Friesland 1 7,69% Overijssel 1 7,69% Onbekend 1 7,69% Groningen 0 0,00% Drenthe 0 0,00% Flevoland 0 0,00% Utrecht 0 0,00% Noord-Holland 0 0,00% Zuid-Holland 0 0,00% Zeeland 0 0,00% totaal 13 100,00% Tabel 1: Aantal gevallen per provincie Hoewel deze gegevens laten zien dat de constructie in elk geval ook in Noord-Brabant voorkomt, biedt het corpus te weinig gegevens om daar verdere conclusies aan te kunnen verbinden. Daarom is besloten het onderzoek te herhalen met behulp van een corpus van Marktplaats-advertenties. 4 Markplaats als corpus De zoekapplicatie van Marktplaats.nl is ontwikkeld om te zoeken naar advertenties. Dit houdt in dat de applicatie is toegespitst op het zoeken met trefwoorden. Een efficiënte zoekmethode voor taalkundig onderzoek ontbreekt dus. Google levert hier echter een oplossing voor: met behulp van de term site: is het mogelijk om Google slechts één domein te laten doorzoeken, in plaats van het hele internet. Gecombineerd met de constructie waarnaar gezocht wordt is het mogelijk om het Marktplaats-domein te doorzoeken. Voor dit onderzoek is gebruik gemaakt van de zoekterm in (12). (12) site:marktplaats.nl voor te Het verzamelen van de gegevens bleek echter een tijdrovend proces. Het doorzoeken van Marktplaats.nl met Google is immers een omweg. Onder de resultaten bevonden zich dan 218
Een hengel voor te vissen: Marktplaats.nl als corpus voor onderzoek naar regionale variatie ook een groot aantal dode links, die verwezen naar niet-bestaande advertenties. Daarnaast leidden sommige links naar overzichtspagina s met zoekresultaten in plaats van naar een advertentie. In deze gevallen kon de advertentie alsnog worden gevonden door het Google-resultaat te kopiëren en in de Marktplaats-zoekmachine te plakken. Binnen de zoekresultaten moesten de voor te + infinitief-gevallen vervolgens handmatig opgespoord worden. Het grootste gedeelte van de resultaten bestond uit scheidbaar samengestelde werkwoorden met voor, zoals in (13), en gevallen waarin voor deel is van een voornaamwoordelijk bijwoord, zoals in (14) en (15). (13) om voor te lezen (14) overal voor te gebruiken (15) ik hoef er niet veel voor te hebben Vanwege het tijdrovende proces en de grote hoeveelheid ruis in de resultaten is besloten voor deze verkennende studie slechts gebruik te maken van 150 gevallen van de voor te + infinitief-constructie. In tabel 2 is het aantal gevallen van voor te + infinitief per provincie weergegeven. Provincie Aantal % Noord-Brabant 54 36,00% Limburg 45 30,00% Noord-Holland 14 9,33% Gelderland 12 8,00% Zuid-Holland 9 6,00% Flevoland 3 2,00% Utrecht 3 2,00% Zeeland 3 2,00% Groningen 2 1,33% Drenthe 2 1,33% Overijssel 2 1,33% Friesland 1 0,67% Onbekend 0 0,00% totaal 150 100,00% Tabel 2: Gevallen voor te + infinitief per provincie. Het resultaat is duidelijk en bevestigt de indicatie uit het CGN dat de constructie ook of zelfs vooral voorkomt in Noord-Brabant. Om dat met zekerheid te kunnen stellen is het 219
Niels Eigenraam wel belangrijk Tabel 2 te vergelijken met een willekeurige steekproef, die een indicatie geeft van de opbouw van de Marktplaats-populatie. Het is in theorie immers mogelijk dat de verdeling in Tabel 2 simpelweg overeenkomt met de verdeling van het totale aantal advertenties over de provincies van Nederlands, waarin Noord-Brabant en Limburg oververtegenwoordigd zouden kunnen zijn. Dat blijkt echter niet uit Tabel 3. Provincie Aantal % Zuid-Holland 37 24.67% Noord-Holland 21 14.00% Noord-Brabant 19 12.67% Gelderland 18 12.00% Limburg 14 9.33% Overijssel 9 6.00% Utrecht 8 5.33% Groningen 8 5.33% Friesland 8 5.33% Drenthe 5 3.33% Flevoland 2 1.33% Zeeland 1 0.67% Onbekend 0 0.00% totaal 150 100.00% Tabel 3: Willekeurige steekproef van 150 Marktplaats-advertenties. Terwijl een aanzienlijk deel van de voor te-gevallen afkomstig is uit Noord-Brabant en Limburg (respectievelijk 36% en 30%), laat Tabel 3 zien dat in een willekeurige steekproef slechts 12.67% van de advertenties afkomstig is uit Noord-Brabant en 9,33% uit Limburg. Hieruit kan worden opgemaakt dat de doelaanduidende constructie met voor te aanzienlijk vaker voorkomt in de zuidelijke provincies. De stelling van Jansen (2011) dat voor te + infinitief buiten Limburg niet voorkomt is hiermee weerlegd vooral gezien het hoge aantal gevallen uit Noord-Brabant. Feitelijk blijkt de constructie in heel Nederland voor te komen. 5 Ten slotte Zeker in vergelijking met de 13 gevallen van de constructie die gevonden werden in het CGN, laat het grote aantal voor te + infinitief -gevallen op Marktplaats.nl zien dat we 220
Een hengel voor te vissen: Marktplaats.nl als corpus voor onderzoek naar regionale variatie met deze website de beschikking hebben over een grote, actuele en bruikbare bron van taalmateriaal, dat bovendien naar regio 4 kan worden onderscheiden. Hierbij moet echter wel worden opgemerkt dat advertenties op een veilingsite een heel specifiek tekstgenre vertegenwoordigen, met mogelijke beperkingen op het aantal en de soort constructies die ingezet worden. Uit het vergelijkbare onderzoek van Erik Tjong Kim Sang (2011) naar het gebruik van Twitter voor taalkundige doeleinden blijkt echter ook dat dit soort specifieke online gegevens interessant materiaal leveren voor corpuslinguistiek. Een oplossing voor de praktische struikelblokken bij het gebruik van marktplaats.nl als corpus, is in de eerste plaats het automatiseren van het downloadproces, zodat in relatief korte tijd grote hoeveelheden advertenties kunnen worden gedownload (inclusief relevante metadata als herkomst van de adverteerder, tijdstip van downloaden, onderwerp van de advertentie etc.). Hierbij kan worden gedacht aan het gebruiken van een programma als curl, zoals Erik Tjong Kim Sang heeft gedaan voor het downloaden van Twitterberichten. Als met een parser ook nog de grammaticale structuur van de zinnen (automatisch) is ontleed en geannoteerd, kan met behulp van Markplaats.nl een grote stap worden gezet in de variatielinguïstiek. Bibliografie Jansen, M. (2011), Het was aardig van Jan om te komen werken. In Sijs, N. van der (red.). Dialectatlas van het Nederlands, p. 251. Amsterdam: Uitgeverij Bert Bakker. Horst, J.M. van der & K. van der Horst (1999). Geschiedenis van het Nederlands in de twintigste eeuw. Den Haag: Sdu Uitgevers; Antwerpen: Standaard. Horst, J.M. van der (2008) Geschiedenis van de Nederlandse Syntaxis, 2 dl. Leuven: Universitaire Pers Leuven. Ryckeboer, H. (1982). Voor te + infinitief. Verkenning naar de dynamiek van een dialectisme. Taal en Tongval 35, 83 89. Sijs, N. van der (red.) (2011), Dialectatlas van het Nederlands. Amsterdam: Uitgeverij Bert Bakker. Tjong Kim Sang, E. (2011). Het Gebruik van Twitter voor Taalkundig Onderzoek. TABU: Bulletin voor Taalwetenschap 39(1/2), 62-72. Wouden, T. van der (2008). De syntactische atlas van de Nederlandse dialecten, deel 1. Tijdschrift voor Nederlandse taal- en letterkunde, TNTL 124(2), 81-95. 4 Een punt van aandacht is hierbij wel dat woonplaats niet gelijk is aan plaats van herkomst. Het taalgebruik van individuen wordt in hoge mate bepaald door de plaats waar zij zijn opgegroeid en de duur van de periode waarin zij op een bepaalde plek blijven. Door de enorme hoeveelheden data die op Marktplaats beschikbaar zijn is het echter mogelijk dat het effect van deze factoren wordt beperkt. 221