Tekstuele databestanden 1 Tekstuele databestanden Maarten Marx Universiteit van Amsterdam 2 December 2009
Tekstuele databestanden 2 Wie ben ik? Politicoloog en informaticus. Specialismes: Kennisrepresentatie, XML, zoektechnologie. Samenwerking met Stemwijzer, KiesKompas, Koninklijke Bibliotheek, DANS.
Tekstuele databestanden 3 Wat doe ik? Intelligente Informatie Ontsluiting
Tekstuele databestanden 4 Onderwerp van vandaag Digitale ontsluiting van enorme tekstuele databestanden, zodat ze beschikbaar zijn voor grootschalige machinale kwantitatieve data en inhouds analyse, gedaan door alpha en gamma wetenschappers.
Tekstuele databestanden 5 Inhoud Voorbeeld van zo n databestand Aantal toepassingen daarop Knelpunten Boodschap
Tekstuele databestanden 6 Longitudinale data wekelijkse meting sinds meer dan 150 jaar vrijwel onveranderde meetprocedure en datamodel
Tekstuele databestanden 7 Data over menselijk gedrag
Tekstuele databestanden 8 Vaak wat saai
Tekstuele databestanden 9 Maar vaak ook vol drama, spanning en sensatie
Tekstuele databestanden 10 Heel veel meetpunten 24.000 dagen, 450.000 onderwerpen, 7.5 miljoen spreekbeurten
Tekstuele databestanden 11 Digitaal beschikbaar
Tekstuele databestanden 12 De Handelingen der Staten Generaal
Tekstuele databestanden 13 Gegevens over de collectie zeer beperkte metadata maar uitgebreide metadata zit verborgen in de data zelf Rijk datamodel Vergadering (1 Dag) Onderwerp Blok Spreekbeurt
Tekstuele databestanden 14 Wat kan je hier nou mee?
Tekstuele databestanden 15 Toepassing 1: Interruptiegraaf Lid A interrumpeert B A spreekt tijdens het blok van B.
Tekstuele databestanden 16 Toepassing 2: Trends van Frames Proefschrift Rens Vliegenthart (2007)
Tekstuele databestanden 17 Fijnmaziger beeld We weten van elk woord wanneer het gezegd is, door wie, en in welke hoedanigheid. Scala aan toepassingsmogelijkheden.
Tekstuele databestanden 18 Toepassing 3: Populistisch taalgebruik in de Kamer Proefschrift Jan Jagers (2006).
Tekstuele databestanden 19 Toepassing 4: Zoeken naar politici We kunnen van elke politicus automatisch een profiel opstellen, op basis van uitspraken in de kamer, ingediende moties en kamervragen. Dan kunnen we politici koppelen aan onderwerpen.
Tekstuele databestanden 20 Toepassing 5: Glazen Plafond in de Kamer? Er zit nu een recordaantal van meer dan 40% vrouwen in de Tweede Kamer. Zijn zij ook evenredig veel aan het woord? Vervolgvragen: Verschilt dit per onderwerp? Verschilt de vrouw(on)vriendelijkheid per partij? Hoe zat het vroeger? Mooi onderwerp voor een bachelorscriptie.
Tekstuele databestanden 21 Makkelijk toch? Conceptueel helder. Duidelijke operationalisatie. Heel eenvoudig te programmeren (niet veel meer dan woordjes tellen) Maar...
Tekstuele databestanden 22 Tussen woord en daad staan... data niet bewerkbaar (want in PDF), niet in één formaat, niet op één plek, niet verbonden met andere bronnen, niet...
Tekstuele databestanden 22 Tussen woord en daad staan... data niet bewerkbaar (want in PDF), niet in één formaat, niet op één plek, niet verbonden met andere bronnen, niet... dat is allemaal op te lossen, maar...
Tekstuele databestanden 22 Tussen woord en daad staan... data niet bewerkbaar (want in PDF), niet in één formaat, niet op één plek, niet verbonden met andere bronnen, niet... dat is allemaal op te lossen, maar... de probleemhouders hebben de kennis vaak niet om met tekst-data om te gaan. Geef studenten een vak Tekstanalyse door computers.
Tekstuele databestanden 23 Boodschap 1. Tekst wordt dé data van de toekomst. 2. Een goed ontsloten tekst-bestand bevat ruwe én bewerkte data inéén. 3. Tekst databestanden zijn nóóit af, inherent dynamisch en longitudinaal. 4. Academische wereld moet oppassen om de boot niet te missen [Computational Social Science, Science, 2009].
Tekstuele databestanden 24 Bedankt maartenmarx@uva.nl