Text Mining/Linked Data 1 Text Mining/Linked Data Maarten Marx Universiteit van Amsterdam Den Haag 2010-02-09
Text Mining/Linked Data 2 Doel van project 1. impliciete verbanden in Kamerstukken expliciet maken 2. laten zien wat je daar dan mee kan. Relatie met Topic Maps: niet meer document gericht werken, maar vanuit personen, dossiers, en onderwerpen.
Text Mining/Linked Data 3 De handelingen... wekelijkse meting sinds meer dan 150 jaar vrijwel onveranderde meetprocedure en datamodel
Text Mining/Linked Data 4 Data over menselijk gedrag
Text Mining/Linked Data 5 Vaak wat saai
Text Mining/Linked Data 6 Maar vaak ook vol drama, spanning en sensatie
Text Mining/Linked Data 7 Heel veel meetpunten 24.000 dagen, 450.000 onderwerpen, 7.5 miljoen spreekbeurten
Text Mining/Linked Data 8 Digitaal beschikbaar
Text Mining/Linked Data 9 De Handelingen der Staten Generaal
Text Mining/Linked Data 10 Gegevens over de collectie zeer beperkte metadata maar uitgebreide metadata zit verborgen in de data zelf Rijk datamodel Vergadering (1 Dag) Onderwerp Blok Spreekbeurt
Text Mining/Linked Data 11 Wat kan je hier nou mee?
Text Mining/Linked Data 12 Koppeling Handelingen aan personen Wie is er aan het woord? Wat wordt precies door wie gezegd?
Text Mining/Linked Data 13 Toepassingen Samenvatting van een betoog van één spreker Verbind sprekers met hun biografie Een ouder voorbeeld (Voorzitter, link naar dossiers) Biopagina met parlementaire activiteiten Dynamisch en altijd up to date.
Text Mining/Linked Data 14 Een echt goed beeld van de kamerleden Als we van elk kamerlid weten wat zij zegt, vraagt, indient,..., dan kunnen we een heel nauwkeurig profiel van haar maken.
Text Mining/Linked Data 14 Een echt goed beeld van de kamerleden Als we van elk kamerlid weten wat zij zegt, vraagt, indient,..., dan kunnen we een heel nauwkeurig profiel van haar maken. en op basis daarvan heel gericht en nauwkeurig zoeken.
Text Mining/Linked Data 15 Op 2 manieren zoeken naar het juiste kamerlid Vergelijk zoeken naar kamerleden over islam op basis van een geschreven en statische biografie, en een dynamische bio inclusief alle parlementaire activiteiten
Text Mining/Linked Data 16 Toepassing 1: Interruptiegraaf Lid A interrumpeert B A spreekt tijdens het blok van B.
Text Mining/Linked Data 17 Toepassing 2: Trends van Frames Proefschrift Rens Vliegenthart (2007)
Text Mining/Linked Data 18 Fijnmaziger beeld We weten van elk woord wanneer het gezegd is, door wie, en in welke hoedanigheid. Scala aan toepassingsmogelijkheden.
Text Mining/Linked Data 19 Toepassing 3: Populistisch taalgebruik in de Kamer Proefschrift Jan Jagers (2006).
Text Mining/Linked Data 20 Toepassing 4: Zoeken naar politici We kunnen van elke politicus automatisch een profiel opstellen, op basis van uitspraken in de kamer, ingediende moties en kamervragen. Dan kunnen we politici koppelen aan onderwerpen.
Text Mining/Linked Data 21 Toepassing 5: Glazen Plafond in de Kamer? Er zit nu een recordaantal van meer dan 40% vrouwen in de Tweede Kamer. Zijn zij ook evenredig veel aan het woord? Vervolgvragen: Verschilt dit per onderwerp? Verschilt de vrouw(on)vriendelijkheid per partij? Hoe zat het vroeger? Mooi onderwerp voor een bachelorscriptie.
Text Mining/Linked Data 22 Makkelijk toch? Conceptueel helder. Duidelijke operationalisatie. Heel eenvoudig te programmeren (niet veel meer dan woordjes tellen) Maar...
Text Mining/Linked Data 23 Tussen woord en daad staan... data niet bewerkbaar (want in PDF), niet in één formaat, niet op één plek, niet verbonden met andere bronnen, niet...
Text Mining/Linked Data 23 Tussen woord en daad staan... data niet bewerkbaar (want in PDF), niet in één formaat, niet op één plek, niet verbonden met andere bronnen, niet... dat is allemaal op te lossen, maar...
Text Mining/Linked Data 23 Tussen woord en daad staan... data niet bewerkbaar (want in PDF), niet in één formaat, niet op één plek, niet verbonden met andere bronnen, niet... dat is allemaal op te lossen, maar... de probleemhouders hebben de kennis vaak niet om met tekst-data om te gaan. Geef studenten een vak Tekstanalyse door computers.
Text Mining/Linked Data 24 Boodschap 1. Tekst wordt dé data van de toekomst. 2. Een goed ontsloten tekst-bestand bevat ruwe én bewerkte data inéén. 3. Tekst databestanden zijn nóóit af, inherent dynamisch en longitudinaal. 4. Academische wereld moet oppassen om de boot niet te missen [Computational Social Science, Science, 2009].
Text Mining/Linked Data 25 Bedankt maartenmarx@uva.nl