Het ontsluiten van Nederlandse Parlementaire Publicaties naar Brits voorbeeld

Maat: px
Weergave met pagina beginnen:

Download "Het ontsluiten van Nederlandse Parlementaire Publicaties naar Brits voorbeeld"

Transcriptie

1 Afstudeerproject Bachelor Informatiekunde 2008 Universiteit van Amsterdam Het ontsluiten van Nederlandse Parlementaire Publicaties naar Brits voorbeeld Naam student: Tim Gielissen Opleiding: Bachelor Informatiekunde Begeleider: Dr. Maarten Marx Tweede beoordelaar: Valentin Jijkoun Datum ingediend:

2 Inhoudsopgave 1 Inleiding... 3 Overzicht van de scriptie Achtergrond Inleiding Nederland... 5 Staten-Generaal Digitaal (SGD)... 5 Parlando... 6 Sargasso: Actie Open Democratie Overige gerelateerde Nederlandse initiatieven Internationaal... 7 Het Europese Parlement... 7 TheyWorkForYou.com Conclusies Analyse Analyse huidige situatie Gewenste situatie Literatuur Conclusies De data De oorspronkelijke data Formaten Structuur Metadata Data-opslag en transformatie Kwaliteit van de originele data Datavergaring methode Datavergaring resultaat Kwaliteit van de opgehaalde data Conclusies Ontwikkeling van het systeem ETL-proces Fase 1: Extractie Fase 2: Integratie Fase 3: Aggregatie Resultaat: De database Het ontwikkelen van de Website/Zoekmachine De website: Algemeen De website: Zoeken De website: De zoekmachine De website: Resultaten De pipeline Conclusies Discussie Sargasso en PoliDocs De speerpunten van het project Bezoek aan de Tweede Kamer Beperkingen Zwakke punten Conclusies Vervolgonderzoek Conclusie Referenties Bijlagen Brief Sargasso: Actie Open Democratie Voorbeeld Invoerbestand (Originele PDF) Voorbeeld tussen-uitvoer (uitvoer pdftohtml) Voorbeeld uiteindelijke uitvoer (uitvoer eigen script) Document Type Definition (DTD) samengevoegde schema Het ontsluiten van Nederlandse Parlementaire Publicaties 2

3 1 Inleiding 1 I N L E I D I N G De Staten-Generaal van het Koninkrijk der Nederlanden vertegenwoordigt het volk van Nederland. Het parlement, zoals de Staten-Generaal ook wel genoemd wordt, heeft onder andere als taak de regering te controleren en heeft ook een aandeel in de besluitvorming op nationaal niveau. Met deze taak komt de plicht mee om verantwoording af te leggen aan het volk. Het parlement vertegenwoordigt immers de burgers van Nederland. Onder andere om deze reden verschijnen er dagelijks Parlementaire publicaties. Dit zijn bijvoorbeeld agenda s van de Eerste en Tweede Kamer of uitwerkingen van Kamervragen uit de Eerste en Tweede Kamer. Dagelijks verschijnen er vele tientallen van dit soort publicaties. Het is onduidelijk hoeveel mensen actief deze publicaties doornemen of wat voor soort mensen hier gebruik van maken, maar er kan toch wel met een behoorlijke mate van zekerheid gezegd worden dat het grootste deel van de Nederlandse bevolking deze publicaties niet doorneemt. Het is ook veel informatie voor één persoon om door te nemen op een dag naast de normale dagelijkse bezigheden. De meeste mensen zullen de politiek volgen via nieuwsberichten. Naast het informeren van het volk over wat er de afgelopen dag gebeurd is, hebben de Parlementaire publicaties ook nog een andere functie. Alle Parlementaire publicaties worden namelijk bewaard zodat er een archief ontstaat waarin mensen kunnen zoeken. Op dit moment zijn er twee van zulke archieven op het internet. De Koninklijke Bibliotheek heeft de Parlementaire publicaties van 1984 tot 1995 beschikbaar gesteld 1 en SDU uitgevers stelt de Parlementaire publicaties van 1995 tot heden beschikbaar op hun website 2. Mensen kunnen in deze archieven zoeken in de verschillende soorten documenten. Ze kunnen bijvoorbeeld zoeken naar de ontwikkelingen rond een bepaalde wet of zoeken naar eerdere publicaties rondom een onderwerp dat weer actueel is geworden om zo achtergrondinformatie te krijgen. De Parlementaire publicaties hebben dus twee functies voor het volk: 1. Het volk informeren over de dagelijkse gang van zaken 2. Een archief bijhouden waarin men kan zoeken De eerste functie lijkt voor het grootste deel overgenomen te zijn door nieuwsmedia. Het voordeel hiervan is dat de populariteit van het nieuws ervoor zorgt dat belangrijke politieke gebeurtenissen bij veel mensen bekend zijn. Het nadeel is dat nieuws niet compleet is. Er wordt alleen aandacht besteed aan de onderwerpen of gebeurtenissen die genoeg nieuwswaarde hebben. De tweede functie wordt nog wel vervult door de uitgevers van de Parlementaire publicaties (die werken in opdracht van de overheid). Er zijn echter geluiden uit de maatschappij gekomen dat vooral het archief met hedendaagse informatie niet naar wens functioneert. Zo is het collectieve weblog Sargasso in 2005 de Actie Open Democratie 1.0 begonnen waarin ze aandacht vragen voor deze kwestie (Actie Open Democratie De brief, 2005). Ze hebben een brief geschreven aan de Tweede Kamer die onder andere een lijst met wensen/eisen voor een eventueel nieuwe site bevatte. De twee functies worden dus nog niet naar behoren vervult aan de hand van de Parlementaire publicaties als primaire bron. In dit onderzoek wordt er gekeken of deze situatie verbeterd kan worden door een oplossing te ontwerpen en deels te realiseren. Als uitgangspunt wordt een soortgelijke website gebruikt, die voor een groot deel ook voldoet aan de wensen van Sargasso, namelijk: TheWorkForYou.com 3. Deze Engelse website ontsluit de Parlementaire publicaties van het Verenigd Koninkrijk van Groot-Brittannië en Noord Ierland. De hoofdvraag van dit onderzoek luidt als volgt: Is het mogelijk om Nederlandse Parlementaire publicaties van 1814 tot heden te ontsluiten op een soortgelijke manier als TheyWorkForYou.com dat doet voor de Britse Parlementaire data sinds 2001, waarbij rekening gehouden wordt met de specificaties van de "Actie Open Democratie 1.0"? 1 Staten-Generaal Digitaal, 2 Parlando, 3 TheyWorkForYou.com, Het ontsluiten van Nederlandse Parlementaire Publicaties 3

4 Om een dergelijke ontsluiting te kunnen realiseren zullen verschillende bronnen gecombineerd moeten worden, in ieder geval de collecties van de Koninklijke Bibliotheek en van SDU Uitgevers. Dit zal waarschijnlijk één van de grootste uitdagingen vormen voor een dergelijke ontsluiting. Daarom is er een tweede, meer technische hoofdvraag opgesteld, namelijk: Is het mogelijk de dataontsluiting robuust te maken voor alle problemen die ontstaan door het werken met zeer gevarieerde, oude data (veranderende werkwijzes en layout, spellings-variatie, OCR-problemen, etc.)? Om deze beide hoofdvragen te beantwoorden zijn er verscheidene deelvragen opgesteld, te weten: V1. Hoe is de huidige stand van zaken rondom de ontsluiting van Parlementaire publicaties in Nederland en in het buitenland? V2. Hoe verhouden de websites die Nederlandse Parlementaire publicaties aanbieden zich tot de gewenste situatie die geschetst kan worden door een combinatie van de wensen van Sargasso en het voorbeeld TheyWorkForYou.com? V3. Wat wordt er in de literatuur gezegd over het ontwikkelen van een systeem zoals het systeem dat in dit project beoogd wordt om te maken en wat zijn de mogelijke gevaren die beschreven worden? V4. Wat zijn de kenmerken van de originele data van Staten-Generaal Digitaal en Parlando en wat moet er gebeuren met deze data? V5. Wat is de kwaliteit van de originele data en van de opgehaalde data? V6. Hoe wordt de data opgehaald en wat voor resultaten levert dat op? V7. Hoe zijn in dit project de drie fases van het ETL-proces dat in de literatuur wordt beschreven ingevuld en verlopen? V8. Wat heeft het ontwikkelen van de website/zoekmachine opgeleverd? V9. Hoe verhoudt de zoekmachine/website zich tot de specificaties opgesteld in de Actie Open Democratie 1.0 door Sargasso en de speerpunten die in dit project zijn opgesteld? V10. Hoe wordt de zoekmachine/website ontvangen bij professionele gebruikers? V11. Wat zijn de beperkingen van het project en de zwakke punten van het ontwikkelde systeem? V12. Wat moet er in verder onderzoek gebeuren om het ontwikkelde systeem verder te verbeteren? Deze deelvragen zullen door de verschillende secties heen beantwoord worden om uiteindelijk tot een conclusie te komen waarin teruggeblikt wordt op de hoofdvragen. In dit onderzoek zal er voornamelijk gewerkt worden met de Handelingen. Een project dat parallel loopt aan dit project zal meer gericht zijn op de Kamervragen. Op verschillende punten zal worden samengewerkt en dit zal ook worden aangegeven. Overzicht van de scriptie In de volgende sectie zal er gekeken worden naar de huidige stand van zaken. De verschillende soortgelijke projecten in zowel het binnenland als het buitenland zullen worden beschreven. Daarna volgt de sectie over de data waarmee gewerkt is. In die sectie zal de data vanuit verschillende invalshoeken beschreven worden. Vervolgens wordt de ontwikkeling van het systeem en de website beschreven in verschillende fases. Hierbij worden de resultaten ook al gepresenteerd. In de sectie Discussie worden deze resultaten onder de loep genomen. Hier wordt de ontwikkelde website onder andere vergeleken met de wensen uit de Actie Open Democratie 1.0. In de laatste sectie voor de afsluiting wordt er nog gekeken naar mogelijk vervolgonderzoek. De scriptie wordt afgesloten met het beantwoorden van de hoofdvragen. Het ontsluiten van Nederlandse Parlementaire Publicaties 4

5 2 Achtergrond 2 A C H T E R G R O N D In de sectie Achtergrond wordt er gekeken naar verschillende werken en initiatieven die gerelateerd zijn aan dit project. Deze sectie zal de eerste deelvraag beantwoorden: Hoe is de huidige stand van zaken rondom de ontsluiting van Parlementaire publicaties in Nederland en in het buitenland? 2.1 Inleiding De werken en initiatieven die in deze sectie besproken zullen worden, zullen vergeleken worden op de volgende punten: - periode waaruit de publicaties komen die beschikbaar gesteld worden - documenttypes die aangeboden worden dit kunnen bijvoorbeeld Kamervragen zijn, of agenda s - het gebruik van permanente links (permalinks) permalinks zijn URL s die hetzelfde blijven waardoor er altijd naar verwezen kan blijven worden - de documentformaten waarin de Handelingen worden aangeboden bijvoorbeeld PDF, of Microsoft Word-documenten - de zoekfuncties en de antwoordeenheid van de Handelingen. de zoekfuncties zijn de mogelijkheden die gebruikers hebben om te zoeken op een bepaalde site de antwoordeenheid van de handelingen geeft aan wat een gebruiker terugkrijgt als hij zoekt in de Handelingen, dit kan bijvoorbeeld een hele vergadering zijn, of slechts een deel ervan Op het einde van deze sectie worden al deze punten samengebracht in één overzichtstabel. 2.2 Nederland In Nederland zijn er twee belangrijke bronnen van Parlementaire publicaties, namelijk Staten-Generaal Digitaal (SGD) en Parlando. Deze twee bronnen zullen hier beide, apart besproken worden. Vervolgens wordt er gekeken naar enkele initiatieven die te maken hebben met de ontsluiting van Parlementaire publicaties. Staten-Generaal Digitaal (SGD) De website Staten-Generaal Digitaal is de website van de Koninklijke Bibliotheek waarop Parlementaire publicaties worden aangeboden uit de periode van 1984 tot Van die periode zijn de Kamervragen, Handelingen en Kamerstukken beschikbaar. Kamerstukken zijn schriftelijk uitgewisselde stukken tussen de regering en het parlement. Deze collectie is nog steeds aan het uitbreiden. De bedoeling is om de Parlementaire publicaties sinds 1814 op te nemen in de collectie. De Koninklijke Bibliotheek wil in de toekomst ook nog andere documenttypes aanbieden op de website, bijvoorbeeld registers. Al het materiaal dat op Staten-Generaal Digitaal staat is een gedigitaliseerde vorm van een papieren document. Voor het omzetten van een papieren document naar een digitaal document wordt de techniek Optical Character Recognition (OCR) gebruikt, in het Nederlands ook wel optische tekenherkenning genoemd. Het papieren document wordt gescand en de software probeert vervolgens in de afbeelding de tekst en de positie van de tekst te herkennen. De afbeelding, de tekst en informatie over de tekst (grootte, positie, etc.) worden samengevoegd in een Portable Document Format (PDF) bestand. Als een gebruiker het PDF-bestand opent dan ziet hij de afbeelding. De tekstlaag eronder wordt voornamelijk gebruikt om te kunnen zoeken in de bestanden en om bepaalde woorden te kunnen markeren. Op de website van Staten-Generaal Digitaal worden deze beide mogelijkheden gebruikt. De tekstlaag is vooral belangrijk om de PDF-bestanden doorzoekbaar te maken. Bij het proces van het digitaliseren wordt ook voor ieder document met de hand metadata toegevoegd, ofwel informatie over het betreffende bestand. Op Staten-Generaal Digitaal wordt deze metadata niet getoond, maar alleen gebruikt om de gebruikers te laten zoeken. Het ontsluiten van Nederlandse Parlementaire Publicaties 5

6 Bezoekers van de website kunnen op twee manieren zoeken, namelijk eenvoudig zoeken en uitgebreid zoeken. Bij eenvoudig zoeken kan de gebruiker zoekwoorden invoeren en aangeven in welke vergaderjaren hij wil zoeken. Uitgebreid zoeken biedt de gebruiker meer opties. Naast zoekwoorden en vergaderjaar kan de gebruiker ook aangeven van welke Kamer hij resultaten wil zien en welke documenttypes opgenomen moeten worden in de zoekresultaten. Alle drie de documenttypes hebben ook nog eigen zoekopties, zoals het opgeven van een titel, een datum, paginanummers of andere kenmerkende nummers. Beide manieren van zoeken komen uit bij dezelfde resultatenpagina. De resultaten worden gepresenteerd in een geordende lijst. De ordening van deze lijst is onbekend. Er lijkt gebruikt gemaakt te worden van een stapsgewijze ordening die voornamelijk gebaseerd is op de datum. Ieder resultaat is op drie manieren te bekijken. Ten eerste wordt het PDF-bestand aangeboden. Gebruikers kunnen dit opslaan op hun eigen computer. Verder is er ook een mogelijkheid om het PDF-bestand binnen de site zelf te bekijken binnen de zogenaamde docviewer. Deze docviewer kan de gebruiker de pagina tonen die relevant is voor zijn zoekopdracht, ook al is dit niet de eerste pagina van het PDF-bestand. Ook kan de docviewer de zoektermen markeren. Dit zijn twee functionaliteiten die niet te bieden zijn bij het downloaden van het originele PDF-bestand. Ten slotte is er ook nog de optie om het resultaat als HTMLbestand te bekijken. Hierin staat de tekst uit het PDF-bestand dan als tekst, zonder opmaak. Een handeling is op Staten-Generaal Digitaal terug te vinden in één bestand. Een vergadering is dus gedocumenteerd in één PDF-bestand. Staten-Generaal Digitaal maakt gebruik van zogenaamde permalinks. Permalinks zijn webadressen die altijd hetzelfde blijven. Hierdoor ontstaat bijvoorbeeld de mogelijkheid om direct te verwijzen naar ieder PDFbestand dat op de website wordt aangeboden. Parlando Parlando is de website van SDU uitgevers waar de Parlementaire publicaties van 1995 tot heden op gepubliceerd worden. De site wordt bijna dagelijks aangevuld met de meest recente publicaties. Het materiaal op Parlando is niet gedigitaliseerd zoals dat bij Staten-Generaal Digitaal het geval is. Het materiaal op Parlando heeft een digitaal origineel. Parlando biedt meer verschillende documenttypes aan dan Staten-Generaal Digitaal. Zo heeft Parlando naast Kamervragen, Handelingen en Kamerstukken ook agenda s, bijlagen en nietdossierstukken als aparte documenttypes. De gebruiker heeft op Parlando ook twee zoekmogelijkheden: zoek beperkt en zoek uitgebreid. In zoek beperkt kan de gebruiker een periode en een documenttype kiezen en kan de gebruiker kiezen of hij onopgemaakte stukken, definitieve stukken of beide te zien krijgt. De gebruiker kan in zoek beperk geen zoektermen opgeven. In zoek uitgebreid kan wel gezocht worden op trefwoorden in de tekst en/of in de beschrijving. Verder kunnen de titel, indiener/ondertekenaar, nummer en volgnummer, kamer en een bereik van twee data gespecificeerd worden. De resultaten worden op Parlando getoond in een lijst die geordend is naar datum. Het meest recente resultaat staat bovenaan. Voor ieder resultaat worden wat kenmerken getoond, zoals datum, soort en kamer, en wordt een bibliografische beschrijving getoond. De gebruiker heeft per resultaat twee keuzes: de metadata over het resultaat kan bekeken worden of het PDF-bestand kan gedownload worden. Vanaf de pagina met de metadata kan het PDF-bestand ook gedownload worden. Een belangrijk verschil met Staten-Generaal Digitaal is dat de Handelingen zijn opgedeeld naar onderwerp. Bij Staten-Generaal Digitaal bevat één PDF-bestand één vergadering. Bij Parlando bevat één PDF-bestand één onderwerp uit een vergadering. In een vergadering kunnen meerdere onderwerpen behandeld worden. Een ander belangrijk verschil met Staten-Generaal Digitaal is dat Parlando gebruik maakt van sessies. Informatie over je zoekopdrachten wordt een beperkte tijd bewaard. Daarna vervalt deze informatie. Dit betekent ook dat Parlando geen permalinks heeft, de links naar de PDF-bestanden worden binnen korte tijd onbruikbaar. Sargasso: Actie Open Democratie 1.0 Sargasso is een Nederlands collectief weblog dat zich voornamelijk bezighoudt met onderwerpen in de wetenschap, cultuur en politiek 4. In 2005 zijn enkele leden van dit weblog de Actie Open Democratie 1.0 gestart. (Actie Open Democratie De brief, 2005) In het kader van deze actie hebben ze een brief geschreven naar de voorzitter, medewerkers en leden van de Tweede Kamer. In deze brief wordt aandacht gevraagd voor de huidige situatie waarop de Parlementaire publicaties toegankelijk zijn. Volgens de schrijvers 4 Sargasso, Het ontsluiten van Nederlandse Parlementaire Publicaties 6

7 voldoet Parlando niet aan de meest eenvoudige gebruikseisen. (Actie Open Democratie De brief, 2005) De schrijvers willen graag een verbetering zien en bieden hun hulp aan hierbij te helpen. In de bijlage van de brief worden eisen/wensen genoemd waaraan een nieuw, verbeterd systeem zou moeten voldoen. De brief en de wensen zijn opgenomen in de bijlage. Een belangrijke wens die bijvoorbeeld genoemd wordt in zowel de brief als de bijlage is het gebruik van permalinks. Overige gerelateerde Nederlandse initiatieven GeenCommentaar is een collectief weblog dat politiek en actualiteit als hoofdthema s heeft 5. In 2007 maakte een lid van dit weblog een website om Parlando heen waardoor er een manier ontstond om direct naar documenten op Parlando te verwijzen. De site functioneert dan als een soort bemiddelaar tussen de gebruiker en Parlando. Het verwijzen naar Parlando via GeenCommentaar wordt door verschillende weblogs gebruikt maar ook door andere sites zoals de nieuwssite Nu.nl. ikregeer.nl is een soortgelijk initiatief dat zelf probeert een beter alternatief voor Parlando te bieden 6. ikregeer.nl biedt alle PDF-bestanden zelf aan op hun eigen servers. Naar deze PDF-bestanden kan direct verwezen worden. ikregeer.nl beperkt zich tot Kamervragen en Kamerstukken. Van deze documenttypes bieden ze dezelfde data en metadata aan als Parlando dat doet. Op ikregeer.nl is deze metadata gebruikt voor extra navigatiemogelijkheden. Gebruikers kunnen bijvoorbeeld op een rubriek klikken om meer documenten van een bepaalde rubriek te zien. De gebruiker kan ook zelf zoeken op trefwoorden. Resultaten worden geordend naar datum. 2.3 Internationaal In het buitenland wordt ook politieke documentatie ontsloten. In deze sectie zullen twee voorbeelden beschreven worden. Ten eerste de website van het Europese Parlement en vervolgens TheyWorkForYou.com uit Groot-Brittannië. Het Europese Parlement Het Europese Parlement is de volksvertegenwoordiging van het volk in de Europese Unie. Ook het Europese Parlement heeft veel Parlementaire publicaties die ontsloten moeten worden. Op de website van het Europese Parlement zijn deze te vinden 7. Er zijn verschillende manieren waarop gebruikers kunnen zoeken naar deze documenten. Handelingen kan men bijvoorbeeld zoeken aan de hand van een datum en plaats waar de vergadering geweest is. Men kan ook geavanceerd zoeken op trefwoorden. De resultaten worden geordend op datum, de meest recente resultaten eerst. Resultaten worden aangeduid met een titel en een datum. Handelingen zijn op de website van het Europese Parlement opgedeeld in onderwerpen, net als op Parlando. Als er wordt gezocht op trefwoorden krijgt de gebruikers een onderwerp terug als resultaat en niet de hele vergadering. Wanneer men zoekt op bepaalde personen, eventueel in combinatie met trefwoorden, dan krijgt de gebruiker eerst een uitspraak terug. Wanneer er dan wordt geklikt op volledige tekst krijgt men het hele onderwerp te zien. Naast Handelingen worden er op de website ook andere documenttypes aangeboden, zoals agenda s en ontwerpresoluties. Wat bijzonder is aan de site van het Europese Parlement is dat de Parlementaire publicaties in 22 verschillende talen beschikbaar zijn. Verder is het bijzonder dat het Europese Parlement geen PDF-bestanden van Handelingen aanbiedt. De informatie is alleen op de website zelf te bekijken. Naar de informatie is wel direct te verwijzen. TheyWorkForYou.com De website TheyWorkForYou.com is ontwikkeld door mysociety, wat op zichzelf een project is van de liefdadigheidsinstelling UK Citizens Online Democracy 8. De website is bijna helemaal ontwikkeld door vrijwilligers. Het doel van de site is om er voor te zorgen dat mensen bij kunnen houden wat de leden van het parlement zeggen en doen, en om te zorgen dat mensen ook reacties achter kunnen laten op de website. Bij iedere Kamervraag, antwoord of uitspraak kan met reacties achter laten. TheyWorkForYou.com biedt gebruikers verschillende manieren om informatie te zoeken. Ten eerste kunnen gebruikers informatie over verschillende personen bekijken door te zoeken op postcode. Iedere 5 GeenCommentaar, 6 ikregeer.nl, 7 Europese Parlement, 8 UK Citizens Online Democracy is een geregistreerd goed doel dat zich o.a. bezighoudt met ontwikkelen van e-democracy websites Het ontsluiten van Nederlandse Parlementaire Publicaties 7

8 persoon heeft een overzichtpagina met daarop zijn of haar meest recente activiteiten en wat algemene informatie. Verder kunnen gebruikers op de site zoeken op trefwoorden. Er is ook een advanced seach waarmee gebruikers hun zoekopdracht specifieker kunnen maken, bijvoorbeeld door te kiezen voor een bepaald datumbereik, een bepaalde partij of documenttype. Gebruikers komen dan op een resultaten pagina waar de resultaten geordend zijn op datum (meest recente eerst). Gebruikers kunnen er ook voor kiezen om de resultaten op relevantie te sorteren. Voor een zoekopdracht kan ook gekeken worden welke personen het vaakste voorkomen. Gebruikers kunnen ook zonder te zoeken bij recente informatie komen. Op de startpagina staan bijvoorbeeld de meest recente publicaties ingedeeld naar documenttype. Ook kunnen gebruikers een deel van het Verenigd Koninkrijk kiezen, bijvoorbeeld Wales, om daar de meest recente publicaties van te zien. Ten slotte hebben gebruikers de mogelijkheid om zich te abonneren op bepaalde personen of onderwerpen. Een resultaat van een zoekopdracht naar Handelingen is een uitspraak. Als er meerdere relevante uitspraken binnen één vergadering zijn wordt dit aangegeven in de resultatenlijst. Wanneer de gebruiker een resultaat van een handeling kiest komt hij midden in het debat terecht op de plaats waar de uitspraak gedaan is. Al deze uitspraken hebben een eigen permalink. Het is dus mogelijk om direct naar één specifieke uitspraak te verwijzen. Ook kan er op iedere afzonderlijke uitspraak gereageerd worden. Ten slotte kan over TheyWorkForYou.com gezegd worden dat het erg openbaar is. De broncode van de website is vrij beschikbaar en ook alle data is in XML-formaat beschikbaar. Er is ook een API beschikbaar. Dit wil zeggen dat iedereen de database van TheyWorkForYou.com kan gebruiken, ook in andere websites of (web- )applicaties. 2.4 Conclusies In deze sectie is er gekeken naar de huidige stand van zaken rondom het ontsluiten van Parlementaire publicaties in Nederland en in het buitenland. De volgende deelvraag werd beantwoord: Hoe is de huidige stand van zaken rondom de ontsluiting van Parlementaire publicaties in Nederland en in het buitenland? Bij wijze van samenvatting van het antwoord zijn de verschillende websites die Parlementaire publicaties ontsluiten nog eens weergegeven in tabel op de volgende pagina. Deze tabel dient tevens als afsluiting van deze sectie. Het ontsluiten van Nederlandse Parlementaire Publicaties 8

9 Tabel 1. Overzicht verschillende projecten ontsluiting Parlementaire publicaties Naam Website Periode Documenttypes Perma -links Document formaten Handelingen Staten-Generaal Digitaal Antwoordeenheid Handelingen Vergadering als PDF, gemarkeerde pagina in docviewer (OCR) Parlando heden Kamervragen, Handelingen, Kamerstukken Agenda s, Kamerstukken, Handelingen, Kamervragen, Nietdossierstukken, Bijlagen Ja PDF, docviewer, HTML Zoekfuncties Eenvoudig zoeken, Geavanceerd zoeken Onduidelijke ordening, voornamelijk datum Nee PDF Zoek beperkt, Zoek geavanceerd Geordend naar datum Onderwerp Parlando via idem idem Ja idem idem Idem GeenCommentaar.nl ikregeer.nl Kamervragen, Ja n.v.t. Recente n.v.t. heden Kamerstukken publicaties, navigeren via metdata, eenvoudig zoeken op trefwoorden Geordend naar datum Europees Parlement (internationaal) heden Ja Website (HTML) TheyWorkForYou.com (internationaal) heden Agenda s, Handelingen, Ontwerpresoluties, Vragen, en meer... Handelingen, Kamervragen, Schriftelijke statements Ja Website (HTML), XML Via personen, datum, plaats, of geavanceerd zoeken met trefwoorden Geordend naar datum Persoon, trefwoorden, geavanceerd zoeken, locatie, abonneren, recente publicaties Geordend naar datum, relevantie, persoon Onderwerp of uitspraak Uitspraak in vergadering Het ontsluiten van Nederlandse Parlementaire Publicaties 9

10 3 Analyse 3 A N A LY S E In de vorige sectie is de achtergrond waartegen de project uitgevoerd wordt omschreven. In deze sectie zal deze situatie geanalyseerd worden. De Nederlandse websites worden onder de loep genomen aan de hand van de eisen van Sargasso en de Engelse website TheyWorkForYou.com. Vervolgens wordt er gekeken naar de literatuur die relevant is voor dit project. In deze sectie worden twee deelvragen beantwoord. In sectie 3.1 en 3.2 wordt de volgende vraag beantwoord: Hoe verhouden de websites die Nederlandse Parlementaire publicaties aanbieden zich tot de gewenste situatie die geschetst kan worden door een combinatie van de wensen van Sargasso en het voorbeeld TheyWorkForYou.com? In sectie 3.3 wordt de volgende vraag beantwoord: Wat wordt er in de literatuur gezegd over het ontwikkelen van een systeem zoals het systeem dat in dit project beoogd wordt om te maken en wat zijn de mogelijke gevaren die beschreven worden? 3.1 Analyse huidige situatie In de voorgaande sectie is de huidige stand van zaken beschreven in Nederland en het buitenland op het gebied van het ontsluiten van Parlementaire publicaties. Omdat er in dit project gepoogd wordt om de Nederlandse situatie te verbeteren zal er eerst een analyse gemaakt moeten worden van de Nederlandse situatie. Daarom wordt er deze sectie gekeken naar de sterke en zwakke punten van de manier waarop de Parlementaire publicaties in Nederland op het moment ontsloten worden. Voor deze analyse wordt de lijst van Sargasso gebruikt om de analyse te structureren. Alle punten op de lijst zullen vergeleken worden met de website Staten-Generaal Digitaal en Parlando. Daarna zal er nog een korte vergelijking gemaakt worden tussen Staten-Generaal Digitaal en Parlando tegenover het Engelse TheyWorkForYou.com. * Alle kamerstukken moeten direct te linken zijn (vaste URL); Op Staten-Generaal Digitaal is naar alle vormen van informatie die aangeboden wordt direct te verwijzen met een vaste URL. Gebruikers kunnen dus verwijzen naar het originele PDF-bestand, het HTML-bestand of naar de interne docviewer. Wanneer men verwijst naar de docviewer is het mogelijk om naar een specifieke pagina te verwijzen en om daar bepaalde woorden op te markeren. Op Parlando wordt gebruik gemaakt van sessies. Dit betekent dat alle links naar PDF-bestanden, metadata of resultatenpagina s binnen korte tijd onbruikbaar worden voor anderen. SGD V Parlando X * Alle bij elkaar horende kamerstukken (dossiers) moeten als geheel op te vragen zijn, inclusief eerdere versies van stukken; Op Staten-Generaal Digitaal kunnen Kamerstukken gezocht worden op Kamerstuknummer. De lijst van resultaten bevat dan alle Kamerstukken die hetzelfde Kamerstuknummer hebben. Kamerstukken worden op Staten-Generaal Digitaal echter beschreven als: De Kamerstukken of Bijlagen zijn schriftelijk uitgewisselde stukken tussen regering en parlement. (Koninklijke Bibliotheek, 2008) Het zoeken op een bepaald Kamerstuknummer levert dan ook alleen maar Bijlagen op maar bijvoorbeeld geen Kamervragen of Handelingen. Omdat in de wens van Sargasso het woord dossier wordt gebruikt, lijkt het erop dat hier niet hetzelfde bedoeld wordt. Op de website van de Tweede Kamer wordt bijvoorbeeld een ander begrip van dossier gehanteerd lijkt het (Tweede Kamer der Staten-Generaal, 2008). Op die website staat informatie over recente dossiers. Hierbij worden ook stukken aangeleverd. Dit zijn wel Kamerstukken (schriftelijk uitgewisselde stukken tussen regering en parlement), maar van verschillende Kamerstuknummers. Het ontsluiten van Nederlandse Parlementaire Publicaties 10

11 Op Parlando wordt dossier weer anders gebruikt. Op Parlando kan gezocht worden op nummer en volgnummer en deze nummers staan in de metadata achter het kopje dossier. Wanneer iemand zoekt op een dergelijk dossier bevatten de resultaten Bijlagen, maar ook Kamervragen, Handelingen en zelfs agenda s. Het is dus moeilijk te zeggen of de beide sites een notie hebben van een bij elkaar horend dossier aangezien er verschillende definities gehanteerd lijken te worden. Wel kan er gezegd worden dat beide websites niet aan de eis voldoen. Wat er ook precies bedoeld wordt met een dossier, het is in beide gevallen niet in zijn geheel op te vragen en eerder versies van stukken zijn er niet in opgenomen. SGD X Parlando X * Video-opnames en audio-opnames van debatten over bepaalde kamerstukken moeten gekoppeld zijn aan die stukken; Beide websites leveren geen video-opnames of geluidsopnames en deze zijn dus ook niet gekoppeld aan stukken. SGD X Parlando X * Van alle voorstellen en moties moet direct te zien zijn hoe er gestemd is (niet zoeken via verslagen); Beide websites bieden geen losse voorstellen, moties of stemmingsuitslagen aan. SGD X Parlando X * Van alle politieke partijen moet direct te zien zijn hoe hun stemgedrag is; Beide websites bieden geen (losse) stemmingsuitslagen aan en ook geen overzicht van meerdere stemmingen. Verder wordt er geen zoekmogelijkheid via partij aangeboden. SGD X Parlando X * Van alle parlementsleden moet direct te zien zijn hoe hun stemgedrag is; Beide websites bieden geen (losse) stemmingsuitslagen aan en ook geen overzicht van meerdere stemmingen. Verder wordt er geen zoekmogelijkheid via persoon aangeboden. SGD X Parlando X * Van parlementsleden moet direct opgevraagd kunnen worden welke vragen en moties ze ingediend hebben of mede ondertekend hebben; Zoals eerder beschreven hebben beide websites geen mogelijkheid om te zoeken op personen en bieden ze geen moties aan. SGD X Parlando X * Bij kamerstukken moet direct zichtbaar zijn wanneer deze behandeld worden of behandeld zijn; Wederom is het hier onduidelijk wat er precies bedoeld wordt met Kamerstukken. Volgens Staten-Generaal Digitaal zijn Kamerstukken schriftelijk uitgewisselde stukken tussen regering en parlement. Bij brieven wordt niet aangegeven wanneer ze behandeld zijn. Het lijkt er daarom op dat er in de wens van Sargasso een meer algemene invulling aan Kamerstukken gegeven wordt, namelijk alle Parlementaire publicaties. Dit zou de wens logischer maken omdat bijvoorbeeld de behandeldatum van Kamervragen en Moties wel aangegeven wordt. Zowel Staten-Generaal Digitaal als Parlando zijn het alleen de Kamervragen waarbij het relevant is om de behandeldatum te vermelden. Van de publicaties die aangeboden worden waarbij een behandeldatum relevant is wordt op Staten- Generaal Digitaal niet direct zichtbaar wanneer deze behandeld zijn. Dit is wel terug te vinden door een zoekresultaat te openen. Wanneer de Kamerstukken behandeld worden is natuurlijk op Staten-Generaal Digitaal niet aan de orde omdat de website geen recente data bevat. Op Parlando is bij de Kamervragen wel aangegeven wanneer ze behandeld zijn. Ook hiervoor moet wel vanuit de resultatenpagina een extra stap gezet worden naar de metadata-pagina. Wanneer een Kamervraag behandeld wordt staat niet aangegeven, maar het is ook maar de vraag of dit een reële wens is. Het termijn van het beantwoorden van een Kamervraag is drie weken, dus dit kan ter indicatie eventueel vermeld worden. De vraag of de websites voldoen aan deze wens van Sargasso is een lastige. Strikt gezien is de behandeldatum op beide websites niet direct na het zoeken zichtbaar en hebben beide geen verwijzing naar een mogelijke behandeldatum in de toekomst, hoewel dat bij Staten-Generaal Digitaal ook niet aan de orde is. SGD X Parlando X Het ontsluiten van Nederlandse Parlementaire Publicaties 11

12 * Bij de kameragenda moet het mogelijk zijn direct de bijbehorende kamerstukken op te roepen; Staten-Generaal Digitaal biedt geen kameragenda s aan. Op Parlando worden wel kameragenda s aangeboden. Vanuit deze agenda s of de metadata ervan is het niet mogelijk om de bijbehorende Kamerstukken direct op te roepen. SGD X Parlando X * Er moet een mogelijkheid zijn om alleen de basis informatie te zien of een meer uitgebreide set; Het is onduidelijk wat er precies bedoeld wordt met deze wens. Ook de begeleidende brief geeft hier geen uitsluitsel over. In dit project wordt deze wens geïnterpreteerd als: Er moet een mogelijkheid zijn om eenvoudig te zoeken en om geavanceerd te zoeken. Staten-Generaal Digitaal biedt zowel een mogelijkheid om eenvoudig te zoeken als de mogelijkheid om geavanceerd te zoeken. De Parlando website heeft twee zoekmogelijkheden, zoek beperkt en zoek uitgebreid. Ondanks dat er bij zoek beperkt van Parlando geen zoektermen ingevoerd kunnen worden lijkt het er toch op dat beide websites voldoen aan deze wens, gezien de huidige interpretatie. SGD V Parlando V * Bij het zoeken op woorden moeten de resultaten in een tijdslijn van bij elkaar horende stukken getoond kunnen worden; Beide websites bieden geen tijdslijn, enkel een geordende lijst met resultaten. In deze lijst wordt niet duidelijk aangegeven welke stukken al dan niet bij elkaar horen. SGD X Parlando X * Er moet een open API komen waarmee andere partijen in staat worden gesteld om de beschikbare informatie op verschillende manier verder te behandelen of te tonen; Staten-Generaal Digitaal heeft geen open API. Ondanks dat het grootste gedeelte van de website op XML gebaseerd is, is het moeilijk voor anderen om hier iets mee te doen. Ook Parlando heeft geen (open) API. Het is ook niet mogelijk om de website op welke manier dan ook te integreren in een andere applicatie of website. SGD X Parlando X * Er moet een mogelijkheid komen om middels RSS op de hoogte te blijven van de publicatie van stukken of bepaalde documenten binnen specifieke dossiers; RSS staat voor Really Simple Syndication (hoewel het volgens sommige mensen voor RDF Site Summary staat) en is een middel om gebruikers op de hoogte te houden van vernieuwingen op een website. Gebruikers kunnen zich abonneren op een RSS-stroom van een site. De website stuurt dan de titel en een paar regels van een nieuw verschenen pagina, bijvoorbeeld een nieuwsbericht, naar een RSS-lezer van de gebruiker toe. Als gebruikers iets zien wat ze interessant vinden kunnen ze op het bericht klikken om direct naar het hele bericht op de website te gaan. Zowel Staten-Generaal Digitaal als Parlado bieden geen RSS. Voor Staten-Generaal zou het ook niet voor de hand liggend zijn omdat er niet dagelijks nieuwe informatie bijkomt. Voor Parlando zou RSS wel een goede optie kunnen zijn. Mensen zouden zich kunnen abonneren op bepaalde onderwerpen zoals de eis van Sargasso aangeeft. Maar, dit is in de huidige situatie dus niet mogelijk. SGD X Parlando X * Alle gegevens moeten in een open, standaard formaat gepresenteerd worden. Er mag geen noodzaak zijn om producten van enkele leveranciers te moeten gebruiken om de gegevens te zien/gebruiken; Op de website van Staten-Generaal Digitaal en Parlando worden de publicaties als PDF-bestanden aangeboden. Sinds 2007 is PDF een open formaat (Adobe, 2008). Beide websites voldoen dus aan deze eis. SGD V Parlando V * De toegang tot de informatie online moet voldoen aan de eisen van Drempels Weg. De eisen van Drempels Weg zijn opgesteld door de stichting Waarmerk Drempelvrij.nl. Als een website voldoet aan deze eisen kan de site het kwaliteitsmerk Waarmerk Drempelvrij.nl krijgen. Een dergelijke website voldoet dan aan internationale normen waardoor de website voor iedereen goed toegankelijk is. De website moet bijvoorbeeld ook toegankelijk zijn voor blinden en slechtzienden of senioren. Hieronder volgt een lijst van relevante richtlijnen voor Staten-Generaal Digitaal en Parlando, richtlijnen over bijvoorbeeld video zijn niet opgenomen in deze lijst omdat beide sites geen video aanbieden. Het ontsluiten van Nederlandse Parlementaire Publicaties 12

13 WCAG-ijkpunt 1.1: WCAG-ijkpunt 2.1: WCAG-ijkpunt 4.1: WCAG-ijkpunt 5.1: WCAG-ijkpunt 6.1: WCAG-ijkpunt 6.2: WCAG-ijkpunt 6.3: WCAG-ijkpunt 11.4: WCAG-ijkpunt 12.1: WCAG-ijkpunt 14.1: Lever een tekstequivalent voor elk niet-tekstueel element Zorg ervoor dat alle informatie die met behulp van kleur wordt overgebracht ook beschikbaar is zonder kleur, bijvoorbeeld uit de context of opmaak Geef duidelijk veranderingen aan in de natuurlijke taal van de documenttekst en van alle tekstequivalenten (bijvoorbeeld onderschriften) Geef voor tabellen met data de rij- en kolomheaders aan Organiseer documenten zo dat ze zonder style sheets gelezen kunnen worden Zorg ervoor dat equivalenten voor dynamische content worden bijgewerkt als de dynamische content verandert Zorg ervoor dat pagina's bruikbaar zijn als scripts, applets of andere programmaobjecten uitstaan of niet worden ondersteund. Als dit niet het mogelijk is, lever dan equivalente informatie op een alternatieve pagina Als je ondanks alle inspanningen geen toegankelijke pagina kan creëren, lever dan een link naar een alternatieve pagina die W3C technologieën gebruikt, toegankelijk is, equivalente informatie (of functionaliteit) heeft en even vaak wordt geactualiseerd als de ontoegankelijke (oorspronkelijke) pagina Geef elk frame een titel, zodat je de identificatie en navigatie van een frame vergemakkelijkt Geef de duidelijkste en eenvoudigste taal die zich leent voor de content van een website (Velleman, 2006) Alle richtlijnen nalopen tegenover de beide websites is een onderzoek op zich en staat buiten het bereik van dit project. Wel kan gezegd worden dat beide websites dit waarmerk niet dragen en ook niet aan alle ijkpunten voldoen. Staten-Generaal Digitaal is bijvoorbeeld niet zonder stylesheet te bekijken (WCAG-ijkpunt 6.1) en Parlando biedt geen tekstuele alternatieven voor grafische elementen (WCAG-ijkpunt 1.1). SGD X Parlando X De websites van Staten-Generaal Digitaal en Parlando voldoen dus aan bijna geen enkele eis van Sargasso. Voor Staten-Generaal Digitaal is dit vaak ook niet raar aangezien ze werken met oude data. Veel eisen zijn dan niet meer zo relevant of zijn niet haalbaar omdat de benodigde gegevens niet beschikbaar zijn. Voor Parlando is het ook niet verwonderlijk dat ze aan bijna geen enkele eis voldoen. De eisen zijn namelijk geschreven op basis van de huidige website van Parlando. De twee eisen waar Parlando wel aan voldoen komen door toeval (PDF is inmiddels een open standaard geworden) of interpretatieverschillen. De lijst met eisen/wensen van Sargasso is een mooi startpunt om te kijken hoe het gesteld is met de huidige situatie, maar de lijst is geen geijkt meetinstrument. Om de huidige situatie nog verder te bekijken worden de websites van Staten-Generaal Digitaal en Parlando daarom hier nog kort vergeleken met het TheyWorkForYou.com. In de sectie Achtergrond zijn de websites van Staten-Generaal Digitaal, Parlando en TheyWorkForYou.com al uitgebreid beschreven. Als afsluiting van deze subsectie worden de verschillen nog even kort aangegeven. Een van de grootste verschillen tussen Staten-Generaal Digitaal en Parlando ten opzichte van TheyWorkForYou.com zijn de verschillende manieren waarop gebruikers bij de data kunnen komen. Staten- Generaal Digitaal en Parlando bieden beide een eenvoudige en een geavanceerde zoekmogelijkheid. Gebruikers kunnen zoeken op trefwoorden en enkele restricties meegeven zoals een tijdsperiode of een documenttype. Bij TheyWorkForYou.com kan er ook zo gezocht worden, maar gebruikers hebben ook andere ingangen. Zo kunnen zij ook zoeken op personen of locatie. Iedere persoon of locatie heeft een eigen overzichtspagina. Verder zijn er ingangen via recent gepubliceerde stukken en is er de mogelijkheid om op de hoogte gehouden te worden van bepaalde personen of onderwerpen. TheyWorkForYou.com biedt dus veel meer ingangen tot de collectie dan Staten-Generaal Digitaal en Parlando dat doen. Een ander belangrijk verschil zit hem in het presenteren van de zoekresultaten. Bij Staten-Generaal Digitaal wordt er een ordening gebruikt die voornamelijk gebaseerd is op datum. Bij Parlando wordt er alleen op datum geordend. TheyWorkForYou.com geeft de gebruiker de mogelijkheid om zelf een ordening te kiezen. De gebruiker kan kiezen uit sorteren op relevantie of op datum. Ook kunnen de resultaten gesorteerd worden naar persoon, waarbij de persoon met de meeste hits bovenaan staan. Wat betreft de Handelingen is er nog een belangrijk verschil tussen de sites. TheyWorkForYou.com heeft namelijk een andere notie van antwoord dan Staten-Generaal Digitaal en Parlando. Als een gebruiker in Staten-Generaal Digitaal in Handelingen zoekt hij een PDF-bestand of HTML-bestand van een hele vergadering terug of een pagina daarvan in de interne docviewer. Op Parlando krijgt de gebruiker een PDF-bestand terug Het ontsluiten van Nederlandse Parlementaire Publicaties 13

14 van een deel van een vergadering, namelijk één onderwerp dat behandeld is. Op TheyWorkForYou.com krijgt de gebruiker uitspraken terug. Deze uitspraken zijn in de context van de vergadering getoond. De gebruiker wordt dus niet bovenaan de vergadering neergezet, of op de pagina waar de uitspraak voorkomt, maar bij de uitspraak zelf. Dat TheyWorkForYou.com een andere notie van antwoord heeft betekent ook dat ze anders omgaan met permalinks. TheyWorkForYou.com gebruikt net als Staten-Generaal Digitaal permalinks, maar omdat vergaderingen opgehakt zijn in uitspraken is het op TheyWorkForYou.com ook mogelijk om te verwijzen met een permalink naar één uitspraak. Zoals eerder opgemerkt gebruikt Parlando helemaal geen permalinks. Op TheyWorkForYou.com kunnen gebruikers ook reacties achterlaten, bijvoorbeeld op een uitspraak. Hierdoor ontstaat een meer interactief medium terwijl Staten-Generaal Digitaal en Parlando een eenzijdige informatiestroom hebben. Ten slotte kan er over TheyWorkForYou.com gezegd worden dat ze een erg open site hebben. Er wordt veel gebruik gemaakt van open standaarden zoals XML en de gegevens en het gebruik van TheyWorkForYou.com zijn eenvoudig te integreren in andere sites door het gebruik van een openbare API. 3.2 Gewenste situatie In de brief van Sargasso wordt er een verbeterd systeem voor het ontsluiten van Nederlandse Parlementaire publicaties gewenst. Het lijkt erop dat een soortgelijke website als TheyWorkForYou.com voor Nederland aan veel van deze wensen zou voldoen en zelfs nog andere verbeteringen zou introduceren die niet op de lijst van Sargasso staan, zoals de verschillende manieren om bij de informatie te komen. In dit project wordt er daarom gepoogd een dergelijk systeem te realiseren waarbij er rekening gehouden wordt met de eisen van Sargasso. De eisen van Sargasso worden dus meegenomen, maar het zal vooral de TheyWorkForYou.com website zijn die inspiratie zal bieden. Het combineren van de Sargasso wensen en het voorbeeld van TheyWorkForYou.com heeft geleid tot het opstellen van de volgende speerpunten voor het te ontwerpen systeem: - Er moet direct verwezen kunnen worden naar alle belangrijke stukken van de site (permalinks), ook naar losse uitspraken in de handelingen - Dossiers moeten gegroepeerd worden - Bij de verschillende stukken moet de datum van behandeling aangegeven worden (waar mogelijk) - De informatie moet via verschillende manieren te benaderen zijn, bijvoorbeeld via persoon, partij of door zoeken op trefwoorden - Zoekresultaten moeten op meerdere manieren weergegeven worden, bijv. d.m.v. een tijdslijn - Alle gegevens moeten in open formaten gepresenteerd worden - De website moet goed toegankelijk, bruikbaar en overzichtelijk zijn - Resultaten moeten op verschillende manieren geordend kunnen worden, o.a. op relevantie - Het notie van antwoord van Handelingen moet een uitspraak zijn - Gebruikers moeten op de goede plek op de pagina neergezet worden bij het aanklikken van een zoekresultaat - Gebruikers moeten reacties achter kunnen laten Een systeem realiseren zoals dat van TheyWorkForYou.com is verre van hetzelfde als het namaken van de Engelse site. TheyWorkForYou.com krijgt XML aangeleverd en ontsluit dat op een nette manier. In Nederland zijn de startcondities heel anders. Om hier een dergelijk systeem te realiseren moeten de PDF-bestanden en metadata-bestanden uit twee verschillende bronnen gecombineerd worden. Deze moeten vervolgens omgezet worden naar één soort XML-bestanden. Tijdens die transformatie moet er structuur herkend worden in de PDF-bestanden die er niet digitaal, expliciet in zit. Dit moet om bijvoorbeeld Handelingen op te kunnen delen in uitspraken of om zoeken op personen mogelijk te maken. Daarna wordt wel dezelfde stap gezet als in TheyWorkForYou.com. De data wordt in een database gezet die via de website te doorzoeken is. 3.3 Literatuur Een systeem maken zoals er achter TheyWorkForYou.com zit is alles behalve triviaal. Gezien de huidige situatie, die hiervoor is beschreven, zijn er veel moeilijkheden te verwachten bij de ontwikkeling van een dergelijk systeem. In de literatuur worden al veel mogelijke struikelblokken aangegeven en een methode om een groot deel van het totale proces te structureren. De startsituatie van dit project zijn twee verschillende bronnen met data. De eindsituatie is één database met informatie die via een website te bereiken is. Tussen de originele data en de database zitten verschillende stappen waarin de data samengevoegd moet worden en eventueel opgeschoond moet worden. Het ontsluiten van Nederlandse Parlementaire Publicaties 14

15 Dergelijke processen zijn uit te voeren aan de hand van het ETL proces, waarbij ETL staat voor Extraction, Transformation, Loading. (Rahm & Do, 2000) In het onderstaande model is dit proces weergegeven: Figuur 1. Het ETL-proces (Rahm & Do, 2000) Dit onderzoek zal voor een groot deel verlopen via de stappen in dit model, hoewel er soms wel een meer eigen interpretatie aan zal worden gegeven. In deze literatuursectie worden de stappen doorlopen en worden de mogelijke problemen onderweg besproken. De eerste stap is extractie. In deze fase wordt de data van de verschillende bronnen opgehaald. Dit gebeurt op twee niveaus. Bovenin het diagram is te zien dat schema s en metadata opgehaald wordt en eventueel vertaald wordt naar een bepaald schema. Onderin het diagram wordt de data zelf opgehaald en eventueel getransformeerd in het gewenst formaat. Deze twee processen staan niet compleet los van elkaar, wat wordt aangegeven door de pijlen 1 en 2. Informatie over de data zelf (instanties) helpt bijvoorbeeld bij het extraheren van de metadata en er een goed schema van te maken (pijl 1). De tweede stap - integratie - is erg belangrijk. In dit project wordt er gewerkt met twee verschillende collecties die samengevoegd moeten worden tot één homogene collectie. Waar er in het diagram drie collecties staan (linker kolom), zijn er in dit project dus twee collecties van belang: de collectie van Staten- Generaal Digitaal en die van Parlando. Het combineren van verschillende bronnen wordt in de literatuur omschreven als data integratie. Data integratie is het probleem van het combineren van verschillende data uit verschillende bronnen op zo n manier dat er eenzelfde kijk op de data ontstaat voor de eindgebruiker (Lenzerini, 2002). Het doel van data integratie is om te zorgen dat normale gebruikers niet de verschillende bronnen hoeven te zoeken, ermee om te gaan en eventueel handmatig moeten te combineren (Halevy, Rajaraman, & Ordille, 2006). Dit zou in dit project dus voor Staten-Generaal Digitaal en Parlando moeten gaan gelden. Omdat er vaak sprake is van veel bronnen bij data integratie zijn er veel technieken om de data integratie grotendeels automatisch te laten verlopen. In dit project is dit niet nodig omdat er maar met twee, vrij eenvoudige bronnen gewerkt wordt. De bronnen kunnen dus handmatig naast elkaar gelegd worden. In dit project is vooral semantische data integratie belangrijk. Semantische data integratie is het combineren van bronnen op basis van betekenis. Wat in de ene bron bijvoorbeeld locatie wordt genoemd, kan in de andere bron adres heten, maar toch hetzelfde betekenen. Problemen bij semantische data integratie spelen zich af op twee niveaus: op schematisch niveau en op het niveau van de data. Op schematisch niveau zit het probleem in het matchen van de juiste concepten aan elkaar. (Doan, Noy, & Halevy, 2004) Dit is dus op een conceptueel niveau. Welke concepten uit de beide bronnen verwijzen naar hetzelfde onderliggende concepten? Op het niveau van de data komt bijvoorbeeld het probleem van data duplication aan bod, dit zal verderop besproken worden. Het ontsluiten van Nederlandse Parlementaire Publicaties 15

DEEL 2. websites voor juristen>

DEEL 2. websites voor juristen> 35 DEEL 2 websites voor juristen> 2 36 37 INHOUD DEEL 1 - ZOEKEN OP INTERNET Voorwoord 3 1 Wat is het internet? 9 1.1 Inleiding 9 1.2 De stappen van systematisch zoeken 11 2 Stap 1: het formuleren van

Nadere informatie

Stageverslag. Streampaper TUDELFT. Hylke Hendriksen, Peter van Buul en Huub van der Voort 22/06/2012

Stageverslag. Streampaper TUDELFT. Hylke Hendriksen, Peter van Buul en Huub van der Voort 22/06/2012 TUDELFT Stageverslag Hylke Hendriksen, Peter van Buul en Huub van der Voort 22/06/2012 Dit stageverslag is ter afsluiting van het bachelorproject voor de opleiding Technische Informatica aan de Technische

Nadere informatie

Internetpublicatiemodel bekendmakingen Versie 3.0.2 november 2008

Internetpublicatiemodel bekendmakingen Versie 3.0.2 november 2008 Internetpublicatiemodel bekendmakingen Versie 3.0.2 november 2008 Rogier Koele Productmanager Bekendmakingen op Internet ICTU / Overheid heeft Antwoord Wilhelmina van Pruisenweg 104 2595 AN Den Haag www.overheidheeftantwoord.nl/producten,bekendmakingen

Nadere informatie

[2011] [Politiekinzicht.com - Wie zegt wat in de tweede kamer?]

[2011] [Politiekinzicht.com - Wie zegt wat in de tweede kamer?] [2011] [Politiekinzicht.com - Wie zegt wat in de tweede kamer?] Reinier van der Plank (6383335, rplank@science.uva.nl) Jurrian Tromp (6353770, jrtromp@science.uva.nl) Thomas Moeskops (6374972, moeskops@science.uva.nl)

Nadere informatie

De kunst van het weglaten

De kunst van het weglaten De kunst van het weglaten De visie achter de uiterst functionele en gebruiksvriendelijke (toptaken) website van de gemeente Vianen. www.vianen.nl Inleiding De website van de gemeente Vianen, www.vianen.nl,

Nadere informatie

Politiek dichter bij de burger

Politiek dichter bij de burger Januari 13 09 Een meebeslisinstrument met behulp van internettechnologie Politiek dichter bij de burger Opdrachtgever P. Mug PPW Begeleider R. Boucherie Universiteit Twente Erik Lentink, Yvonne Groenveld,

Nadere informatie

Opzetten van beeldbanken

Opzetten van beeldbanken Opzetten van beeldbanken Yvette Hoitink 2 WEGWIJZER OPZETTEN VAN BEELDBANKEN Auteur Yvette Hoitink Ontwerp Arno Geels, BNO, Den Haag Disclaimer Deze wegwijzer Opzetten van beeldbanken is het resultaat

Nadere informatie

Adviesrapport. Leiden en Omstreken op de virtuele kaart. Organisatie: Erfgoed Leiden en Omstreken. Opdrachtgever: Ariela Netiv

Adviesrapport. Leiden en Omstreken op de virtuele kaart. Organisatie: Erfgoed Leiden en Omstreken. Opdrachtgever: Ariela Netiv Adviesrapport Leiden en Omstreken op de virtuele kaart Organisatie: Erfgoed Leiden en Omstreken Opdrachtgever: Ariela Netiv Afstudeerder: Eline Corée Afstudeerbegeleider organisatie: Walther Hasselo Onderwijsinstelling:

Nadere informatie

De Oracle Customer Data Hub als Customer Knowledge Management-applicatie?

De Oracle Customer Data Hub als Customer Knowledge Management-applicatie? De Oracle Customer Data Hub als Customer Knowledge Management-applicatie? Een vergelijkend onderzoek tussen de Customer Data Hub en de eisen en wensen die een organisatie stelt met betrekking tot de functionele

Nadere informatie

Van tekstverwerker tot aantekeningensysteem

Van tekstverwerker tot aantekeningensysteem Van tekstverwerker tot aantekeningensysteem Van tekstverwerker tot aantekeningensysteem Faculteit Letteren, Alfa Informatica (Informatiekunde) door: begeleiders: Henny Klein & Elwin Koster mei 2003, Groningen

Nadere informatie

HANDBOEK internet voor juristen> MR. J.G.L. VAN DER WEES > ING. W.G. RENDEN > DRS. M. HERTZBERGER > RECHT.NL

HANDBOEK internet voor juristen> MR. J.G.L. VAN DER WEES > ING. W.G. RENDEN > DRS. M. HERTZBERGER > RECHT.NL HANDBOEK internet voor juristen> MR. J.G.L. VAN DER WEES > ING. W.G. RENDEN > DRS. M. HERTZBERGER > RECHT.NL DEEL 1 - ZOEKEN OP INTERNET DEEL 2 - INTERNET VOOR JURISTEN DEEL 3 - BETER INTERNETGEBRUIK 2006

Nadere informatie

We gaan onze website niet helemaal in brochure drukken

We gaan onze website niet helemaal in brochure drukken We gaan onze website niet helemaal in brochure drukken Een onderzoek naar de archiveringspraktijk van websites en social media bij provincies. M.H. Paapst T. Mulder H.T. van der Waaij 11 september 2014

Nadere informatie

Seneca en de Webrichtlijnen

Seneca en de Webrichtlijnen White Paper Seneca en de Webrichtlijnen Versie 1.0, juni 2008 Wijzigingshistorie Kenmerk Datum Auteur Versie 1.0 juni 2008 Vincent Baaij, Business Support Manager Henk Rakké, Business Development Manager

Nadere informatie

Informatica Universiteit van Amsterdam. Ontwikkeling van User interfaces. Stephan van Eijkelenburg. 26 april 2010. Bachelor Informatica

Informatica Universiteit van Amsterdam. Ontwikkeling van User interfaces. Stephan van Eijkelenburg. 26 april 2010. Bachelor Informatica Bachelor Informatica Informatica Universiteit van Amsterdam Ontwikkeling van User interfaces Stephan van Eijkelenburg 26 april 2010 Supervisor(s): Dick van Albada, Andy Pimentel Signed: 2 Samenvatting

Nadere informatie

Het succesvol implementeren van een standaard softwaresysteem

Het succesvol implementeren van een standaard softwaresysteem Het succesvol implementeren van een standaard softwaresysteem Bachelorthesis J.N. Zwikstra - 265948 Economie & Bedrijfseconomie Erasmus Universiteit Rotterdam Begeleider: prof. dr. G.J. van der Pijl Meelezer:

Nadere informatie

Implementatiehandleiding afspraak Unieke Persistente Identifier voor Leermateriaal en Metadatarecord

Implementatiehandleiding afspraak Unieke Persistente Identifier voor Leermateriaal en Metadatarecord Implementatiehandleiding afspraak Unieke Persistente Identifier voor Leermateriaal en Metadatarecord Implementatiehandleiding voor het implementeren van de afspraak unieke persistente identifiers voor

Nadere informatie

Eric Velleman Martijn Houtepen Iacobien Riezebosch

Eric Velleman Martijn Houtepen Iacobien Riezebosch Digitale toegankelijkheid van het hoger onderwijs Een onderzoek naar de toegankelijkheid van websites, studie-informatiesystemen en mobiele applicaties van het hoger onderwijs Eric Velleman Martijn Houtepen

Nadere informatie

ADVIESRAPPORT SOCIALE KAART NIJKERK

ADVIESRAPPORT SOCIALE KAART NIJKERK ADVIESRAPPORT SOCIALE KAART NIJKERK OPDRACHTGEVER: GEZONDHEIDSCENTRUM DE NIJE VESTE UITVOEREND: MARLOES VOGT LOOPTIJD: OKTOBER 2014 TOT EN MET DECEMBER 2014 1 Inhoud Managementsamenvatting... 3 Inleiding...

Nadere informatie

Werken met Open Source

Werken met Open Source Kritische (succes)factoren bij Open Source projecten Bedrijfskundige Informatica Scriptie ter afronding van de opleiding Bedrijfskundige Informatica aan de Informatie & Communicatie Academie van de Hogeschool

Nadere informatie

Requirements Traceability

Requirements Traceability Requirements Traceability Een literatuurbeschouwing en praktijkvergelijking Bachelorscriptie informatiekunde Radboud Universiteit Nijmegen Begeleider: Dr. ir. G.J. Tretmans Thomas Dobbe (0115495) Januari

Nadere informatie

Webarchivering, naar het volgende niveau.

Webarchivering, naar het volgende niveau. Webarchivering, naar het volgende niveau. Theorie, beleid en praktijk Erika Hokke, Archiefschool, Hans Goutier, Ministerie van Verkeer en Waterstaat, Frans-Willem Duijnhouwer, Capsis B.V. Versie 6 november

Nadere informatie

De Koninklijke Bibliotheek en Web 2.0: nieuwe gegevensarchitectuur maakt nieuwe concepten van dienstverlening mogelijk.

De Koninklijke Bibliotheek en Web 2.0: nieuwe gegevensarchitectuur maakt nieuwe concepten van dienstverlening mogelijk. De Koninklijke Bibliotheek en Web 2.0: nieuwe gegevensarchitectuur maakt nieuwe concepten van dienstverlening mogelijk. Auteurs: Paul Doorenbosch, Koninklijke Bibliotheek Theo van Veen, Koninklijke Bibliotheek

Nadere informatie

Het voorkomen van prestatieverlies bij de koppeling met Web services

Het voorkomen van prestatieverlies bij de koppeling met Web services Het voorkomen van prestatieverlies bij de koppeling met Web services... en de rol van standaardisatie daarbij Universiteit Twente Pim Sierhuis (s0002577) pim@sierhuis.com Augustus 2007 Opdrachtgever: Huijsmans

Nadere informatie

Xboxworld Redesign. Lars Hoekstra. NHL Leeuwarden CMD Vakdocent : Wouter Buning Mentor: Hendrik Tillema 1

Xboxworld Redesign. Lars Hoekstra. NHL Leeuwarden CMD Vakdocent : Wouter Buning Mentor: Hendrik Tillema 1 Xboxworld V4 Redesign NHL Leeuwarden CMD Vakdocent : Wouter Buning Mentor: Hendrik Tillema 1 Xboxworld V4 Redesign 2 Samenvatting Een gemiddelde gamingwebsite bevat de volgende content: Video s De mogelijkheid

Nadere informatie

Eindrapport UNETO-VNI/Webinars

Eindrapport UNETO-VNI/Webinars Ongerubriceerd Kampweg 5 Postbus 23 3769 ZG Soesterberg TNO-rapport TNO-DV 2009 C271 Eindrapport UNETO-VNI/Webinars www.tno.nl T +31 34 635 62 11 F +31 34 635 39 77 info-denv@tno.nl Datum juli 2009 Auteur(s)

Nadere informatie

Gebruikersonderzoek website DEN

Gebruikersonderzoek website DEN Gebruikersonderzoek website DEN Eindrapportage Wietske van den Heuvel Janneke Grooten 24/1/2012 24 januari 2012 Stichting DEN Postbus 90407 2509 LK Den Haag www.den.nl t (0)70 314 03 43 e den@den.nl Inhoud

Nadere informatie

Nijmegen, maart 2003 Afstudeerscriptie Michel Groenenstijn

Nijmegen, maart 2003 Afstudeerscriptie Michel Groenenstijn Nijmegen, maart 2003 Afstudeerscriptie Michel Groenenstijn VOORWOORD Na bijna zes jaar studeren is mijn studie Informatica bijna afgerond en kan ik terugkijken op de leukste en meest leerzame periode die

Nadere informatie

In deze nieuwe versie (januari 2012) zijn alle nieuwe functionaliteiten opgenomen.

In deze nieuwe versie (januari 2012) zijn alle nieuwe functionaliteiten opgenomen. Handleiding WebMan Easy Gefeliciteerd met uw keuze voor WebMan Easy, de unieke combinatie van kwaliteitsvormgeving met hoogstaande techniek. Met WebMan Easy bent u de baas over uw website en bepaalt u

Nadere informatie

Impact Telecommunicatiewet op online interactie

Impact Telecommunicatiewet op online interactie Impact Telecommunicatiewet op online interactie Van opt-out naar opt-in Radboud Universiteit Nijmegen Masterscriptie 31 december 2012 Naam: Opleiding: Begeleiders: Afstudeernummer: Niek Wolfkamp Informatiekunde/Information

Nadere informatie

Eindverslag. A.S. Koning & R.J.T. Verwoerd. 24 juni 2004. Bachelors-project Interactieve website voor publicaties

Eindverslag. A.S. Koning & R.J.T. Verwoerd. 24 juni 2004. Bachelors-project Interactieve website voor publicaties Eindverslag Bachelors-project Interactieve website voor publicaties A.S. Koning & R.J.T. Verwoerd 24 juni 2004 skoning@ch.tudelft.nl, verwoerd@ch.tudelft.nl 1 Voorwoord De afgelopen paar maanden hebben

Nadere informatie