Ministerie van Verkeer en Waterstaat. jklmnopq. Meetkundige Dienst

Maat: px
Weergave met pagina beginnen:

Download "Ministerie van Verkeer en Waterstaat. jklmnopq. Meetkundige Dienst"

Transcriptie

1 Ministerie van Verkeer en Waterstaat jklmnopq Meetkundige Dienst 1

2 Ministerie van Verkeer en Waterstaat jklmnopq Meetkundige Dienst 2

3 Ministerie van Verkeer en Waterstaat jklmnopq Meetkundige Dienst Trendrapportage Zoektechnologieën ten behoeve van WADI juli 2003 AGI-IBS

4 Ministerie van Verkeer en Waterstaat jklmnopq Meetkundige Dienst 2

5 Ministerie van Verkeer en Waterstaat jklmnopq Meetkundige Dienst Trendrapportage Zoektechnologieën ten behoeve van WADI juli 2003 AGI-IBS Vincent Buller ICT Strategie en Beleid (IBS) Meetkundige Dienst, Rijkswaterstaat 3

6 Inhoudsopgave Samenvatting 6 2 Projectbeschrijving Introductie Vraagstelling Projectafbakening Bronverantwoording Betrokkenen Het product Trendanalyse 9 3 WADI en DONAR Introductie Natte meetgegevens DONAR Systeemconcepten Selecteren in DONAR Analyse en Verwerkingsfuncties Waterbase (Plus) WADI Achtergrond en doelstelling Opzet Datamanagementsysteem Gegevensstandaarden Toepassing zoektechnologie 16 4 Zoeken als nieuw paradigma Introductie Zoeken als manier van informatieontsluiting Toegang tot informatie Zoeken in plaats van ordenen? Zoeken vs. Selecteren De anatomie van zoektechnologie Overzicht van de anatomie De Spider Semantische structuren De Index Het User Interface Programmatisch interface Drie-lagen model Security Personificatie Zoeken in relatie tot andere ICT gebieden Zoektechnologie en WADI 31 5 Internet en Enterprise Zoekmachines Introductie Gartner Enterprise Search Magic Quadrant De Enterprise Search markt Produkten en produktontwikkeling Autonomy Verity 37 4

7 5.4.3 Inktomi Google-in-a-box KennisBrowser en AquaBrowser, Medialab Collexis.com Convera Retrievalware Content Management en Kennismanagement Overzicht 45 6 Database technologie Introductie Databases en XML XML en de grote drie Oracle Microsoft SQL Server IBM DB What's in Store for XML DBs Text queries Databases en zoeken 49 7 XML Middleware en Information Integration Introductie IBM Information Integrator (experanto) OpenLink Software BEA Liquid Data MetaMatrix Nimble Technology EII en zoeken 53 8 Standaardisatie Introductie XML XML Query SQLX RDF en Topic Maps RDF en Topic Map query talen Samenvatting 58 9 Zoeken bij Rijkswaterstaat Introductie Project KM, RIKZ VenW Intranet AVV Conclusies Ontwikkelingen in zoektechnologie Zoektechnologie en informatie integratie WADI en zoektechnologie WADI en de omgeving Zoektechnologie voor het verzamelen van gegevens Evaluatiecriteria zoekmachines Referenties Rijkswaterstaat Butler Group Gartner Overige referenties Achtergrondinformatie 68 5

8 1 Samenvatting Dit trendrapport is het resultaat van een studie naar de relatie tussen zoektechnologie als methode voor de ontsluiting van tekstuele informatie en het opvragen van informatie uit gestructureerde (relationele) databases. Deze vraag is relevant voor het WADI project omdat werd gehoopt dat zoektechnologie kon helpen bij het vereenvoudigen van de toegang tot de database met natte meetgegevens. De resultaten van dit onderzoek zijn derhalve ook van belang voor andere database-projecten met een wens tot betere toegankelijkheid voor diverse typen gebruikers, en zelfs voor projecten die zich richten op traditionele toepassing van zoektechnologie voor bijvoorbeeld een internet, intranet of kennismanagement toepassing. Zoektechnologie is functioneel te onderscheiden in een aantal relatief onafhankelijke modules. Begrip van dit model is essentieel bij de beoordeling van de bruikbaarheid van specifieke technologie op een bepaald probleem: elk momenteel verkrijgbaar (zoek)product heeft sterkere en zwakkere kanten (modules) die moeten matchen met het gewicht dat men hecht aan per module gestelde requirements. Geavanceerde zoekproducten (bv. Autonomy) weerspiegelen deze modularisatie in toenemende mate ook in hun architectuur, waardoor de implementatie beter op het zoekprobleem is af te stemmen. Inhoudelijk gezien bestaat zoektechnologie uit een proces dat (tekstuele) informatie indexeert aan de hand van metadata (bijvoorbeeld een thesaurus), en een tweede proces dat een zoekvraag aan de metadata probeert te relateren, en via de index de bijbehorende informatie opzoekt. Er is een sterke relatie tussen zoektechnologie en metadata management, en indien (zoals in WADI) metadata management een centrale rol speelt is het belangrijk om zoekprocessen hieraan te relateren. Eventueel toegepaste zoektechnologie zal voldoende open moeten zijn om een dergelijke koppeling te kunnen maken. Het leveren van zoektechnologie is niet exclusief voorbehouden aan leveranciers die zich profileren in de Enterprise Search markt (bv. Autonomy, Inktomi). In toenemende mate zien we zoektechnologie ook terug in andere producten (recente MS Windows versies, databases). De voor dit onderzoek meest relevante ontwikkeling is de uitgebreide zoekfunctionaliteit die beschikbaar is gekomen in (relationele) databases (bv. Oracle, IBM). Het gratis meeleveren van zoektechnologie in andere producten kan worden gezien als een eerste aanzet tot commodisering van deze technologie. Voor steeds meer informatie geldt dat zoeken de enige (of in elk geval de meest praktische) manier is waarop zij ontsloten kan worden. Hierdoor zal zoektechnologie niet langer meer uitsluitend door mensen worden gebruikt, maar in toenemende mate direct worden benaderd door andere software (in het WADI geval bijvoorbeeld datavisualisatie- en analysetools). In dat opzicht wordt zoektechnologie steeds minder user-interface en steeds meer data access technologie, en verkrijgt het een rol voor ongestructureerde data die het relationele model en SQL hebben voor gestructureerde data. Voordat het echter een volledig gelijkwaardige rol kan krijgen zal de standaardisatie van zoektalen zich verder moeten ontwikkelen. Op de lange termijn is te verwachten dat het onderscheid in het ontsluiten van gestructureerde en ongestructureerde gegevens sterk zal verminderen nu al zijn op diverse terreinen ontwikkelingen zichtbaar waarbij het zoeken in tekst en het selecteren van gestructureerde gegevens (databases) naar elkaar toegroeien. Naast de centrale rol die metadata management daarbij zal 6

9 vervullen, is XML hierbij een belangrijke integrerende technologie. XML wordt nu reeds gebruikt voor modellering van het gehele scala aan gestructureerde en ongestructureerde gegevens en vormt tevens de bodem van recente ontwikkelingen op metadata gebied. 7

10 2 Projectbeschrijving 2.1 Introductie Deze trendrapportage is opgesteld naar aanleiding van de vraag uit het WADI project of zoektechnologie en ontwikkelingen daarin van belang zijn voor de gegevensontsluiting in het kader van WADI. Vanwege de bredere relevantie van de vraagstelling, onder andere voor de natte modelsystemen, is deze trendrapportage uitgevoerd onder auspiciën van het SPIN 1 en uitgevoerd door de afdeling ICT-Strategie en -Beleid (IBS) van de Meetkundige Dienst Vraagstelling De hierboven beschreven originele vraag is ten behoeve van het onderzoek als volgt veralgemeniseerd: Wat zijn de trends in zoektechnologie, toegespitst op het raakvlak tussen vrij zoeken in ongestructureerde gegevens en gestructureerde querying van databases Voor de beantwoording van deze vraag is primair uitgegaan van de wensen en doelstellingen van het WADI project. Van secondair belang is de relevantie van de in dit rapport beschreven zoektechnologie voor andere natte systemen zoals bijvoorbeeld het SIMONA modelsysteem. Omdat uit deze hoek niet wezenlijk andere problemen of vragen worden voorzien, zal hier in het vervolg van dit rapport verder niet expliciet bij worden stilgestaan. Tijdens het project heeft er afstemming en kennisuitwisseling plaatsgevonden met het kennis project RIKZ/DZH. 2.3 Projectafbakening Deze trendanalyse geeft een overzicht van de huidige en verwachte toekomstige stand van zaken met betrekking tot relevante (zoek)technologieën voor de ontsluiting van WADI gegevens. Het rapport beperkt zich tot een overzicht en interpretatie van trends en ontwikkelingen, en is nadrukkelijk parallel aan het WADI ontwikkeltraject uitgevoerd (vanzelfsprekend met de nodige afstemming). 2.4 Bronverantwoording Om de leesbaarheid van dit document niet negatief te beïnvloeden zijn niet alle (gedeeltelijke) citaten uit documenten van Rijkswaterstaat als citaat aangeduid. Dit geld vooral voor die teksten die als algemene kennis gelden en uit meerdere bronnen beschikbaar zijn. 1 Zie: 2 Zie: 8

11 2.5 Betrokkenen Om een overzicht te krijgen van toepassingen van zoektechnologie bij Rijkswaterstaat zijn gesprekken gevoerd met de volgende personen: MD-IBC dhr. Wiebrand Bouwkamp dhr. Martin v.d. Burg MD-IBM dhr. Frans Marks AVV dhr. Gerald Prast RIKZ dhr. Ron Bosman dhr. Ronald Marseille dhr. Robbert Verweij dhr. Poul Grashof, Demis DZH dhr. Jan Al dhr. Albert van Schaick 2.6 Het product Trendanalyse De afdeling ICT-Strategie en -Beleid (IBS) van de Meetkundige Dienst geeft Rijkswaterstaat beleidsondersteunend ICT-advies op strategisch niveau. Klanten van IBS zijn het hoofdkantoor van Rijkswaterstaat en de IT-raden van V&W en RWS. Daarnaast worden er adviesopdrachten uitgevoerd in het kader van lopende RWS projecten. Regionale directies, specialistische diensten van RWS en andere onderdelen van het ministerie kunnen ook een beroep doen op deze dienstverlening. Voor het geven van adviezen over de strategische inzet van ICT betekent dat IBS al deze ontwikkelingen op de voet moet volgen. Trendanalyse is onmisbaar voor een gedegen ICT-beleid dat rekening houdt met ontwikkelingen binnen en buiten de overheid, op het gebied van ICT en ook daarbuiten. De trendanalyse groep binnen IBS houdt zich bezig met het signaleren van nieuwe ontwikkelingen, en analyseert en beoordeelt het belang hiervan voor de kerntaken van het ministerie. IBS onderhoudt daarvoor nauw contact met professionele volgers van de ICT-wereld, waaronder kennisinstituten als de Technische Universiteit Delft en andere universiteiten, en de analistenbureaus Gartner en Butler Group. Door verkenningen, presentaties, rapportages, publicaties en de intranetsite wordt de opgedane kennis verspreid en gebruikt voor het geven van adviezen. Zie voor meer informatie: 9

12 3 WADI en DONAR 3.1 Introductie De inwinning, opslag en verwerking van natte meetgegevens kent een rijke historie. Dit hoofdstuk biedt een overzicht van wat DONAR is en WADI wil zijn, in relatie tot de vraag naar gegevensontsluiting. 3.2 Natte meetgegevens De natte meetgegevens (zoals opgenomen in DONAR) omvatten: fysische gegevens, zoals waterstanden, golfgegevens, afvoeren, watertemperaturen,en meteorologische gegevens; chemische informatie, zoals concentraties van chemische stoffen in water, waterbodems, slib, bagger en organismen; morfologische gegevens, zoals hoogteligging, van rivier-, meer-, zeebodems; biologische gegevens, zoals informatie over vogels, vissen en microorganismen. De bovengenoemde meetgegevens zijn veelal afkomstig uit reguliere meetprogramma s. Daarnaast zijn er echter ook veel metingen welke op incidentele basis, vaak ten dienste van een project, zijn uitgevoerd. Deze gegevens zijn soms slechts toegankelijk via de bureaulade van de (voormalige) projectleider, alwaar ze in een onbekend formaat en zonder afdoende beschrijvende gegevens (metagegevens) liggen te verstoffen. Het hergebruik van deze gegevens is een van de doelstellingen van WADI. 3 Naast zuivere meetgegevens zijn er ook afgeleide documenten zoals onderzoeksrapporten en verslagen. Hoewel DONAR geen faciliteit biedt voor de opslag van deze documenten, bestaat er sinds enige tijd wel een mogelijkheid om externe referenties op te slaan (o.a. op auteur, ISBN nummer of andere bibliotheekaanduiding) DONAR Systeemconcepten DONAR (Data Opslag Natte Rijkswaterstaat) is het huidige systeem voor centrale opslag, beheer en ontsluiting van natte meetgegevens van de rijkswateren. Invoer van gegevens geschiedt door het middels een terminalverbinding uploaden van data in een gestandaardiseerd gegevensformaat. Door deze remote verbinding kunnen regionale diensten gegevens decentraal invoeren. Het omzetten van gegevens in het juiste formaat en eventueel maken van een selectie of uitvoeren van filterfuncties voor de opslag is een decentrale taak. Bij de opslag van de gegevens in DONAR wordt een sterk conceptueel onderscheid gemaakt tussen de meetgegevens en de bijbehorende meta-data. Het begrip meta-data wordt ruim opgevat als alles behalve de meetwaarden 3 Zie de Managementsamenvatting van de WADI Definitiestudie 4 Zie: 10

13 zelf, en wordt onderscheiden in W3H : Wie, Waar, Wat, Hoe (Een vierde W, de wanneer, is niet als zodanig herkenbaar maar indirect aanwezig als reeks -selectie). Wat: Om welke gegevens en/of om welke biologische soort gaat het? Wie: Wie is de opdrachtgever, wie heeft de meting verricht, wie heeft de meetwaarde geanalyseerd? Waar: Op welke locatie is de meting uitgevoerd? Hoe: Met welk instrument is de meting verricht, welke analysemethode is gebruikt? Wanneer: Op welk tijdstip is de meting verricht? Selecteren in DONAR De W3H (W4H) onderdeling van de meta-gegevens vind zijn weerslag in de wijze van gegevens-selectie in DONAR middels de zgn. W3H selectie. Figuur 3.1 is een afbeelding van het (terminalgeoriënteerde) zoekscherm van DONAR. De DONAR handleiding spreekt van noodzakelijke materiekennis voordat men van DONAR gebruik kan maken, en dit geldt zeker voor het zoekinterface. Er wordt in het scherm veel gebruik gemaakt van vaktermen (welke bekend mogen worden verondersteld) maar er is daarnaast sprake van afhankelijkheden tussen de diverse selectievelden. Dit wil zeggen dat een selectie in het ene veld de toegestane waarden in een ander veld beïnvloedt wat zelfs voor materiedeskundigen het opstellen van een query tot een complexe zaak maakt. Figuur 3.1: Het DONAR selectiescherm Achter dit zoekscherm bevind zich een relationele database met SQL query mogelijkheid, dus indien men daartoe toegang heeft zijn andere queries mogelijk. Een presentatie van het WADI project meldt de volgende sterke en zwakke punten van DONAR: Sterke punten o Centrale bron o Veel gegevens o Goed beheer o Metagegevens 11

14 o Heeft standaardisatie bevorderd o Borging investeringen in monitoring Zwakke punten o Niet alles kan erin o Niet alles staat erin o Het verwerkingssysteem sluit niet aan bij de processen o Geografie zwak (alleen puntlocaties) o Onvoldoende open o Matig gebruiksvriendelijk Hieraan is nog toe te voegen: Geen expliciet beheer van (meet)nauwkeurigheden z-positionering; dit valt onder de beperkte geografische mogelijkheden maar is een expliciete wens voor de toekomst. In het algemeen is de huidige DONAR structuur meer gericht op de gegevensinvoerkant dan de ontsluiting van de gegevens Analyse en Verwerkingsfuncties Met DONAR zelf kunnen standaardverwerkingen op gegevens worden uitgevoerd, zoals: algemene statistiek: het berekenen van gemiddelden en frequentie analyse; presentaties van gegevens in tabelvorm; selecties van gegevens d.m.v. filteren van uitschieters, aangeven van grenswaarden; omrekenen naar andere eenheden en/of coördinaatstelsels; grafische presentaties: tweedimensionale en driedimensionale grafieken en histogrammen; een specifieke applicatie voor het valideren, presenteren en analyseren van stroommetingen. Veel gebruikers van het DONAR systeem willen de gegevens verder verwerken in marktpakketten zoals bijvoorbeeld Microsoft office pakketten (MS EXCEL, MS WORD, MS ACCESS). Hiervoor biedt DONAR een exportfunctie. 3.4 Waterbase (Plus) Het wordt al geruime tijd onderkend dat het opvragen van gegevens uit DONAR te beperkt is gebleven tot een groep specialisten. Dit wordt mede veroorzaakt door een verouderd, minder gebruikersvriendelijke gebruikersinterface. Om DONAR voor een breder publiek toegankelijk te maken, is hiervoor een project opgestart. In het voorjaar van 2002 is de applicatie Waterbase gereed gekomen. Met deze applicatie is, via een eenvoudig gebruikersinterface, een belangrijk deel van de gegevens uit de centrale DONAR database 5, te weten fysische en chemische landelijke monitoringgegevens, op internet beschikbaar. Deze applicatie blijkt een succesformule te zijn. WaterBase bevat een selectie van de gegevens uit DONAR. Deze selectie omvat enkel tijdreeksen, is zorgvuldig gecontroleerd en is geoptimaliseerd voor publicatie op het Internet. In een vervolgfase van het project ter ontsluiting van DONAR voor een breed publiek worden alle reekstypen uit de centrale DONAR 5 De oorspronkelijke ambitie van het voorloper-traject WATINDON was zelfs om rechtstreeks meetgegevens uit zowel de centrale als de decentrale DONAR databases te ontsluiten. 12

15 database ontsloten en zal het mogelijk te zijn om te zoeken in de database welke meetgegevens op een bepaalde locatie, of in een bepaald gebied in een op gegeven periode aanwezig zijn. Vervolgens kunnen alle meetreeksen, of een subset hiervan uit de selectie opgevraagd worden. Er wordt hierbij niet gewerkt op de DONAR database zelf, maar op een schaduwdatabase. Deze schaduwdatabase wordt op regelmatige basis, bijvoorbeeld 1 maal per week, ge-update met de DONAR database. In het hoofdmenu van de applicatie WaterBase zal de gebruiker een keuze kunnen maken uit zoeken in de fysische en chemische landelijke monitoringgegevens (Waterbase); uitgebreid zoeken in de complete centrale DONAR database (Waterbase Plus). De eerste mogelijkheid is beschikbaar op Internet. De tweede mogelijkheid is beschikbaar voor Intranet. Dit onderscheid wordt aangebracht omdat de uitgebreide zoek mogelijkheid ook toegang geeft tot projectgegevens en nog niet gevalideerde gegevens. De gebruikersinterface van Waterbase+ zal overeenkomstig de bestaande gebruikersinterface van Waterbase zijn, met enkele extra filtermogelijkheden zodat de omvang van de geselecteerde dataset snel beperkt kan worden. Volgens de huidige planning zal Waterbase+ van het project Waterbase in voorjaar 2003 operationeel zijn. In een vervolg zullen de publicatiemechanisme van de landelijke monitoringgegevens en de uitgebreide zoekmogelijkheden geïntegreerd worden. Een voor zoeken relevante functionaliteit is de in Waterbase Plus ingebouwde thesaurus, waarmee bij de gebruiker bekende terminologie kan worden gebruikt in plaats van de dieper in het systeem gebruikte vaktermen. 3.5 WADI Achtergrond en doelstelling WADI (Water Data Infrastructuur) is een project dat tot doel heeft de goede eigenschappen van DONAR te behouden en de knelpunten op te lossen. De opdracht voor WADI is: 6 WADI dient, meer dan nu het geval is, het primaire proces te ondersteunen Het blikveld wordt verruimd tot het integrale datamanagement van natte meetgegevens binnen de werkprocessen. Daarom spreken we nu ook niet van het bouwen van een systeem, maar van het zorgen voor een oplossing voor datamanagement. Aan de basis van WADI staat een duidelijke definitie van doelgroepen en kadering van de functionaliteit. De WADI gebruikers zijn bepaald als: Primair: Alle onderdelen Rijkswaterstaat Ministerie van Verkeer en Waterstaat Secondair: 6 Zie WADI Startdocument 13

16 Andere waterbeheerders (waterschappen, provincies) BV Nederland (Andere overheden, burger, bedrijven en instituten) Onderwijsinstellingen Europese en mondiale partners Het onderscheid primair-secondair komt erop neer dat de eerste groep WADI gebruikt voor de opslag van eigen gegevens, en de secondaire groep gebruikers betreft met alleen leestoegang of anderszins beperkte rechten. WADI heeft zoals blijkt uit genoemde gebruikersdefinitie als expliciete doelstelling om de gegevens ter beschikking te stellen aan afnemers buiten Rijkswaterstaat, wat bijzondere eisen stelt aan de makkelijke toegang tot de gegevens. Meer dan bij DONAR is voor WADI een functionele afbakening vastgesteld, die vooral inhoud dat WADI zelf niets aan presentatie en analyse van gegevens zal doen. Evenals bij DONAR valt ook het inwinnen en voorbewerken van gegevens buiten de doelstelling. Figuur 3.2: Functionele afbakening van WADI Gegevens in WADI: Meetwaarden Kengetallen Indicatoren en graadmeters Opzet Datamanagementsysteem Aan het datamanagementsysteem van WADI zijn de volgende eisen gesteld: 7 Opslag op maat van natte Rijkswaterstaat meetgegevens Opslag op maat betekent dat het invoeren van gegevens soepeler moet verlopen dan in het huidige DONAR, en dat opslag specifieker geschikt moet zijn voor verschillende soorten meetgegevens. Deze gegevens kunnen voortkomen uit meerjarige monitoringprogramma s of uit eenmalige projecten. 7 Zie WADI Startdocument 14

17 Dit leidt niet noodzakelijkerwijs tot één opslagsysteem (zoals DONAR nu). Wel is er één metadatainfrastructuur. Het doel is optimale toegankelijkheid, ook vanuit andere systemen en applicaties. Uitstekende toegankelijkheid van deze gegevens De architectuur en opzet van WADI zorgen ervoor dat de opgeslagen gegevens in maatwerk- of marktapplicaties goed terug te vinden en op te vragen zijn. Er zal één maatwerkapplicatie ontwikkeld worden om gegevens op te vragen (en terug te vinden). Dit zijn de gegevens die hierboven zijn genoemd. Hiermee wordt aangetoond dat het relatief eenvoudig is om toegang tot de data te krijgen. Figuur 3.3 schetst de globale opzet van het datamanagementsysteem dat aan de beoogde doelstellingen beantwoordt. Vanwege het bredere dekkingsgebied dan DONAR wordt uitgegaan van een generiek opslagmodel waar dat kan (inclusief geografische informatie) en specifieke modellen waar dat nodig is voor de diverse toepassingsgebieden. Gebruiker/ Werkproces 1 Gebruiker/ Werkproces 2 Gebruiker/ Werkproces 3 User-interface Extern systeem Waterbase User-interface 3 User-interface 1 View View View WADI Metalaag Metadata Metadata Metadata Specifiek Specifiek Generiek Opslag- Opslagopslagmodel Model I Model II Extern opslagsysteem Figuur 3.3: Systeemschets WADI De diverse modellen worden geïntegreerd middels een universele metadatainfrastructuur voor zowel de generieke als de specifieke informatie. Externe gegevensverzamelingen die aan een aantal eisen voldoen (zoals stabiliteit) kunnen eveneens worden gekoppeld aan de metalaag. Met de gebruiker wordt gecommuniceerd via views. Zodoende wordt zowel bij het opslaan als bij het ophalen van gegevens een herkenbare omgeving geboden voor gebruikers (zie figuur). Het WADI project gaat uit van een incrementele aanpak en stapsgewijze implementatie. Dit, samen met de mogelijkheid tot het opnemen van externe gegevensverzamelingen, vereist dat de integrerende metadatalaag flexibel wordt opgezet en uitbreidingen zowel als veranderingen eenvoudig toestaat. Diverse toepassingen krijgen toegang tot de WADI gegevens, en bieden hun eigen speciefieke view op de data. Waterbase, momenteel een aan DONAR 15

18 gekoppelde applicatie, kan als een dergelijke toepassing worden gezien, evenals andere visualisatie en analysetools Gegevensstandaarden Waar mogelijk worden gegevens opgeslagen in een generiek opslagmodel, dat zoveel mogelijk voldoet aan de gegevensstandaard van de IDsW (InformatieDesk standaarden Water) en tenminste aan de CIW-gegevensstandaard en de CIW-waarnemingssoorten indien IDsW nog niet voldoende is uitontwikkeld. 8 Waar dit niet past, wordt de opslag geregeld via specifieke gegevensmodellering. IDsW (Informatie Desk standaarden Water, gestart begin 2003) is de beoogde integratie van gegevenswoordenboeken Adventus, Omega en de Water Informatie-infrastructuur (bestaande uit 4 producten). Onder de IDsW is het onder meer de bedoeling dat er straks 1 gegevenswoordenboek komt, door het samenvoegen van Adventus en Omega (en daarmee ook de CIW-gegevensstandaard). Dit is echter niet gemakkelijk omdat sommige termen dubbel voorkomen met een andere beschrijving. Het zal nog wel een paar jaar duren voor het zover is. IDsW Adventus gegevensstandaard water CIW standaard Omega gegevenswoordenboek Figuur 3.4: Relatie gegevensstandaarden IDsW, Omega, Adventus en CIW 3.6 Toepassing zoektechnologie Op voorhand zijn twee plaatsen in het WADI project geïdentificeerd waar zoektechnologie mogelijk zou kunnen worden toegepast. De voor de hand liggende toepassingsmogelijkheid is in het (gebruikers)interface, de andere is bij het (semi-)automatisch vergaren van ruwe data ten behoeve van opname in WADI. Gegevensontsluiting met WADI vind in eerste instantie plaats door het vinden van de juiste datasets, niet zozeer individuele gegevens. De wijze van ontsluiting is middels de metadata, en niet de data (meetwaarden) zelf. Een vraag als geef mij die datasets die meetwaarden X bevatten met een waarde groter dan Y valt volgens de definitie van WADI buiten het WADI domein, en in het domein van analysetools. De bovengrens van WADI zoals geschetst in afbeelding 4.4, met een interface tussen WADI en toepassingsspecifieke applicaties, vereist dat zoekacties die in de gebruikersapplicatie worden ingevoerd moeten kunnen worden doorgegeven. Dit maakt tevens mogelijk dat het zoekinterface wordt benaderd door automatische algoritmen, omdat het bij een dergelijke architectuur voor de onderliggende applicatie niet meer relevant (of zelfs maar zichtbaar) is of een zoekactie door een eindgebruiker is ingevoerd of door een andere applicatie is geïnitieerd. 8 Zie WADI SysteemOmgeving 16

19 4 Zoeken als nieuw paradigma 4.1 Introductie De opkomst van het Internet en de bijbehorende technologie heeft veel veranderingen in de ICT teweeg gebracht, niet in het minst in het denken over user-interfacing en gegevensontsluiting. Naast de browser metafoor voor de ontsluiting van hyperlinked informatie, is de belangrijkste ontwikkeling op dit gebied toch zondermeer de opkomst van het zoeken (de search blank, zie Gartner: Search Technology Tools Suited for Programs and People). Zoektechnologie heeft historisch gezien altijd al deel uitgemaakt van gesloten informatieverzamelingen zoals bibliotheeksystemen, document management systemen en catalogus CD-ROMs. Zoeken op het Internet, en meer specifiek op het Web, 9 heeft het zoeken ten opzichte van deze traditionele gegevensverzamelingen echter op een aantal punten significant veranderd. Zo is Web technologie per definitie geënt op een netwerk, en is de informatie op het Web per definitie gedistribueerd opgeslagen. Gepaard met deze gedistribueerde opslag gaat decentrale wijziging van gegevens, waardoor de enige manier om overzicht over alle gegevens te houden (een index op te bouwen) het periodiek aflopen daarvan is (een techniek die spidering of crawling wordt genoemd in Web zoekterminologie). Niet alleen in technisch opzicht is de aanmaak van content en het doorvoeren van wijzigingen op het Web decentraal, ook kan het Web gezien worden als ultieme democratisering van het publicatieproces en de vleesgeworden vrijheid van meningsuiting. Behalve interessante materie voor filosofen, heeft dit ook directe consequenties voor de wijze van ontsluiting van de informatie. De grote mate van anarchie op het Web betekent dat de structuur die er is gedistribueerd door de content auteurs zelf wordt aangemaakt (de web structuur van hyperlinks van pagina naar pagina), of van buitenaf en achterafaangemaakt door een Web index (directory) als Yahoo of zoekmachine als Google. Niet alleen staat het iedereen vrij om zelf een Web-index of zoekmachine te beginnen, in veel gevallen zijn de gebruikte indexeringsalgoritmen niet publiek. De onafhankelijke opzet van Web-zoekmachines heeft ertoe geleid dat er een ware wapenwedloop is ontstaan tussen Websites (die zo hoog mogelijk in de index willen eindigen) en zoekmachines (wiens bestaansrecht voor een groot deel wordt ontleend aan objectiviteit). Niet alleen is het zo dat zoekmachines verantwoordelijk zijn voor het afleiden van metadata uit de content zelf, ze moeten ook nog voorkomen dat ze opzettelijk worden misleid. Hoewel de Web opmaakstandaard HTML mogelijkheden kent voor het aangeven van keywords of categorisering van de content, zullen zoekmachines hier dus helaas niet zondermeer op kunnen vertrouwen. Kwaliteit van informatie is een moeilijk begrip dat al snel leidt tot een kwalificatie van de inhoud en een stellingname over het besprokene. Omdat een zoekresultaat objectief moet zijn maar toch een zekere mate van kwaliteitsbeoordeling wil bevatten, wordt hiervoor vaak teruggegrepen op een beproefde techniek uit de wetenschap: de citation index. Kort samengevat komt dit erop neer dat het aantal hyperlinks naar een pagina toe wordt 9 Informatie op het Internet kan ook beschikbaar zijn in nieuwsgroepen, Gopher, etc. Dit onderscheid is echter steeds minder van belang, en in het vervolg zullen we het ook niet meer maken. 17

20 beschouwd als kwaliteitsmaat omdat hiervoor de inhoud (hyperlinks) van andere pagina s dan de betreffende pagina van belang zijn is dit systeem moeilijk te misleiden 10, en door de wet van de grote getallen de invloed van een enkele site op de weging van anderen gering. Op deze manier vormt het decentraal gecreëerde web van hyperlinks weer een belangrijke factor bij de weging van de centraal aangeboden zoekresultaten. Samenvattend is het goed om ons te realiseren dat Web zoekmachines zijn ontwikkeld voor een omgeving waarin een hoge mate van standaardisatie van datacommunicatie (alle websites zijn op dezelfde manier benaderbaar), maar een lage graad van organisatie en standaardisatie van de inhoud. Wat maakt zoeken anders dan andere manieren om informatie te ontsluiten, en wat zijn juist eventuele overeenkomsten? In dit hoofdstuk bespreken we zoektechnologie en haar anatomie. 4.2 Zoeken als manier van informatieontsluiting Toegang tot informatie Zodra een informatieverzameling een zekere grootte bereikt ontstaat de behoefte om de informatie met hulpmiddelen beter benaderbaar te maken. In een bibliotheek met meer dan een paar boeken zal men al snel de boeken op alfabetische of thematische volgorde zetten. Hier blijkt al snel de beperking van het gebruik van de fysieke locatie van de boeken, namelijk dat er tegelijkertijd maar op 1 manier tegelijkertijd kan worden geordend. Een aparte metadata verzameling in de vorm van een catalogus kan dat probleem ondervangen. Figuur 4.1: De Google zoekpagina en de Google Directory (index) als voorbeelden van Query-based en Navigation-based information retrieval Wanneer we de stap maken naar geautomatiseerde informatieverzamelingen, dan zijn er diverse manieren om de ontsluiting te benaderen. Een onderverdeling van deze methoden wordt bijvoorbeeld gepresenteerd door Alexander Linden van Gartner (in Different Approaches to Accessing Information): 10 Hoewel er vanzelfsprekend wel pogingen worden ondernomen m.b.v. zgn. linkfarms 18

Newyse CMS. Afstudeerscriptie. Naam: Elwin Vreeke. Werkgever: Maxxton. Begeleider Maxxton: Dhr. Jean-Pierre Mampaey

Newyse CMS. Afstudeerscriptie. Naam: Elwin Vreeke. Werkgever: Maxxton. Begeleider Maxxton: Dhr. Jean-Pierre Mampaey Newyse CMS Afstudeerscriptie Naam: Elwin Vreeke Werkgever: Maxxton Begeleider Maxxton: Dhr. Jean-Pierre Mampaey Universiteit: Technische Universiteit Delft Begeleider TU Delft: Dr. Kees van der Meer Inhoud

Nadere informatie

De Koninklijke Bibliotheek en Web 2.0: nieuwe gegevensarchitectuur maakt nieuwe concepten van dienstverlening mogelijk.

De Koninklijke Bibliotheek en Web 2.0: nieuwe gegevensarchitectuur maakt nieuwe concepten van dienstverlening mogelijk. De Koninklijke Bibliotheek en Web 2.0: nieuwe gegevensarchitectuur maakt nieuwe concepten van dienstverlening mogelijk. Auteurs: Paul Doorenbosch, Koninklijke Bibliotheek Theo van Veen, Koninklijke Bibliotheek

Nadere informatie

De Oracle Customer Data Hub als Customer Knowledge Management-applicatie?

De Oracle Customer Data Hub als Customer Knowledge Management-applicatie? De Oracle Customer Data Hub als Customer Knowledge Management-applicatie? Een vergelijkend onderzoek tussen de Customer Data Hub en de eisen en wensen die een organisatie stelt met betrekking tot de functionele

Nadere informatie

Van tekstverwerker tot aantekeningensysteem

Van tekstverwerker tot aantekeningensysteem Van tekstverwerker tot aantekeningensysteem Van tekstverwerker tot aantekeningensysteem Faculteit Letteren, Alfa Informatica (Informatiekunde) door: begeleiders: Henny Klein & Elwin Koster mei 2003, Groningen

Nadere informatie

Smartsite Search Engine Optimization Toolkit

Smartsite Search Engine Optimization Toolkit Seneca B.V. Elektronicaweg 31 2628 XG Delft Nederland T +31(0)15-251 37 00 F +31(0)15-251 37 01 E info@smartsite.nl I www.smartsite.nl Whitepaper Smartsite Search Engine Optimization Toolkit 2009 Seneca

Nadere informatie

Realtime Resource Management met BI 2.0

Realtime Resource Management met BI 2.0 Faculteit Ingenieurswetenschappen Realtime Resource Management met BI 2.0 door Project Manager: Olivier Rosseel & Dries Staelens Lead Architect: Ben Abelshausen Research Manager: Brahim Al Farasi & Pieter

Nadere informatie

De bouwstenen van de digitale bibliotheek

De bouwstenen van de digitale bibliotheek De bouwstenen van de digitale bibliotheek DEN Marco de Niet Dit artikel is geschreven door Marco de Niet en gepubliceerd in De Digitale Bibliotheek. Red. Bart van der Meij en Kees Westerkamp. Rotterdam,

Nadere informatie

Inkijkexemplaar. Online Marketing. voor het MBO EDUFOCUS. Home Contact Blog. Marketing. Samen. Ontdek de mogelijkheden van

Inkijkexemplaar. Online Marketing. voor het MBO EDUFOCUS. Home Contact Blog. Marketing. Samen. Ontdek de mogelijkheden van EDUFOCUS Home Contact Blog Ontdek Ontdek de mogelijkheden van Online Marketing Online Marketing voor het Samen Werk samen en deel je ervaringen. Marketing MBO Doe Ontdek aan de hand van opdrachten hoe

Nadere informatie

Trendrapport GIS. prof.dr.ir. P.J.M. van Oosterom ir. F. Penninga drs. M.E. de Vries. Onder redactie van E.M. Fendel

Trendrapport GIS. prof.dr.ir. P.J.M. van Oosterom ir. F. Penninga drs. M.E. de Vries. Onder redactie van E.M. Fendel Trendrapport GIS prof.dr.ir. P.J.M. van Oosterom ir. F. Penninga drs. M.E. de Vries Onder redactie van E.M. Fendel GISt Rapport No. 40 November 2005 RWS Report AGI-2005-GAB-01 Trendrapport GIS prof. dr.

Nadere informatie

Smartsite ixperion en Microsoft Sharepoint 2010

Smartsite ixperion en Microsoft Sharepoint 2010 Seneca B.V. Elektronicaweg 31 2628 XG Delft Nederland T +31(0)15-251 37 00 F +31(0)15-251 37 01 E info@seneca.nl I www.seneca.nl Een Seneca Whitepaper Smartsite ixperion en Microsoft Sharepoint 2010 Nieuwe

Nadere informatie

9 *uklpdo#bxmxyv* Aan de slag met Reporting Services 2012. voor Microsoft SQL Server. Aan de slag met Reporting Services 2012.

9 *uklpdo#bxmxyv* Aan de slag met Reporting Services 2012. voor Microsoft SQL Server. Aan de slag met Reporting Services 2012. Over de auteur Peter ter Braake is zelfstandig SQL Server docent/consultant. Hij is MCT sinds 2002 en SQL Server MVP sinds begin 2012. Hij werkt met SQL Server Reporting Services sinds de eerste release

Nadere informatie

Model Programma van Eisen. Document Management Systeem. voor een geïntegreerd. Over dit document

Model Programma van Eisen. Document Management Systeem. voor een geïntegreerd. Over dit document Model Programma van Eisen voor een geïntegreerd Document Management Systeem Over dit document Dit document is een hulpmiddel bij het opstellen van een Programma van Eisen (PvE). Zoals ieder model, moet

Nadere informatie

Portals en SOA. Competence Center Infrastructural Software Services

Portals en SOA. Competence Center Infrastructural Software Services Portals en SOA Competence Center Infrastructural Software Services Meer informatie Voor vragen over deze whitepaper of meer informatie kunt u contact opnemen met Info Support door te bellen naar +31 (0)

Nadere informatie

Bachelor eindproject

Bachelor eindproject Technische Universiteit Delft Bachelor eindproject Faculteit: Electrotechniek, Wiskunde en Informatica Sectie: Web Information Systems DENC Docs Studenten: Martijn Berger (1123076) Michael Croes (1265180)

Nadere informatie

Eén ELO voor de UU Expertisecentrum ICT in het onderwijs, IVLOS December 2006

Eén ELO voor de UU Expertisecentrum ICT in het onderwijs, IVLOS December 2006 Eén ELO voor de UU Expertisecentrum ICT in het onderwijs, IVLOS December 2006 Colofon Auteur(s): Ineke Lam, Wilfred Rubens, Robert-Jan Simons Korte beschrijving: In dit rapport wordt verslag gedaan van

Nadere informatie

Veiligheidsregio Referentie Architectuur Handreiking toepassen VeRA

Veiligheidsregio Referentie Architectuur Handreiking toepassen VeRA 2.0 Veiligheidsregio Referentie Architectuur Samenwerking door samenhang in informatievoorziening binnen de veiligheidsregio s Handreiking toepassen VeRA Deel 1: Aanbesteden 1 VeRA en aanbesteden 3 2

Nadere informatie

BIBIS Library Portal. Een verhalende beschrijving

BIBIS Library Portal. Een verhalende beschrijving BIBIS Library Portal Een verhalende beschrijving BIBIS Library Portal BIBIS Library Portal, is ontwikkeld om de medewerkers van een modern informatiecentrum optimaal te ondersteunen bij hun dagelijkse

Nadere informatie

Wikipedia voor ICT-best practices

Wikipedia voor ICT-best practices Wikipedia voor ICT-best practices Een eerste verkenning naar wenselijkheid en haalbaarheid In opdracht van het Ministerie van Economische Zaken (DGET) Dialogic innovatie & interactie Utrecht, 31 augustus

Nadere informatie

Enterprise Content Management bij Evides

Enterprise Content Management bij Evides Enterprise Content Management bij Evides Inleiding Ruim tien jaar geleden werd bij Evides begonnen met de invoering van Enterprise Content Management. Hoewel veel van de documenten die men binnen het bedrijf

Nadere informatie

Laury Bollen & Mark Vluggen* Maastricht Accounting and Auditing Research and Education Center (MARC)

Laury Bollen & Mark Vluggen* Maastricht Accounting and Auditing Research and Education Center (MARC) STRATEGIC ENTERPRISE MANAGEMENT: DE VOLWASSENHEIDSFASE VAN ENTERPRISE RESOURCE PLANNING? Laury Bollen & Mark Vluggen* Maastricht Accounting and Auditing Research and Education Center (MARC) Faculteit der

Nadere informatie

Handleiding (Internationale) Zoekmachine & Portal Marketing

Handleiding (Internationale) Zoekmachine & Portal Marketing Handleiding (Internationale) Zoekmachine & Portal Marketing http://twitter.com/#!/geertnijkamp http://nl.linkedin.com/in/geertnijkamp www.alcius.com International Business Development 1 Inhoudsopgave 1.

Nadere informatie

Onderzoek naar toepassing van Agent Technologie binnen Reaal Verzekeringen

Onderzoek naar toepassing van Agent Technologie binnen Reaal Verzekeringen Onderzoek naar toepassing van Agent Technologie binnen Reaal Verzekeringen Alex Bongers alex.bongers@phil.uu.nl 11 oktober 2004 Software Agents Voorwoord Deze afstudeerscriptie vormt de afsluiting van

Nadere informatie

Laury Bollen & Mark Vluggen* Maastricht Accounting and Auditing Research and Education Center (MARC)

Laury Bollen & Mark Vluggen* Maastricht Accounting and Auditing Research and Education Center (MARC) STRATEGIC ENTERPRISE MANAGEMENT: DE VOLWASSENHEIDSFASE VAN ENTERPRISE RESOURCE PLANNING? 1 Laury Bollen & Mark Vluggen* Maastricht Accounting and Auditing Research and Education Center (MARC) Faculteit

Nadere informatie

Onderzoek native XML databases

Onderzoek native XML databases Onderzoek native XML databases Vincent Fleur Dennis Heij Voorwoord Dit onderzoeksrapport is geschreven door Dennis Heij en Vincent Fleur. Beide zijn laatstejaars student van de opleiding kort Bedrijfskundige

Nadere informatie

ICT Complexiteit Binnen Organisaties Architectuur als stuurmiddel?

ICT Complexiteit Binnen Organisaties Architectuur als stuurmiddel? ICT Complexiteit Binnen Organisaties Architectuur als stuurmiddel? Colofon Auteur: Ing. Roel Konieczny rkoniecz@sci.kun.nl Opleiding: Opdracht: Universiteit: Subfaculteit: Informatiekunde ICT complexiteit

Nadere informatie

I B M W e b s p h e r e

I B M W e b s p h e r e I B M W e b s p h e r e Ondernemingskans of IT risico? Scriptie ter afronding van de postgraduate IT Audit opleiding aan de VU Datum: 2008-04-03 Versie 1.0 Auteurs: Walter Borgstein, Eric den Haan, Jacques

Nadere informatie

Rapport. Onderzoek naar een Geoinformatie Intranetsite voor de Provincie Limburg

Rapport. Onderzoek naar een Geoinformatie Intranetsite voor de Provincie Limburg Rapport Onderzoek naar een Geoinformatie Intranetsite voor de Provincie Limburg Drs. B.J. Köbben & Prof. Dr. M J. Kraak Februari 1999 INHOUD 1 SAMENVATTING 3 2 INLEIDING 4 2.1 Het onderzoek 4 2.2 Begripsbepaling

Nadere informatie

Een onderzoek naar de partnertevredenheid

Een onderzoek naar de partnertevredenheid De partner aan het woord Een onderzoek naar de partnertevredenheid Helder, flexibel, betrouwbaar Datum: 4 juni 2014 Versie: 1.8 Eindrapport Begeleider SpeakUp BV Giuseppe Levatino giuseppe@speakup.nl 088-7732573

Nadere informatie

Het succesvol implementeren van een standaard softwaresysteem

Het succesvol implementeren van een standaard softwaresysteem Het succesvol implementeren van een standaard softwaresysteem Bachelorthesis J.N. Zwikstra - 265948 Economie & Bedrijfseconomie Erasmus Universiteit Rotterdam Begeleider: prof. dr. G.J. van der Pijl Meelezer:

Nadere informatie

Augmented Landmarks. Nederlands Instituut voor Beeld en Geluid. Adviesrapport. Versie 1.0 [Final]

Augmented Landmarks. Nederlands Instituut voor Beeld en Geluid. Adviesrapport. Versie 1.0 [Final] Nederlands Instituut voor Beeld en Geluid Augmented Landmarks Adviesrapport Versie 1.0 [Final] Hans Horn, Youssef Ibrahimi, Ismail Ait Mouhou Thomas Gunther, Arnold Eriks en Rio Tri Harsono 24-5-2010 Inhoudsopgave

Nadere informatie