Systeemarchitecturen en opslag van gegevens



Vergelijkbare documenten
informatie architectuur 9 december 2010 IAM V

Les 10 : Aanmaken van een database (deel2).

Technisch Ontwerp W e b s i t e W O S I

LES 2 INDERDAAD, JE MOET DE WEBBROWSER AANWIJZINGEN GEVEN, MAAR DAN WEL VOLGENS DE AFGESPROKEN REGELS

Module II - Enkele Begrippen

Schrijven voor het web. 1TIN Internettechonologie les 02 1

Rapporten. Labels en Rapporten in Atlantis 1. Atlantis heeft twee manieren om output te genereren: 1. labels 2. rapporten (reports)

Info-books. Toegepaste Informatica. Deel 35: XML - XSL HO35. Jos Gils Erik Goossens

HTML richtlijnen marketing. part of the valley

HTML. inhoud structuur semantiek. HTML5 & semantiek of betekenis. semantisch coderen. Semantisch coderen: waarom? 3/09/2016

Website beoordeling seo.sololaki.com

Hardware Specialisatie. Module 1: Zoeken op het internet

FFO Webdesign 1e jaar theorietoets NL niveau4... Totaal aantal vragen: 40

De mogelijkheden van XML voor de langdurige bewaring van digitale documenten. DAVID studiedag 30 nov 2000

Desktopversie voor medewerkers

Websites & Zoekmachines

Gebruikersvriendelijke beheer van bestanden in SharePoint

Module V - XML. Stefan Flipkens - Cursus: Internet - Intranet ( ) V 1

HTML in Outlook Hoe zorgt u ervoor dat uw goed in beeld komt?

Dit voorbeeldproject beschrijft het gebruik van web services (open standaarden) voor de ontsluiting van kernregistraties bij de gemeente Den Haag.

Website beoordeling megabikestuttgart.de

HTML 5 en CSS 3. Truus de Bont. CC Naamsvermelding 3.0 Nederland licentie.

Website beoordeling google.com

Tweakers Pricewatch. Specificaties productfeed

1. Databanken. Wat is een databank? Verschillende opslagmethodes

Zonnepanelen Hoe krijg je de data op je website?

informatie architectuur lesweek 4 IAM V

Website beoordeling akcpdistributor.de.cutestatvalue.com

Software 1. Basis HTML. bachelor grafische en digitale media cross-media ontwerp & grafimediatechnologie academiejaar semester 1

Workflow Verrijkte Documenten

Smartsite ixperion Faceted Search

Website beoordeling mysiteworthcheck.com

Website beoordeling larivieracasino.org

Zelftest XML Concepten

Handleiding. Loket.nl / Dossiervorming

Website rapport zazoutotaal.nl

Website beoordeling marking.seo-online.xyz

Correspondentie inzake overnemen of reproductie kunt u richten aan:

in het agrifood domein 1 VIAS-symposium

SEO Plan 14/6/2017 Wouter Roozeboom DP41T

Website beoordeling therunclub.com

Slimmer zoeken op internet

informatie architectuur lesweek 4 IAM V

Website beoordeling namefacts.com

Release notes Swing & 5.0.7

Gebruikersvriendelijke beheer van bestanden in SharePoint

Gebruikershandleiding People Inc. en Microloon

Informatie & Databases

AFO 142 Titel Aanwinsten Geschiedenis

Agenda. Wat is HTML? Meer over HTML... Waarom HTML leren? Aniel Bhulai. Inleiding Computergebruik - HTML 1. Waarin maak je een HTML-bestand?

Cover Page. The handle holds various files of this Leiden University dissertation.

Gevonden worden het internet en zoekmachines

DAVID - Een archiveringssysteem voor dynamische en interactieve informatiesystemen

Van document management naar artificial intelligence. BUSINESS INTELLIGENCE - Dé stap naar toekomstgericht werken

Bijlage 1 Pilot Heerhugowaard en het Regionaal Archief Alkmaar

Voor vragen: of mail naar

Gebruikershandleiding GO search 2.0

De toekomst van de zoekmachines. Wie zoekt die vindt

Functionele Componenten

Website beoordeling zsdudova.sk

studie waarmee we de principes van de analyse willen demonstreren. Een volledig beschrijving van de algoritmen en de resultaten zijn te vinden in

Html: stramien en tekst

Nieuwe functionaliteit in Aleph versie 20

XML Introductie.

Website beoordeling dattilo.it

XML Datafeeds. Volledig geautomatiseerd advertenties plaatsen V

Nieuw in versie P&A Group

Website analyse studiopeetr.nl

Software Requirements Specification

SEO / zoekmachine-optimalisatie

Importeren loonaangifte uit ander salarispakket

Functionele Componenten Release 2.1

Website beoordeling statchest.com

Website beoordeling skillers.tech

Effectief opslaan en terugvinden van informatie OFFICE FILING

Informatica 4H/V. Les 4 HTML. Periode 1 HTML en Netwerken bzmr - Da Vinci College Purmerend 1

Website beoordeling akcpsensor.de.ipaddress.com

Inhoud. Endnote X7 Handleiding Mediacentrum maart 2015 Page 2

Starten van de tool De tool wordt opgestart door een web browser te openen (bij voorkeur Google Chrome) en in de adresbalk te typen:

MARC21 en RDA in het GGC

Website beoordeling akcpdistributor.de.ipaddress.com

Handleiding Joomla! 1.5

BRIDGE. Gebruikershandleiding 2017

Flexibiliteit en Duurzaamheid: Teksttechnologie en Museumdocumentatie

Een webpagina maken. Een website bouwen met HTML en CSS practicum 1

Deel 2: Endnote bibliografische software gebruiken als databasemanager en editor

Website beoordeling fibreclick.co.uk

HTML & CSS DEEL 1. webdesign. Programmeren met CodeAcademy

ADVANCED DATABASES Syllabus versie 2.0

Uw website gaat internationaal? Denk aan goede SEO-teksten!

Web of Science: SCI, SSCI en AHCI

De Outlook en SharePoint integratie

Omzeil het gebruik van mappen en bestanden over Wiki s en het werken in de 21 e eeuw

Practicum Interactieve Video 18 januari Beta Dag Vrije Universiteit Amsterdam door Winoe Bhikharie. Deel 1: Spelen met Interactieve Video

MyMediasite Handleiding V1.0

Introductie (relationele) databases

JSTOR Zoeken in JSTOR

Versie 2.0 (mei 2005)

Transcriptie:

Systeemarchitecturen en opslag van gegevens Deel 3: zoeken in ongestructureerde gegevens Dr. Wilfried Lemahieu wilfried.lemahieu@econ.kuleuven.ac.be Gestructureerde versus ongestructureerde gegevens De gegevens die in deel 2 aan bod kwamen waren steeds gestructureerde gegevens: ze vertoonden een bepaalde regelmaat, die op een abstract niveau kon beschreven worden in de vorm van een logisch datamodel met entity record types en attributen. De gegevens zelf vormden instanties van deze types. De structuur weerspiegelt zo de semantiek die in deze gegevens is vastgelegd. De beschrijving van de structuur vormde de structural metadata van de betrokken gegevens. De zoekmethoden die we in deel 2 hebben besproken maakten steeds gebruik van deze structural metadata om zoekcriteria te kunnen formuleren: elke item condition kwam overeen met een bepaald onderdeel van de gegevensstructuur (bv. voor een werknemersbestand: departement, loonschaal, diplomacode, ) Een enorm aantal gegevens waarmee we worden geconfronteerd is echter ongestructureerd: word-processor documenten, foto's, videobestanden, geluidsbestanden, e-mails, webdocumenten, Dergelijke gegevens beschikken niet over structural metadata, zodat ook de tot hiertoe geziene zoekmethoden nauwelijks toepasbaar zijn. 1

Gestructureerde versus ongestructureerde gegevens (vervolg) Gestructureerd: Naam F. Janssens Departement 119 Salaris 2000 Diplomacode UNIV Naam D. Willems Departement 119 Salaris 1100 Diplomacode SEC Ongestructureerd: "F. Janssens is verbonden aan het departement met nummer 119. Hij verdient 2000 EURO per maand en hij heeft een universitair diploma. In hetzelfde departement is ook D. Willems werkzaam, die over een diploma secundair onderwijs beschikt. Het salaris is hier 1100 EURO." Soorten metadata: een voorbeeld Document metadata Auteur: W. Lemahieu Aangemaakt op: 21/3/2000 Naam Departement Werknemer Diploma Semantic metadata Naam: F. Janssens Departement: 119 Diplomacode: UNIV Structural metadata 2

Zoeken in ongestructureerde gegevens Aangezien ongestructureerde gegevens niet over structural metadata beschikken, moeten de zoekmethoden van andere eigenschappen van de gegevens gebruik maken. Elk bestand beschikt uiteraard over een inhoud (namelijk de gegevens zelf). Soms kunnen aan ongestructureerde gegevens ook document metadata verbonden zijn, die informatie over het bestand op zich bevatten. Tenslotte kan aan een ongestructureerd bestand ook een bepaalde semantiek gekoppeld zijn, ook al is deze semantiek nu niet weerspiegeld in een welomlijnde bestandsstructuur. Zoeken in ongestructureerde bestanden kan dan ook verlopen aan de hand van één of meer van de volgende kenmerken van de gegevens: De inhoud van het bestand De document metadata De semantic metadata Zoeken in ongestructureerde bestanden aan de hand van de inhoud Hierbij gaat men zoeken of een bepaald patroon in het bestand voorkomt. Deze technologie wordt voornamelijk toegepast op tekstgebaseerde bestanden ("full text search"). Voorbeeld: "Geef alle bestanden waarin de woorden 'diploma' en ('universitair' of 'universiteit') voorkomen". Het resultaat van de zoekopdracht is een (verzameling van) gehe(e)l(e) document(en). Het is dus niet mogelijk om individuele data items op te halen. Het zoeken kan versneld worden door de tekstdocumenten vooraf te indexeren op de meest betekenisvolle termen (dus geen voorzetsels, voegwoorden, ). De meeste recente databasesystemen bieden specifieke functies voor het doorzoeken van ongestructureerde tekstdocumenten. Deze worden dan opgeslagen als één data item in zogenaamde Character Large OBjects (CLOB s). Bovenstaand principe kan eveneens worden toegepast op andere gegevenstypes (bv. herkennen van een bepaalde vorm in een foto, herkennen van een bepaalde klank in een geluidsbestand), maar de hiertoe benodigde technologie is veel complexer. 3

Zoeken in ongestructureerde bestanden aan de hand van de document metadata Full text search technieken kunnen aangevuld worden met zoekcriteria die slaan op het bestand zélf, eerder dan op de inhoud: document metadata. Typische voorbeelden zijn: de bestandsnaam, de auteur van het bestand, de datum waarop het bestand is aangemaakt, type van het bestand (text, foto, geluid), Deze informatie wordt doorgaans bijgehouden door het operating system dat het bestandensysteem beheert, of is in een speciale sectie van het bestand zelf opgeslagen. Vaak worden aan de document metadata ook een aantal keywords toegevoegd, die een aanwijzing geven over de inhoud van het bestand, zonder zelf een deel van de inhoud te vormen. Voorbeeld: "Geef alle tekstbestanden aangemaakt door Wilfried lemahieu sinds 01/01/2001, die beschreven worden met de keywords ' gegevensopslag' en ' zoektechnieken' ". Zoeken op basis van document metadata is veel efficiënter dan het doorzoeken van de eigenlijke bestanden. De zoekefficiëntie kan nog verhoogd worden door ook deze document metadata te indexeren. Ook hier is het resultaat van de zoekopdracht een (verzameling van) gehe(e)l(e) document(en) en is het dus niet mogelijk om individuele data items op te halen. "Structuur" van het World Wide Web Webdocumenten worden aangemaakt met behulp van (HyperText Markup Language). is een zogenaamde markup-taal, waarmee men op een gestandaardiseerde wijze annotaties kan aanbrengen in documenten. Deze annotaties worden aangegeven door middel van tags. Elke tag is verbonden met een welbepaalde specificatie over hoe het geannoteerde stuk tekst in een web-browser dient gevisualiseerd te worden. is zo zeer geschikt om het uitzicht van webdocumenten te beschrijven, maar laat niet echt toe om er structuur in aan te brengen. Wel is mogelijk om door middel van links verbanden te leggen met andere webdocumenten. Het Web bestaat zo in essentie uit een hypertext-netwerk van onderling gelinkte knooppunten, die elk op zich een ongestructureerd tekstbestand vormen. 4

Voorbeeld van <!DOCTYPE PUBLIC "-//W3C//DTD 4.0 Transitional//EN"> <!-- saved from url=(0079)http://www.econ.kuleuven.ac.be/tew/academic/infosys/members/lemahieu/member.htm --> <><HEAD><TITLE>Wilfried Lemahieu</TITLE> <META content="text/html; charset=windows-1252" http-equiv=content-type> <META content="microsoft FrontPage 4.0" name=generator> <META content="wilfried Lemahieu, database systems, hypermedia modeling, middleware, Prof. Dr. J. Vandenbulcke, commercial engineer" name=keywords> <META content="canada:microsoft Office 98:Templates:Web Pages:Blank Web Page" name=template></head> <BODY> <P> <DIV align=center> <DIV align=center><b><font size=6> <P>Wilfried Lemahieu</P></B></FONT> <P><IMG alt="horizontal bar" height=3 src="" width=414></p> <P></P></DIV></DIV> <DIV align=left> <P><A href="http://www.econ.kuleuven.ac.be/tew/academic/infosys/members/lemahieu/wilfried2.jpg"><i MG align=right alt="that' s me! -)" : border=0 height=216 src="member_bestanden/wilfried2.jpg" width=275></a></p> Zoeken in het World Wide Web -documenten zijn in de eerste plaats ongestructureerde tekstdocumenten, zodat de standaard-zoektechnieken voor dergelijke documenten kunnen gebruikt worden: Zoeken op basis van inhoud (full text search) Zoeken op basis van document metadata, aangegeven met speciale tags, zoals <META> en <TITLE> Door de eindeloze omvang van het Web kunnen search engines echter enkel efficiënt zoeken op basis van vooraf aangemaakte indexen. Deze worden opgebouwd op basis van de inhoud en eventuele document metadata van webdocumenten (voorbeelden: Altavista, Google, Hotbot, ). Dergelijke indexen komen tot stand dankzij zogenaamde Web crawlers, die door het web navigeren van document naar document via de hypertext links. Alle relevante termen worden opgeslagen in indexen, die dan achteraf door een search engine kunnen gebruikt worden. Een andere methode is de webdocumenten classificeren in een hiërarchie van steeds meer gespecialiseerde categorieën. Dergelijke categorie geeft aan welke informatie in het document te vinden is. Documenten kunnen dan opgezocht worden door de juiste categorie(ën) uit te kiezen en te verfijnen (bv.: Toerisme Toerisme.België Toerisme.België.Leuven). Deze methode wordt ondermeer door Yahoo gevolgd. Hier kan men al van een zeer rudimentaire vorm van semantische metadata spreken. Alle bovenstaande technieken zijn toepasbaar op ongestructureerde gegevens. Jammer genoeg kunnen ze enkel volledige documenten als resultaat bieden. 5

Gestructureerde webdocumenten: XML XML (extensible Markup Language) is eigenlijk een meta-markup taal, waarin men zijn eigen tags kan definiëren. Deze tags geven nu niet zozeer informatie over hoe een document op het scherm moet getoond worden, maar over de structuur ervan. Meer en meer webdocumenten worden tegenwoordig opgemaakt in XML in plaats van in. Dit biedt de mogelijkheid om gestructureerde data op te slaan in webdocumenten, waarbij de XML-tags de structural metadata vormen. Dit heeft tot gevolg dat nu query-talen worden ontwikkeld om gestructureerd te zoeken in XML-documenten, net zoals met behulp van SQL gestructureerd kan gezocht worden in databases. Op deze wijze kan men veel fijnere zoekopdrachten geven. Als resultaat kunnen nu ook niet enkel gehele documenten worden opgehaald, maar ook onderdelen van documenten, op basis van hun structuur. Bijvoorbeeld: "geef de familienaam, voornaam en salarisschaal van alle werknemers van departement 119", in plaats van "geef alle documenten waarin de woorden ' werknemer', ' deprtement' en ' 119' voorkomen". 11 Voorbeeld van een XMLdocument (I) <werknemerslijst> <werknemer> <voornaam>frans</voornaam> <familienaam>janssens<familienaam> <departement>119</departement> <salaris>2000</salaris> </werknemer> <werknemer> <voornaam>hanne</voornaam> <familienaam>demeyer <familienaam> <departement>119</departement> <salaris>2800</salaris> </werknemer> </werknemerslijst> 6

Voorbeeld van een XMLdocument (II) <werknemerslijst><werknemer><naam>f. Janssens</naam> is verbonden aan het departement met nummer <departement>119</departement>. Hij verdient <salaris>2000 EURO</salaris> per maand en hij heeft een <diploma>universitair</diploma> diploma. </werknemer> <werknemer>in departement <departement>119</departement> is ook <naam>d. Willems</naam> werkzaam, die over een diploma <diploma>secundair onderwijs</diploma> beschikt. Het salaris is hier <salaris>1100 EURO</salaris></werknemer>.</werknemerslijst> De toekomst: het Semantic Web??? Momenteel wordt onderzoek gedaan naar mogelijkheden om de semantiek van webdocumenten apart op te slaan als gestructureerde XML-data. De documenten zélf kunnen dan al dan niet gestructureerd zijn. Indien het beschreven document zelf gestructureerd is, weerspiegelt de structuur de semantiek zoals die in het aparte document is vastgelegd. Op deze wijze wordt het voor intelligent search agents mogelijk om de inhoud van documenten beter te "begrijpen" en zo ook verfijnder te doorzoeken, zelfs al gaat het om ongestructureerde gegevens. Zoekcriteria kunnen dan gebaseerd zijn op een combinatie van document metadata, structural metadata (indien aanwezig) en semantic metadata. 7

Semantic metadata (XML) De toekomst: het Semantic Web??? Ongestructureerde data (bv. ) Semantic metadata (XML) Gestructureerde data (bv. database) Semantic metadata (XML) Gestructureerde data (bv. XML) Semantic metadata (XML) Ongestructureerde data (bv. Word) 8