Elektronische publicaties en gedigitaliseerd erfgoed in de Koninklijke Bibliotheek van België



Vergelijkbare documenten
HTML. Media. Hans Roeyen V 3.0

Over Bits Pixels Dpi & Extensies

A. Wat zijn digitale afbeeldingen? B. Bitonaal, grijswaarden of kleur en de bitdiepte C. Resolutie, bestandsgrootte, compressie en bestandsformaten

Module II - Enkele Begrippen

7. Muziek-cd s branden met Windows Media Player 10

De onderwerpen die voor deze avond zijn aangedragen! Maskers maken. Workflow Lightroom en Photoshop. Verschil tussen werken in RGB en srgb

De mogelijkheden van XML voor de langdurige bewaring van digitale documenten. DAVID studiedag 30 nov 2000

Les A-06 Digitale informatie: tekst, beeld en geluid

Hoe selecteer je preserveringstools? Sara van Bussel. Koninklijke Bibliotheek

Bron afbeeldingen:

Presentatie Digitaal Materiaal


1.2 Onder welke voorwaarden zou u scans en beschrijvingen van documenten beschikbaar willen stellen via een gezamenlijk platform?

7. Muziek-cd s branden

Basisbegrippen i.v.m. kleur op beeldschermen, afbeeldingsformaten en resoluties

HET WETTELIJK DEPOT VAN NUMERIEKE

WORKSHOP: HOE BEWAAR JE FOTO EN VIDEO VOOR HET NAGESLACHT? Joris Janssens en Henk Vanstappen

Hoe komt u aan MP3- bestanden? Wat is MP3? Zelf MP3's maken.

Handleiding EasyCap Video adapter:

Een website omzetten naar WordPress

2 Kennismaking met het scherm

Functionele beschrijving: scannen naar van Brug software.

Digitale Fotografie. 1 Bestandstypes

Foto s en Videobewerking

De werkelijke namen en beschikbaarheid van menuopdrachten kunnen per mobiel platform verschillen. De stappen kunnen ook verschillen.

Workshop over PDF. Door Walter Gijkens voor Sodipa computerclub

BEFDSS. Het Belgische uitwisselingsformaat voor onderzoekgegevens afkomstig van visueel rioolonderzoek. 1/12/ / 6

September 2013, versie 1.5. Aanleverspecificaties Digitale bestanden

januari 2008, versie 1.1 Aanleverspecificaties Digitale bestanden

5,7. Samenvatting door een scholier 903 woorden 28 september keer beoordeeld. Informatica. Samenvatting Informatica Hoofdstuk 2

Muziek downloaden MP3 WMA Liedjes of albums? Collectie Waar?

PDF-WORKFLOW. Hogeschool Gent 2e kan grafische en reclame vormgeving Departement KASK academiejaar

De video is klaar, wat nu?

Snel en efficiënt informatie archiveren en delen met anderen

Gebruiksaanwijzing. innovaphone Fax. Versie 10

Posts. 2) Hoe plaats ik een post? 2.1) Het postformulier Als je ingelogd bent, kan je bovenaan de site op het icoon " nieuwe post maken" klikken.

Formatteren Formatteren is het beschrijfbaar maken van een opslagmedium (b.v. een USB-stick). Vrijwel altijd is het opslagmedium al geformatteerd als

Dienstverlening Digitale Collecties

Bediening van de MP3-speler

Globale kennismaking

Nederlands WMS - SLD Profiel. Versie 1.0

Handleiding Wordpress

Foto s bewaren. Met steun van de Vlaamse minister van Cultuur, Jeugd, Sport en Brussel

Microsoft PowerPoint is een programma om presentaties en diavoorstellingen te maken.


SIMPLIFYSCAN. A sharp choice in intelligent scanning

Studentenhandleiding: Technische specificaties voor en de inlevering van mediabestanden voor visie en archivering

itunes 10 basis donderdag25/11/10w47 09:41

HANDLEIDING VOOR SNELLE INSTALLATIE

K o n i n k l i j k Nederlands Zangersverbond

open standaard hypertext markup language internetprotocol transmission control protocol internet relay chat office open xml

Digi Dossier - Aanmaken en koppelen scans concept_software

De Kleine WordPress Handleiding

digitaliseren Archiveren kan je leren, les 4 Sint-Niklaas, 29 november 2008 Willem Vanneste

Verkleinen- en uploaden van beelden

Digitaal archiveren. Timo van Houdt werkgroep Archieven

Handleiding website Pax Christi

We geven hier weer waar u wat vindt op de CD, voor het gebruik thuis.

DOEL VAN DE TOEPASSING

Scannen met de kopieertoestellen

Hyarchis.Net MKB. Hyarchis.Net MKB voor efficiënte ondernemers. Stroomlijn al uw digitale- en papierstromen

OPDRACHTKAART. Thema: Multimedia/IT. Audio 3. Het verkrijgen van geluidsfragmenten MM

Beveiligen van PDF documenten (deel 1)

Beheer fotobestanden op computer

Internet Marketing Termen

Inhoudsopgave. Deel 1 Windows Media Player 11

Standaarden en digitale archivering

M U L T I M E D I A P L A Y E R 2,5 SATA CASING WITH REMOTE CONTROL HANDLEIDING SI

Inhoudsopgave. Whisper380-computerhulp 2

Functionele beschrijving: scannen naar Exact Globe.

DOEL VAN DE TOEPASSING

1 Nieuw in de Filr 2.0 Desktop-toepassing

Notitie College Standaardisatie CS B. Agendapunt: 06 Standaarden open Bijlagen: Rapport Expertgroep PDF v1.7 Aan: College Standaardisatie Van:

Opslaan van afbeeldingen als JPG

Mobiele technologie zorgt ervoor dat je met een smartphone en tablet en draadloos op een laptop of computer kunt werken.

Omzeil het gebruik van mappen en bestanden over Wiki s en het werken in de 21 e eeuw

Inhoudsopgave. Deel 1 Windows Media Player 11

Functionele beschrijving: Scannen naar AFAS Profit.

Posters maken in PowerPoint

ICT-standaarden voor het archiefwezen. Ivo Zandhuis

WORDPRESS. De Volgende Stap. 2015, Roy Sahupala


Converteren van video s

VMBO-ICT-Route examen 2009 Naam: Marc Schattorie Datum:

Adobe s positionering op document beveiliging

OPDRACHTKAART. Thema: Multimedia. Het internet 3. Het World Wide Web MM Voorkennis: Geen.

Nederlands Italiano Español

Aansluiten op Geopunt: beter te vinden, te bekijken en te downloaden

Digitaliseren in de heemkundige kring

Praktische-opdracht door een scholier 3728 woorden 7 februari keer beoordeeld. Informatica. Inleiding

LaCinema Black PLAY. High Definition Media Center

Handleiding VPNL Instore Communicatie

Proces Mediaverwerking

Handleiding afdrukken rotariaat CAMPUS NOORD Informaticadienst Scholengroep Sint-Rembert v.z.w. Kevin Baert Loes Casteleyn Michiel Seys

Uw data op het Web van Data

HTML Graphics. Hans Roeyen V 3.0

Belang. Voordelen. Parameters en opties. Wrappers en codecs

Opmerkingen: Naar aanleiding van de eerste geleverde foto s is deze presentatie tot stand gekomen.

Technisch Ontwerp W e b s i t e W O S I

Transcriptie:

Elektronische publicaties en gedigitaliseerd erfgoed in de Koninklijke Bibliotheek van België een bijdrage aan de European Digital Library student: Pierre Leonavicius promotor: Guido Goedemé presentatie en verdediging: juni 2007 Opleiding: Graduaat in het Bibliotheekwezen en Documentaire Informatiekunde

VOORWOORD Graag een woordje van dank aan mijn promotor, Guido Goedemé en allen die mij gesteund en aangespoord hebben in het tot stand komen van dit werk. Het werk zelf, met eventuele gebreken, is natuurlijk de visie van de auteur.

INHOUDSOPGAVE 1 INLEIDING... 9 2 BASISELEMENTEN... 11 2.1 INLEIDING... 11 2.2 SGML... 11 2.2.1 HTML... 13 2.2.2 XML... 14 2.2.2.1 DTD... 15 2.2.2.2 XML-Schema... 15 2.3 BESTANDSFORMATEN... 17 2.3.1 Tekstformaten ODF en PDF... 17 2.3.1.1 ODF... 17 2.3.1.2 PDF en PDF/A... 19 2.3.1.3 PDF als archiveringsformaat met XML-metadata... 20 2.3.2 Grafische formaten... 21 2.3.2.1 TIFF... 21 2.3.2.2 JPEG... 22 2.3.2.3 JPEG 2000... 22 2.3.3 Geluid formaten... 23 2.3.3.1 WAV... 23 2.3.3.2 MP3... 24 2.3.3.3 Microsoft WMA... 25 2.3.3.4 OGG Vorbis... 26 2.3.4 Videoformaten... 26 2.3.4.1 Microsoft, Real Video en Apple... 26 2.3.4.2 Moving Pictures Experts Group... 27 2.3.4.3 DivX... 28 3 METADATA EN XML-SCHEMA S... 29 3.1 INLEIDING... 29 3.1.1 Wat is een website?... 29 3.1.2 Wat is een repository?... 29 3.1.3 Wat zijn metadata?... 30 3.2 DUBLIN CORE... 31 3.3 METS... 34 3.4 MODS... 35 3.5 RDF EN CROSSWALKS... 37 3.5.1 RDF... 37 3.5.2 Crosswalks... 38 4 DE COLLECTIES VAN DE KONINKLIJKE BIBLIOTHEEK VAN BELGIË... 39 4.1 INLEIDING... 39 4.2 DIGITOOL... 39 4.2.1 E-depot... 39 4.2.1.1 Problematiek... 39 4.2.1.2 Omgeving... 40 4.2.1.3 E-depot technisch bekeken... 41 4.2.1.3.1 Module Resource Discovery... 44 4.2.1.3.2 Module Management... 48 4.2.1.4 Deponeringen... 49 4.2.1.4.1 Module Deposit... 50 4.2.1.4.2 Module Approver... 52 4.2.1.4.3 Module Collection management... 52 4.2.1.4.4 Deponeren van een monografie... 52 4.2.1.5 Publicaties halen op websites... 60 4.2.1.5.1 Access tabel en.csv bestand... 60 4.2.1.5.2 Module Web Ingest... 62 4.2.2 Kaarten... 62 4.2.2.1 Scanning... 63

4.2.2.2 Workflow... 63 4.2.2.3 Opslag... 64 4.2.2.3.1 Invoer metadata... 65 4.2.2.3.2 Web Ingest... 66 4.2.3 Prenten... 66 4.2.3.1 Scanner... 67 4.2.3.2 Workflow... 68 4.2.3.3 Web Ingest... 69 4.2.4 Muziek... 76 4.2.4.1 Workflow... 76 4.2.4.2 Opslag... 76 5 DE EUROPEAN DIGITAL LIBRARY... 77 5.1 INLEIDING... 77 5.2 OPZET... 78 5.3 REALISATIE EN ORGANISATIE... 79 5.4 DE BIJDRAGE VAN DE KONINKLIJKE BIBLIOTHEEK... 81 5.4.1 De catalogi... 82 5.4.2 De collecties... 84 6 BESLUIT... 87 BRONNEN... 89 INDEX... 91 AFBEELDINGENLIJST... 93 ABSTRACT... 95

1 Inleiding Er zijn momenteel enorm veel elektronische publicaties. Je kan geen gebruiksaanwijzing van een apparaat bedenken of de handleiding is via het internet te vinden voor de gebruiker die ernaar op zoek is. Het domein van elektronische publicaties is zodanig uit zijn voegen gebarsten dat er de nodige aandacht aan dient besteed te worden. Net zoals bij de gedrukte publicaties dringt zich een organisatiemethode op en een systeem voor het terugvinden van de publicaties. Een aandachtspunt van dit werk is dan ook te wijzen waar deze nieuwe ontwikkelingen zich situeren en in welke mate het opportuniteiten zijn voor het bibliotheekwezen, documentatie- of informatiecentra om mee te denken. De gangbare omschrijvingen uit de vakliteratuur heb ik trachten toe te lichten op een eenvoudig niveau. Voorrang werd gegeven aan een ruime basis die geplaatst kan worden in een globaal overzicht. Hierdoor werden de knelpunten, diepere details en uitzonderingen niet geaccentueerd. Als ondersteuning van de theoretische uiteenzetting is de praktische toepassing ervan in de Koninklijke Bibliotheek van België en zijn Europese participatie onder de loep genomen. Een doelstelling was om op begrijpbare wijze leken een zicht op de materie en zijn toepassing te geven. Ook heb ik getracht om de problematiek, veel bestandsformaten en uitwisselingen van metadata, aan het licht te brengen. Er is naar gestreefd om zo actueel mogelijk te zijn en de stand van zaken van medio 2007 onder de loep te nemen. De actualiteit van dit werk verklaart ook waarom er over het onderwerp zeer veel gebruik gemaakt werd van internetbronnen. Het internet is momenteel het snelste verspreidingsgereedschap van recente informatie. Deze scriptie is elektronisch te downloaden op het internet via de Uniform Resource Locator http://leonavicius.be 9

10

2 Basiselementen 2.1 Inleiding Omdat mijn werk gaat over elektronische documenten is het belangrijk om even stil te staan bij de begrippen SGML, HTML en XML met de bijhorende DTD techniek en XMLschema techniek. Deze begrippen staan in voor de opmaak van elektronische publicatieomgevingen en verdienen daarom een woordje uitleg. Hierna volgt de uiteenzetting over de verschillende bestandsformaten die momenteel het meest gebruikt worden. Zowel tekstformaten, grafische formaten, geluid formaten als formaten voor stilstaand en bewegend beeld komen aan bod. Er is dan ook speciale aandacht besteed aan het ODF-formaat omdat de Federale Overheid beslist heeft om dit als standaardformaat te gaan gebruiken voor de uitwisseling van haar documenten. Het alom verspreide.doc formaat, dat op commerciële leest geschoeid is, wordt bewust van zijn troon gestoten. Als startdatum is gepland 1 januari 2008. België speelt hierin een voortrekkersrol en daarom komt het ODF-formaat hier als eerste aan bod. 2.2 SGML Via de SGML 1 taal kan men de structuur van documenten vastleggen. Met behulp van DTD's 2 wordt de opmaak gedefinieerd en kan een subset van SGML worden gemaakt met een bepaalde syntaxis 3. SGML is een taal waarin de structuur van een document wordt beschreven, de bekende HTML taal en XML taal zijn afgeleid van SGML. Met SGML kunnen gegevens op gestandaardiseerde wijze worden beschreven, geannoteerd en bewaard. SGML is een zogenaamde metataal en in feite een taal om andere talen mee te maken. XML is een subset van SGML die steeds meer gebruikt wordt. XML heeft een striktere syntax dan SGML en is daarom makkelijker en sneller te verwerken. Ook HTML is gebaseerd op SGML, maar is heel wat minder strikt dan XML. Een SGML-document bestaat uit een hiërarchische structuur. De elementen in deze structuur worden afgebakend met zogeheten tags. Elementen kunnen ook attributen hebben die meer informatie over dat element bevatten. Een tag is een omschrijvende opmaak die de start en het einde van een element afbakent. Het is een hoeveelheid letters omsloten door punthaken, een < en een >. Een element bestaat uit het geheel van begintag, tussenliggende elementen en een 1 Standard Generalized Markup Language is sinds 1986 een platformonafhankelijke ISOstandaard 2 Document Type Definition, geeft aan welke tags in een XML document mogen voorkomen. Het is de voorloper van het XML-schema 3 Een informaticaterm, voor een programmeertaal staat het voor de exacte zinsbouw of grammatica regels. Het is een exacte structuurdefinitie en een volgordebepaling van hoe de programmaregels elkaar mogen opvolgen 11

eindtag. Een voorbeeld van een SGML-element: <tag>inhoud element</tag> Een voorbeeld van een SGML-document: <document> <element attribuut="waarde"> Tekst <subelement>inhoud van het subelement</subelement> </element> </document> 12

2.2.1 HTML HTML 4 staat voor een opmaaktaal van documenten en wordt vooral gebruikt op internet en intranet om webpagina s via browsers te tonen. Het was dan ook in de beginjaren dat er bij elke nieuwe browserversie een nieuwe HTML versie verscheen. De eerste officiële specificatie van HTML door de W3C 5 organisatie was HTML 2.0, geaccepteerd in september 1995. Eerder was er gewerkt aan uitbreiding van de oorspronkelijke specificatie onder de naam HTML+ (gepubliceerd in november 1993). Al vóór de officiële acceptatie van HTML 2.0, werd de volgende specificatie (HTML 3.0) voorbereid. Deze specificatie werd achterhaald door het uitkomen van Netscape versie 3 en het voorstel werd in september 1995 verlaten. Het werk werd voortgezet in HTML versie 3.2, dat de naam Wilbur meekreeg. Wilbur werd geaccepteerd in januari 1997. In december 1997 werd de HTML 4.0 specificatie geaccepteerd, waarop nog enkele kleine correcties zijn aangebracht in HTML 4.01 (geaccepteerd in december 1999). In het jaar 2000 werd ISO-HTML, gebaseerd op HTML 4.01 Strict, geaccepteerd als een internationale standaard: ISO/IEC 15445:2000. Technisch gezien is HTML een opmaaktaal 6, het is een soort tekstcodering die zowel de tekst zelf als details over de structuur en de opmaak van die tekst weergeeft. Een HTML-document bestaat gewoon uit platte tekst 7 die letterlijk door elke computer wordt begrepen. Een ander woord voor specifieke HTML-codes is tags. In HTML wordt bijvoorbeeld een koptekst niet letterlijk in een groot lettertype verzonden, maar wordt er een tag verstuurd, die zegt let op, de volgende tekst wordt groot weergegeven. Hierop volgt het uiteindelijke tekstfragment, na afloop wordt de code verzonden die zegt einde groot lettertype. De volgende tekst wordt dan weer in het normale lettertype weergegeven. Een HTML-document moet minimaal uit de volgende codes bestaan, om een pagina als HTML-document weer te kunnen geven : <html> <head> <title>html voorbeeld</title> </head> <body> <p>hier komt het zichtbaar of getoond deel van je HTML-document.</p> </body> </html> 4 HyperText Markup Language 5 World Wide Web Consortium 6 Ook markuptaal of markeertaal genoemd 7 ASCII codes 13

2.2.2 XML Het succes van HTML is te danken aan zijn gebruiksgemak, eenvoud en verdraagzaamheid. HTML doet niet moeilijk over het gebruik van hoofdletters of kleine letters, zelfs het ontbreken van eindtags wordt dikwijls niet als fout aanzien. De eenvoud van HTML beperkt ook zijn kracht. De HTML tags zijn voornamelijk op opmaak gericht en geven geen informatie over de inhoud van een pagina. Hierdoor kan de inhoud moeilijk in een ander verband hergebruikt worden. XML 8 is gebaseerd op dezelfde technologie als HTML, maar het is zo ontworpen dat de informatie beter beheerd kan worden. HTML stelt iedereen in staat iets te doen, maar XML stelt sommigen in staat alles te doen. Van op een afstand bekeken lijkt XML veel op HTML, met tags, attributen en waarden. XML is echter niet zozeer een taal om webpagina s mee te maken, maar een taal om andere talen mee te maken. Met XML ontwerp je een eigen beschrijvingstaal en vervolgens gebruik je die taal om documenten mee op te maken. Een dergelijke beschrijvingstaal, de zogeheten XML-toepassing, bevat tags die de gegevens erbinnen werkelijk beschrijven. Voorbeeld van een CD cataloog in een XML weergave, waar je ziet dat de tags de inhoud beschrijven die ze omsluiten: <!- - voorbeeld van de syntaxis van een XML formaat - -> <CATALOOG> <CD> <TITEL>Empire Burlesque</TITEL> <ARTIEST>Bob Dylan</ARTIEST> <LAND>USA</LAND> <PRODUCER>Columbia</PRODUCER> <PRIJS>10.90</PRIJS> <JAAR>1985</JAAR> </CD> <CD> <TITEL>Hide your heart</titel> <ARTIEST>Bonnie Tyler</ARTIEST> <LAND>UK</LAND> <PRODUCER>CBS Records</PRODUCER> <PRIJS>9.90</PRIJS> <JAAR>1988</JAAR> </CD> <CD> <TITEL>Greatest Hits</TITEL> <ARTIEST>Dolly Parton</ARTIEST> <LAND>USA</LAND> <PRODUCER>RCA</PRODUCER> <PRIJS>9.90</PRIJS> <JAAR>1982</JAAR> </CD> De kracht van XML ligt nu hierin dat een tag gegevens identificeert zodat deze gegevens beschikbaar worden voor andere activiteiten. Maar zoals altijd, kracht heeft 8 XML: Extensible Markup Language 14

zijn prijs. XML is veel minder toegeeflijk dan HTML. Om het werk van XML-parsers 9 te vergemakkelijken, vereist XML grote precisie bij het gebruik van hoofdletters en kleine letters, aanhalingstekens, eindtags en andere schrijfwijzen die HTML-auteurs kunnen negeren. Dit kieskeurige gedrag van XML zorgt er waarschijnlijk voor dat het geen rol zal spelen bij persoonlijke webpagina s. Anderzijds geeft XML de webontwerpers wel de middelen in handen voor grootschalig informatiebeheer. XML maakt gebruik van DTD s 10 of XML-schema s 11. 2.2.2.1 DTD Aanroepbare entiteiten zijn definities van verwijzingen of afkortingen die aanroepbaar zijn. Er bestaan diverse soorten entiteiten, maar ze werken allemaal op dezelfde manier. De verschillen liggen in de plaats waar de entiteit wordt gedefinieerd en in het soort informatie dat de entiteit bevat. Entiteiten kunnen in twee hoofdgroepen worden onderverdeeld: algemene entiteiten: Deze laden gegevens in het XML-document zelf, o interne: o worden in de DTD gedefinieerd, externe: worden in een extern bestand gedefinieerd en kunnen geparseerd 12 of ongeparseerd 13 zijn. parameterentiteiten: Deze verwijzen naar gegevens voor een DTD, ze worden altijd geparseerd en ze kunnen zowel intern als extern zijn, interne parameterentiteiten hebben echter zoveel beperkingen dat het gebruik ervan wordt afgeraden. 2.2.2.2 XML-Schema DTD s zijn in feite een soort schema, maar als men in de vakliteratuur spreekt over een schema dan gaat het over de specifieke taal XML-Schema die werd ontwikkeld door het W3C. Een schema definieert: welke vorm één of meer bij elkaar horende XML-documenten kunnen hebben, 9 Software die XML-gegevens interpreteert, onafhankelijk of binnen een browser 10 DTD: Document Type Definition, de regels zelf noemt men Document Type Declarations 11 XML-schema: Kunnen in tegenstelling tot DTD s gegevenstypen specificeren zoals datums, integers, tekenreeksen, Ze geven veel meer controle over een XML-document. 12 Worden geanalyseerd of ontleed (geparseerd) door de XML-parser, deze computersoftware onderzoekt de vastgelegde grammaticale structuur en zet de ingevoerde tekst om in een datastructuur 13 Binaire en niet-tekstuele gegevens worden meestal niet ontleed 15

welke elementen ze bevatten en welke hun volgorde is, wat hun inhoud kan zijn en welke attributen ze bevatten. DTD s hebben een aantal nadelen vergeleken met schema s in XML-Schema. De syntaxis van DTD s heeft weinig te maken met XML, dat brengt met zich mee dat ze niet kunnen geanalyseerd worden door een XML-parser. Alle declaraties in een DTD zijn globaal, wat met zich meebrengt dat je geen twee verschillende elementen met dezelfde naam kan declareren, ook al komen ze in verschillende contexten voor. Het allerbelangrijkste nadeel is zeker het feit dat DTD s niet kunnen bepalen wat voor soort informatie een element of attribuut kan bevatten. XML-Schema, geschreven in XML zelf, geeft veel meer controle over de inhoud van een XML-document. 16

2.3 Bestandsformaten 2.3.1 Tekstformaten ODF en PDF 2.3.1.1 ODF Het ODF-formaat 14 komt hier als eerste aan de beurt omdat hiervoor een belangrijke plaats is toegekend door de overheid. ODF wordt de standaard 15 bij de Belgische federale overheid vanaf 2008. De formaten zoals.doc en.xls zijn eigendom van Microsoft. Alle federale ambtenaren moeten tegen september 2007 tekstdocumenten, brochures en publicaties in het ODF-formaat kunnen uitwisselen en lezen. De ODF-indeling is een open standaard voor het bewaren en/of uitwisselen van tekstbestanden, rekenbladen, grafieken en presentaties. De OpenDocument-standaard werd ontwikkeld door het OAIS-consortium, vertrekkende vanuit de XML-gebaseerde bestandsindeling van OpenOffice.org. Open Document Format is een bestandsformaat, oorspronkelijk ontwikkeld voor de open bron office suite OpenOffice.Org. ODF is gebaseerd op XML en het eerste bestandsformaat voor documenten dat werd doorgelicht door een onafhankelijk organisme 16. Een ODF-bestand - met extensie.od*, afhankelijk van het type document - is eigenlijk gewoon een gecomprimeerd zip-bestand met een aantal bestanden en mappen. Bij een tekstbestand, met extensie.odt staat de inhoud van het document in verscheidene XML-bestanden: een bestand voor de inhoud zelf, een bestand voor de opmaak, een bestand dat meta-informatie bevat zoals de naam van de auteur, de datum en de tijd, enz. in de map Pictures vinden we de gebruikte afbeeldingen. Op 23 juni 2006 heeft de Belgische federale regering dus beslist dat het ODFformaat 17 verplicht moet worden gebruikt in de administratie en mogen de overheden in 2008 alleen nog in dit open formaat onderling documenten uitwisselen. België is het eerste land ter wereld dat de gesloten formaten zal verbieden. Sinds 11 november 2006 is ODF een officieel door ISO 18 gepubliceerde standaard. Deze officiële standaard ISO/IEC 26300 kan voor 340 Zwitserse frank worden aangeschaft op ISO website. Zelfs de Europese Commissie verleent prioriteit aan het gebruik van open standaarden in haar aanbeveling 19. 14 ODF staat voor Open Document Format 15 Artikel van de overheid in Fedramagazine op pagina s 17-18 van oktober 2006 16 Open Archival Information System (OAIS) en ook ISO/IEC 26300 17 Open Document Formaat 18 International Organization for Standardization 19 Aanbeveling, art. 2, uit de EU publicatie ISBN 92-894-8389-X 17

Met open standaard bedoelt de commissie: Een standaard die is goedgekeurd en in stand gehouden wordt door een notfor-profit organisatie. De verdere ontwikkeling gebeurt op basis van een open besluitvormingsprocedure die toegankelijk is voor alle betrokken partijen (consensus van een meerderheidsbeslissing, enz.). Deze standaard werd gepubliceerd. Het document met de standaardspecificatie is gratis of tegen een symbolische vergoeding beschikbaar. Iedereen moet de kans krijgen om dit document gratis of tegen een symbolisch bedrag te kopiëren, te verdelen en te gebruiken. De intellectuele eigendomsrechten, m.a.w. mogelijke octrooien, van (een gedeelte van) de norm worden onherroepelijk vrij van royalty s ter beschikking gesteld. 18

2.3.1.2 PDF en PDF/A PDF 20 is sinds ongeveer 1993 standaard voor de uitwisseling van elektronische documenten en formulieren die in hun oorspronkelijke vorm gereproduceerd moeten kunnen worden. PDF is een universele bestandsindeling waarmee lettertypen, afbeeldingen en lay-out van elk willekeurig brondocument behouden blijven, ongeacht het programma of het platform waarmee het document werd gemaakt, dit in tegenstelling tot bijvoorbeeld HTML. Een voordeel van een PDF-bestand is dat het, in tegenstelling tot bijvoorbeeld een Word-document, op elke printer er hetzelfde uit zal zien. Ook kan een PDF-bestand op alle platformen bekeken of bewerkt worden, het is dus niet platformafhankelijk. Met behulp van het PDF bestandsformaat kun je elk elektronisch document lezen op vrijwel elk computersysteem dat een PDF-lezer ter beschikking heeft. Het maakt helemaal niet uit hoe en waarmee het originele document is gemaakt. PDF-documenten kunnen ook ingedeeld worden in twee grote hoofdgroepen, een image-pdf en een tekst doorzoekbaar PDF-document. Meestal wordt een image-pdf ge-ocr d en tekst doorzoekbaar gemaakt zonder zijn oorspronkelijke lay-out te verliezen. Veel handleidingen van diverse apparatuur, gaande van elektronica tot keukentoestel, verschijnen in plaats van op duur drukwerk op een CD-ROM of zijn gratis consulteerbaar op het internet. Er staan diverse gratis PDF-lezers ter beschikking, waarvan de bekendste: Foxit Reader 21, Acrobat Reader 22. In tegenstelling tot de leessoftware is de software van Adobe voor het aanmaken van PDF-bestanden niet altijd gratis. Er zijn echter alternatieven. Microsoft Office 2007 heeft een gratis add-in waarmee documenten kunnen worden opgeslagen en of verstuurd als PDF/A. Een ander alternatief is de Open Source 23 software PDFCreator van SourceForge.net. Van een de facto standaard zijn PDF-bestanden, door ISO 19005-1 in 2005, een genormeerde standaard geworden. Er zijn nu al verschillende PDF-soorten gestandaardiseerd.: PDF/A 24 voor archieven, PDF/X 25 voor uitwisseling van bestanden, PDF/UA 26 voor universele toegang, 20 Portable Document Format 21 http://www.foxitsoftware.com/pdf/rd_intro.php 22 http://www.adobe.com/nl/products/acrobat/readstep2.html 23 Open source software of vrije software is de verzamelnaam van alle software waarvan de broncode beschikbaar is en aanpasbaar door iedereen, met meestal als beperking dat die aanpassingen ook vrij beschikbaar moeten zijn voor anderen. 24 A staat voor Archiving en heeft diverse subformaten, zoals 1a en 1b 25 X staat voor exchange 26 UA staat voor Universally Accessible 19

PDF/H 27 voor gezondheidszorg, PDF/E voor engineering. Informatiemanagers en archivarissen vinden dat informatiebestanden authentiek, betrouwbaar, niet te wijzigen en compleet dienen te zijn. De informatiebestanden dienen niet alleen vandaag leesbaar te zijn, doch de elektronische systemen dienen ook de integriteit te waarborgen doorheen de tijd. Vereisten in relatie tot PDF-documenten: Authenticiteit: Het moet mogelijk zijn dat een document laat zien wanneer, wie het opgesteld of verzonden heeft en dat het zijn oorspronkelijke vorm bezit. Dit kan deskundig opgelost worden door het gebruiken van metadata 28. In het geval van PDF-bestanden kunnen metadata programmatorisch in de PDF-file geïntegreerd worden. Ook het elektronisch ondertekenen van documenten kan de authenticiteit verzekeren. Betrouwbaar: PDF-documenten worden vanuit de bron zelf gecreëerd. Ze komen vanuit de toepassing zelf. Het zijn eindversies die komen vanuit een database, een tekstverwerker, een rekenblad of andere toepassingen die kunnen printen. Compleet en ongewijzigd: Het is mogelijk om een bestand te beveiligen tegen ongeoorloofd wijzigen en aanpassingen aan de metadata veranderen niets aan het oorspronkelijk document of bestand. Men kan via plug-ins digitaal ondertekenen via PKI 29. Leesbaarheid in de toekomst: Een recent kenmerk om XML metadata te integreren in PDF-bestanden garandeert dat de metadata gegevens leesbaar en toegankelijk blijven in de toekomst. PDF-bestanden zijn ook toegankelijk voor een full-text search, vele zoekmachines hebben deze mogelijkheid geïntegreerd. Deze mogelijkheid kwam ter beschikking omdat de PDF specificaties en SDK 30 ter beschikking staan en publiek toegankelijk zijn. 2.3.1.3 PDF als archiveringsformaat met XML-metadata PDF/A staat borg dat het 1.4 formaat ondersteund blijft voor lange termijn archivering. Huidige en toekomstige gebruikers zijn en zullen in staat blijven om een document in exact dezelfde weergave te zien als de maker van het document. Door het toevoegen van XML metadata worden twee vliegen in een klap geslagen, wij krijgen een exact document en een toegankelijk document. Veel organisaties scannen papieren documenten in om praktische redenen. De digitale versie van het papieren stuk mag gearchiveerd worden, maar is voor juridische doeleinden vaak onvoldoende. Wanneer een digitaal document geldig gemaakt mag worden, ligt het voor de hand dat het ook geldig in digitale vorm bewaard mag worden. 27 H staat voor Healthcare 28 Data over de data, m.a.w. gegevens die gaan over de informatie. Zie ook hoofdstuk 4. 29 Public Key Infrastructure 30 Software Development Kit 20

Bij de vraag of enkel digitaal archiveren volstaat, dient men rekening te houden met twee zaken. Ten eerste dient men te weten of de digitale versie van een document ook een rechtsgeldig document is. Ten tweede moet men zich afvragen of een document uitsluitend in digitale vorm mag bewaard worden. 2.3.2 Grafische formaten 2.3.2.1 TIFF Het TIFF 31 bestandsformaat met als extensie.tif is een grafische bestandsindeling die ontwikkeld werd door Aldus en Microsoft in 1986. Aldus was de eigenaar van de specificaties en is later samengesmolten met Adobe Systems die nu eigenaar is van het Copyright van de TIFF specificatie. Deze industriestandaard is ontwikkeld om monochrome en gekleurde bit-map afbeeldingen op te slaan in een hoge resolutie en zonder kwaliteitsverlies. Kleuren worden ondersteund in volgende formaten: Grayscale, Pseudocolor (any size), RGB, YCbCr, CMYK, CIELab. Ondersteunde compressieformaten: raw uncompressed, PackBits, Lempel-Ziv-Welch (LZW), CCITT Fax 3 & 4, JPEG (zie verder). Volgende Pixel formaten worden ondersteund: 1-64 bit integer, signed or unsigned, 32 or 64 bit IEEE floating point. De grafische bestandsindeling is compatibel met de meeste scanners en software voor het bewerken van afbeeldingen. Het doel van TIFF is afbeeldingen te beschrijven en de gegevens van afbeeldingen te rasteren. De voornaamste kenmerken van het TIFF-formaat samengevat: Het aankunnen van omschrijvingen voor volgende eigenschappen: monochrome, grijsschalen, paletkleuren en full-color in al zijn variaties. Het heeft een groot aantal compressieschema s die ter beschikking staan van ontwerpers. 31 Tagged Image File Format: een tag-gebaseerd bestandsformaat voor de opslag en uitwisseling van gerasterde afbeeldingen 21

Het is niet gebonden aan de eigenschappen van specifieke scanners, printers, beeldschermen of andere hardware. Het is portabel en niet gebonden aan specifieke operating systems, bestandsformaten, compilers of processoren. Het is uitbreidbaar voor eventuele noden in de toekomst. Het formaat heeft geen hoeveelheidbeperkingen voor wie private of speciale informatie wenst toe te voegen. 2.3.2.2 JPEG JPEG 32 is een opslagstandaard voor beeldformaten en is een populaire manier om fotografische beelden te comprimeren en op te slaan. Ontstaan in 1986 en gecertificeerd in ISO/IEC IS 10918-1 met ITU-T aanbeveling T.81. Als bestandsextensie wordt.jpg en.jpeg gebruikt. JPEG kan 24-bit beelden, die bestaan uit miljoenen kleuren, opslaan. Een compressie van 1/10 tot 1/20 van het originele fotobestand is mogelijk zonder zichtbaar kwaliteitsverlies. Veel web-browsers en digitale camera's gebruiken JPEG-beeldcompressie als de standaard bestandsindeling. Het wordt ook veel gebruikt als afbeeldingen formaat in bijlagen van e-mails. De instelbare compressiemethode heeft als nadeel dat er kwaliteitsverlies kan optreden. Dit kwaliteitsverlies treedt vooral op bij niet-realistische afbeeldingen zoals cartoons, pentekeningen of een werk van Picasso. Het compressieverlies, vooral scherpteverlies te opzichte van het origineel, gebeurt doordat het beeld in kleine pixel-blokjes wordt opgedeeld die dan repetitief gehalveerd worden totdat de gewenste compressieverhouding wordt bereikt. Dit onherstelbaar gegevensverlies gebeurt telkens als het beeld wordt bewerkt, gecomprimeerd en opnieuw bewaard wordt. Een goede multimedia freeware, indien niet commercieel gebruikt, is beschikbaar op www.irfanview.com. Dit programma ondersteunt reeds diverse delen van de nieuwe JPEG 2000 standaard. Als je de extra informatie of metadata wil zien die je camera in het bestand opslaat, dan moet je de beschikbare EXIF 33 plugin mee downloaden en installeren. 2.3.2.3 JPEG 2000 JPEG 2000 is de laatste nieuwe compressiestandaard van het JPEG comité. De JPEG standaard bestaat al een twintigtal jaren en sindsdien is de computertechnologie exponentieel gegroeid. Het was dan ook tijd om een nieuwe standaard te maken die meer aankon dan simpelweg digitale beeldbestanden inkrimpen. 32 Joint Photographic Experts Group: de groep die deze standaard heeft verwezenlijkt 33 Exchangeable Image File Format wordt nu door de meeste digitale camera s gebruikt 22

JPEG 2000 kan dan ook 20% meer compressie aanbieden en gebruikt de wavelet technologie. Door gebruik te maken van deze techniek kan de informatie van een afbeelding bijgehouden en zonder gegevensverlies of vervorming worden opgeslagen. Het verzenden, naar een ontvanger, van het eerste deel van een JPEG2000-bestand resulteert in de heropbouw van een JPEG-bestand. Naarmate dat de verzending verder gaat, wordt het bestand beter en beter tot dat het origineel beeld weer ter beschikking staat. Deze wavelet technologie maakt het dus mogelijk om bestanden in verschillende resoluties op te laden. Toepassingsgebieden voor JPEG 2000 zijn: internet, digitale fotografie, medische beeldvorming, draadloze beeldvorming, beeldvorming van documenten, pre-press, geografische informatie systemen en remote sensing, cultureel erfgoed, wetenschappelijk en industrieel, digitale cinema, beeldarchieven en databases, bewaking, printen en scannen, faxen. JPEG 2000 kan door opeenvolging van de bestanden ook video aan zoals beschreven in ISO/IEC 15444-3:2002/Amd 2:2003 en ISO/IEC 15444-12. Deel 3 van deze norm beschrijft het bestandsformaat MJ2 of MJP2 wat staat voor Motion van JPEG 2000 beelden. De ondersteuning voor de bijhorende audio komt er ook aan bod. 2.3.3 Geluid formaten 2.3.3.1 WAV WAV 34 of WAVE is een Microsoft- en IBM-standaard voor het bewaren van audio op pc's. Als bestandsextensie wordt.wav gebruikt. Geluid kan net als een afbeelding in allerlei formaten worden opgeslagen. Het eenvoudigste bestandsformaat is.wav. Het nadeel van dit formaat is dat het schijfruimte in beslag neemt. De ruimte die in beslag wordt genomen kan gaan tot 4 gigabyte in grootte wat overeen komt met meer dan 6 uur geluid in CD-kwaliteit. Hierdoor krijgt men een maximale kwaliteit, maar is er ook veel schijfruimte nodig. 34 Waveform audio format 23

Omwille van deze laatste reden is de WAV-indeling minder populair op het internet en wordt daar eerder MP3, Ogg Vorbis of AAC gebruikt. 2.3.3.2 MP3 Op internet en in de wereld van portabele muziekspelers is MP3 35 in relatief korte tijd een standaard geworden. Het formaat biedt voor muziek en geluidsbestanden een aangename bestandsgrootte in combinatie met een goede geluidskwaliteit. Voor het uitwisselen van muziek, het aanbieden van geluidsbestanden op een website of het archiveren ervan. MP3 is een compressieformaat, wat betekent dat er zoveel mogelijk van het originele bestandsformaat wordt teruggedrongen met behoud van zoveel mogelijk geluidskwaliteit. Op een normale muziek-cd neemt één minuut stereomuziek, van 44,1Khz en 16 Bit, ongeveer 10Mb data in beslag. Hetzelfde bestand in MP3-formaat is op te slaan in 1Mb per muziekminuut. De kwaliteit van het geluidsbestand boet dan wel in, maar hiertegenover staat dat het verschil op standaard geluidsapparatuur nauwelijks te horen zal zijn. Het Fraunhofer Instituut heeft ook een verbeterde versie van MP3 ontwikkeld met de naam MP3Pro. Met deze nieuwe standaard is een veel betere geluidskwaliteit te realiseren of eenzelfde kwaliteit als MP3 maar dan in tweemaal zo kleine bestanden. Het nieuwe formaat is niet echt succesvol en de markt blijkt voorlopig meer dan genoeg te hebben aan de kwaliteit van MP3. Het principe van MP3 is gebaseerd op: De sample rate of monsterfrequentie: Geluid is voor te stellen als een golvende grafiek met een verloop in tijd. Om zulk een analoge golf digitaal voor te stellen moet de curve in 0 en 1 worden vertaald. Daarvoor wordt de hoogte van de curve, een aantal duizend maal per seconde, gemeten en omgezet in digitale informatie. Het aantal keren per seconde dat zulk een analoge geluidsgolf wordt gemeten drukt men uit in sample rate. Op een normale audio CD wordt het geluid 44.100 keer per seconde gemeten en spreekt men van 44.1 Khz. Hoe vaker het geluid wordt gemeten, hoe hoger de kwaliteit. De nieuwste generatie muziek-dvd s passen een sample rate van 192 Khz toe. De huidige MP3 s hebben meestal dezelfde sample rate als audio CD s. De bitrate: Deze factor bepaalt de kwaliteit van een MP3. Bitrate staat voor het aantal bits per seconde geluid en wordt uitgedrukt in kilobits per seconde of Kbps. Hoe lager de bitrate, hoe lager de kwaliteit. Drie minuten muziek levert volgende bestandgrootten op: o 2,3 Mb bij een bitrate van 96 Kbps, o 3,1 Mb bij een bitrate van 128 Kbps, o 3,9 Mb bij een bitrate van 160 Kbps, o 4,7 Mb bij een bitrate van 192 Kbps, 35 Mpeg-1 Audio Layer-3: een compressietechniek die werd ontwikkeld door het Fraunhofer Instituut in Duitsland 24