Richtlijn Bestandsformaten voor digitaal geboren en gedigitaliseerde tekstdocumenten ten behoeve van het concern Amsterdam

Maat: px
Weergave met pagina beginnen:

Download "Richtlijn Bestandsformaten voor digitaal geboren en gedigitaliseerde tekstdocumenten ten behoeve van het concern Amsterdam"

Transcriptie

1 Richtlijn Bestandsformaten voor digitaal geboren en gedigitaliseerde tekstdocumenten ten behoeve van het concern Amsterdam Datum: 24 november 2008 Versie: 0.9 Status: geredigeerd concept

2 Inhoudsopgave Inhoudsopgave...1 Versiegeschiedenis...2 Management samenvatting...3 Inleiding...4 Doel en scope van dit document...4 Opzet van dit document...4 Doelgroep...4 Herzienstermijn van dit document...4 Vervolgonderzoek Afbakening Uitsluiting documenttypen Digitale tekstdocumenten Wettelijk kader Actieplan Nederland Open in Verbinding Advies Testbed Digitale Bewaring Nationaal Archief De selectie van te beoordelen bestandsformaten Geselecteerde bestandsformaten Toelichting Beoordeling van bestandsformaten Criteria voor lange termijn behoud en de File Format Assessment Method Beoordeling van de bestandsformaten met behulp van de File Format Assessment Method Overwegingen digitaal geboren tekstdocumenten Overwegingen gedigitaliseerde tekstdocumenten Bestandsformaten met compressie Achterwaartse compatibiliteit Geselecteerde bestandsformaten voor opslag in het SAA E-depot Digitaal geboren tekstdocumenten Gedigitaliseerde tekstdocumentenl Beschrijving geselecteerde bestanden Digitaal geboren tekstdocumenten PDF/A PDF Gedigitaliseerde tekstdocumenten PDF/A JPEG TIFF JPEG Advies bestandsformaat per documentsoort Digitaal geboren tekstdocumenten Gedigitaliseerde tekstdocumenten Literatuur- en internetbronnenlijst Begrippenlijst...26 Bijlage 1 Wettelijk kader

3 Versiegeschiedenis Huidige versie 0.9 Versie Versie datum Belangrijkste wijzigingen Auteur: Robèrt Gillesse oktober 2008 Bouwtekeningen vallen buiten scope Toevoegen versiegeschiedenis Toevoegen managementsamenvatting Toevoegen herzieningstermijn document Toevoegen vervolgonderzoek Toevoegen overwegingen selectie JPEG en JPEG 2000 lossy (paragraaf 3.4.1) Toevoegen paragraaf 3.5 Achterwaartse compatibiliteit Inperken begrippenlijst november 2008 ODF afvoeren als archiefformaat Tekstuele verbeteringen november 2008 Geredigeerd Migratieadvies van PDF naar PDF/A omgezet in het afraden van migratie van PDF naar PDF/A 2

4 Managementsamenvatting Dit document behelst een richtlijn van standaard bestandsformaten voor de langetermijnbewaring en toegankelijkheid van digitale tekstbestanden ten behoeve van het concern Amsterdam. Op basis van het wettelijk kader, het Actieplan Nederland Open in Verbinding, de publicaties van het Testbed Digitale Bewaring en literatuuronderzoek, is een selectie gemaakt van bestandsformaten die in aanmerking zouden kunnen komen voor de langetermijnarchivering van digitale tekstdocumenten. Daarbij is er een duidelijk onderscheid gemaakt tussen digitaal geboren en gedigitaliseerde tekstdocumenten. De geselecteerde bestandsformaten zijn vervolgens beoordeeld met de door de Koninklijke Bibliotheek ontwikkelde File Format Assessment Method. Met behulp van deze methode kunnen bestandsformaten worden beoordeeld op de geschiktheid voor langetermijnarchivering. Elk bestandsformaat krijg daarbij een score. Op basis van deze scores en nadere overwegingen zijn door het SAA de volgende bestandsformaten geselecteerd voor langetermijnarchivering: Digitaal geboren PDF/A-1a en 1b PDF 1.7 (en eerdere versies) Het reguliere PDF formaat (versie 1.7 en eerder) dient alleen te worden gebruikt wanneer in het PDF/A-1 bestand essentiële informatie uit het brondocument onvoldoende kan worden weergegeven. Tekstdocumenten gecreëerd in het MS Word formaat of andere tekstformaten moeten worden gemigreerd naar PDF/A-1. Gedigitaliseerd van origineel Opslag in PDF schil : PDF/A-1b Opslag als losse afbeeldingen (geen volgorde van voorkeur) TIFF 6.0 uncompressed TIFF 6.0 Group 4 JPEG 2000 part 1 lossless of lossy JPEG 1.02 (is lossy) Het SAA heeft geen voorkeur voor enerzijds de opslag van digitaliseerde documenten in een PDF schil en anderzijds als losse afbeeldingen. Beide methodes hebben voor- en nadelen (zie daarvoor paragraaf 3.4). Ook spreekt het SAA geen voorkeur uit voor ongecomprimeerde of gecomprimeerde opslag. In hoofdstuk 5 van deze richtlijn zijn deze bestandsformaten uitgebreid beschreven. In hoofdstuk 6 zijn er aanbevelingen gedaan voor bestandsformaten per digitaal geboren brondocument (MS Word, RTF, TXT, reguliere PDF). Ook is er een aanbeveling gedaan voor verschillende soorten gedigitaliseerde documenten. 3

5 Inleiding Doel en scope van dit document Dit document behelst een richtlijn van standaard bestandsformaten voor de langetermijnbewaring en toegankelijkheid van digitale tekstbestanden ten behoeve van het concern Amsterdam. Opzet van dit document Dit document kent de volgende opzet: 1. Afbakening: welke documenttypen worden wel en niet behandeld, het wettelijk kader, het Actieplan Nederland Open in Verbinding en het advies van het Testbed Digitale Bewaring (van het Nationaal Archief) 2. Selectie van bestandsformaten die in aanmerking komen voor langetermijnarchivering op basis van het bovengeschetste kader 3. Beoordeling van deze bestandsformaten met behulp van File Format Assessment Method (elk bestandsformaat krijgt een score die de geschiktheid voor langetermijnarchivering aangeeft) en overwegingen aangaande de scores 4. Definitieve lijst van de voor lange termijn geselecteerde bestandsformaten 5. Een korte en praktische beschrijving van de voor lange termijn geselecteerde formaten 6. Een advies welk bestandsformaat voor welke documentsoort te gebruiken 7. Een literatuur- en internetbronnenlijst 8. Een begrippenlijst waarin de belangrijkste begrippen worden gedefinieerd Doelgroep Managementniveau: informatiemanagers, hoofden DIV en/of hoofden I&A binnen het concern Amsterdam. Herzieningstermijn van dit document Gezien de snelle wijzigingen op technisch vlak en de nog vigerende situatie op wetgevend gebied, zal dit document op regelmatige basis moeten worden aangepast. De eerste update van dit document zal naar verwachting een half jaar na publicatie plaatsvinden (zomer 2009). Gerelateerde documenten Aanbevelingen migratie naar PDF/A ten behoeve van het concern Amsterdam Stadsarchief Amsterdam 2008 (concept). Aanbevelingen voor digitalisering van tekstdocumenten SAA ten behoeve van het concern Amsterdam Stadsarchief Amsterdam 2008 (concept). Stadsarchief Amsterdam. Standaard metadata voor digitaal informatiebeheer. Stadsarchief Amsterdam Vervolgonderzoek Op deze richtlijn zullen op korte termijn (begin 2009) twee publicaties volgen: Aanbevelingen voor digitalisering van tekstdocumenten Aanbevelingen voor migratie naar PDF/A 4

6 1. Afbakening 1.1 Uitsluiting documenttypen Deze richtlijn is gericht op bestandsformaten die geschikt zijn om digitale tekstdocumenten duurzaam toegankelijk te houden. Het gaat daarbij om documenten die zijn gecreëerd met tekstverwerkingssoftware. Buiten beschouwing gelaten zijn: Gedigitaliseerde foto s, schilderijen, prenten, 3D objecten, bouwtekeningen, bewegend beeld en geluid Digitaal geboren foto s, CAD/CAM bestanden, bewegend beeld en geluid, presentaties, rekenbladen (spreadsheets), databases en 1. Niet of ten dele kantoorgebonden tekstdocumenten als HTML en XML. Niet of nauwelijks gebruikte of sterk verouderde tekstverwerkingsbestanden. Deze documentsoorten zullen in volgende publicaties worden behandeld. 1.2 Digitale tekstdocumenten Digitale tekstdocumenten zijn er in twee varianten: 1. Tekst die digitaal is gecreëerd (digitaal geboren) in tekstverwerkingssoftware. 2. Tekst die is gedigitaliseerd van een papieren origineel. Dit kan door het document (fotografisch) om te zetten naar een digitaal rasterbeeld, of de tekst over te zetten (overtypen) naar een door een machine leesbare tekst. In het laatste geval zal de opmaak van het originele formaat (grotendeels) verloren gaan. In de archiefcontext zal daarom meestal worden gekozen voor het scannen van documenten, al dan niet in combinatie met optische tekenherkenning (OCR) en/of metadata-invoer. Deze richtlijn gaat daarom uit van gescande of digitaal gefotografeerde documenten. Deze richtlijn adviseert over beide soorten tekstdocumenten. 1.3 Wettelijk kader Het wettelijke kader wordt bepaald door drie documenten: 1. Artikel 6 van de ministeriële regeling Geordende en toegankelijke staat archiefbescheiden (2002). Deze regeling wordt momenteel herzien. 2. Artikel 25 van het concept van de nieuwe ministeriële regeling, gebaseerd op de evaluatiecommissie (augustus 2008) die de regeling uit 2002 heeft beoordeeld. 3. De LOPAI ED3 norm (mei 2008): Eisen Duurzaam Digitaal Depot. Zie bijlage 1 voor de complete tekst van de genoemde artikelen. 1.4 Actieplan Nederland Open in Verbinding Recente ontwikkelingen binnen de Nederlandse overheid en politiek zijn sterk gericht op het bereiken van interoperabiliteit binnen de ICT infrastructuur van de overheid door de toepassing van open standaarden (OS) en open source software (OSS). Het Actieplan en programmabureau Nederland Open in Verbinding (NOiV) van Economische Zaken uit september 2007 is daarvan het belangrijkste resultaat 2. 1 Een client genereert natuurlijk wel tekstdocumenten. Het probleem van binaire bijlagen (afbeeldingen, spreadsheets, MS Word documenten etc.) maakt echter verder onderzoek naar de lange termijnbewaring van noodzakelijk. 2 Het programma Nederland Open in Verbinding (NOiV) informeert overheidsorganisaties over de mogelijkheden van open standaarden (OS) en open source software (OSS) en stimuleert hen deze waar mogelijk toe te passen in hun informatiesystemen. NOiV is de opvolger van het programma OSSOS en wordt uitgevoerd door Stichting ICTU (http://www.ictu.nl) die ICT projecten van de overheid ondersteunt. Het College en Forum Standaardisatie (http://www.forumstandaardisatie.nl/) is een ander belangrijk adviesorgaan op het gebied van open standaarden. Dit is op zijn beurt onderdeel van GBO.Overheid (http://gbo.overheid.nl/), dat als doel heeft overheidbreed ICT toepassingen te beheren en verder te ontwikkelen. 5

7 Een belangrijk onderdeel van het actieplan is de invoering van ODF (Open Document Format) voor het lezen, schrijven en uitwisselen van documenten (actielijn 6) 3. Het ODF formaat bevat alle gangbare Office mogelijkheden: dus naast tekstverwerking (file extensie.odt) is zijn er ook mogelijkheden voor rekenbladen (.ods), tekenen (.odg) en presentaties (.odp) aanwezig. Naar aanleiding van het Actieplan is het Forum Standaardisatie gekomen met een basislijst van open standaarden. Daar is voor tekstdocumenten, naast ODF voor uitwisseling van reviseerbare documenten, PDF-A-1a geselecteerd als formaat voor langetermijnarchivering. De Amsterdamse vertaling van het Actieplan is te vinden in het project Open.Amsterdam Advies Testbed Digitale Bewaring Het Nationaal Archief (NA) heeft in 2003 de publicatie Testbed digitale bewaring, van vluchtigheid naar digitaal houvast, bewaren van tekstdocumenten uitgegeven. De hierin geschetste strategie voor langetermijnbehoud (langer dan 10 jaar), beschouwt migratie niet als een veilige methode. Migratie (in een of meerdere migratieslagen) zal over een dermate lange periode onherroepelijk leiden tot verlies aan informatie. Het gaat er dus om een bestandsformaat te kiezen dat de essentiële eigenschappen van een tekstdocument op de lange termijn kan representeren. Het NA adviseert, naast het bewaren van het originele document in de originele staat (dat zal meestal MS Word zijn), het document te bewaren in XML (structuur) en/of PDF (opmaak). XML wordt daarbij alleen aangeraden wanneer de documenten expliciet van opmaak en structuur zijn voorzien. 3 Ministerie van Economische Zaken Actielijn 6 ODF-invoering. Toelichting op het Actieplan Nederland Open in Verbinding en/actielijn_6_odf_invoering_toelichting_op_het_actieplan_nederland_open_in_verbinding 4 Project Open.Amsterdam: 6

8 2. De selectie van te beoordelen bestandsformaten 2.1 Geselecteerde bestandsformaten Op basis van bovenstaande kaders en literatuuronderzoek heeft SAA de volgende bestandsformaten geselecteerd voor beoordeelding op geschiktheid voor duurzame opslag en toegankelijkheid: Digitaal geboren tekstdocumenten PDF 1.7 (ISO 32000) PDF/A-1 (ISO 19005) MS Word ODF (versies 1.0 ISO 26300:2006, 1.1, 1.2) Gedigitaliseerde tekstdocumenten PDF 1.7 (ISO 32000) PDF/A-1 (ISO 19005) Baseline TIFF 6.0 Uncompressed Baseline TIFF 6.0 met Group 4 Baseline TIFF 6.0 met LZW compressie Basic JFIF (JPEG) 1.02 PNG 1.2 (ISO 15948) JPEG 2000 part 1 (ISO ) JPEG 2000 part 6 (ISO ) 2.2 Toelichting Uit het wettelijk kader (ministeriële regeling 2002) is op te maken dat voor digitaal geboren tekstdocumenten PDF of XML kan worden gebruikt en voor gedigitaliseerd materiaal TIFF of PDF. Wanneer dit kader wordt vertaald naar 2008 ligt het gebruik van PDF/A-1 (de archiefvariant van PDF uit 2005) en ODF (open XML bestandsformaat voor office documenten uit 2006) voor de hand. Uit de conceptherziening van deze regeling (augustus 2008) kunnen de volgende eisen worden opgemaakt: -gedocumenteerd open formaat -verbod op encryptie -verantwoord toepassen van compressie (zonder informatieverlies). Er worden geen specifieke bestandsformaten meer voorgeschreven. Uit het Actieplan Nederland Open in Verbinding en de daarmee verbonden (conceptuele) basislijst van open standaarden van het Forum Standaardisatie, wordt ODF gezien als een bestandsformaat voor uitwisseling van reviseerbare documenten en PDF/A-1 als een formaat voor langetermijnarchivering. ODF wordt hierin dus niet gezien als een geschikt archiefformaat. De reden hiervoor is hoogstwaarschijnlijk dat dit bestand eenvoudig is te wijzigen en daarmee de authenticiteit van het document gevaar kan lopen. Echter, ook een PDF kan met enige moeite worden aangepast. Het is de vraag of de kwestie van authenticiteit op het niveau van het bestandsformaat moet worden gelegd. Een alternatief zou kunnen zijn om het advies van het Testbed digitale bewaring van het Nationaal Archief (uit 2003) toe passen: het bewaren van het bestand in XML en PDF (naast het originele formaat). Vertaald naar 2008 zou dat dan betekenen dat het bestand zowel in ODF als PDF/A-1 wordt bewaard. ODF zal daarom toch ook in de beoordeling voor langetermijnarchivering worden meegenomen. Wat in de basislijst van het Forum Standaardisatie ontbreekt, zijn de bestandsformaten voor gedigitaliseerde tekstdocumenten. Naast het voor de hand liggende PDF(/A) formaat, waarin de digitale afbeeldingen in het geval van gedigitaliseerde documenten op de juiste volgorde zijn opgenomen, kunnen gescande tekstdocumenten ook als losse rasterafbeeldingen worden opgeslagen. De documentstructuur wordt hierbij in de metadata 5 vastgelegd (dit gebeurt bijvoorbeeld 5 Eventuele standaarden die daarvoor gebruikt kunnen worden zijn MPEG21/DIDL en METS. 7

9 in de SAA Archiefbank). Het is daarom noodzakelijk dat ook de belangrijkste afbeeldingsformaten worden beoordeeld. De onderstaande selectie van bestanden is gemaakt op basis van de SAA publicatie M. Holtman e.a., Digitalisering ontrafeld en de KB publicatie R. Gillesse en J. Rog, Alternative File Formats for Storing Master Images of Digitisation Projects: TIFF uncompressed, TIFF LZW, TIFF Group 4, JPEG, JPEG 2000 part 1 (lossless en lossy) en part 6 en PNG. Uit de geraadpleegde literatuur en internetbronnen kunnen nog een aantal dingen worden opgemaakt: Een alternatief voor ODF is het Open Office XML (OOXML) van Microsoft dat in 2008, weliswaar na heftige strubbelingen, ISO is genormeerd (ISO 29500). Op moment van dit schrijven zijn de laatste protesten tegen de ISO normering verworpen en kan de standaard (meer dan 6000 pagina s!) binnenkort worden gepubliceerd. Rekening houdend met de nog omstreden status van OOXML (met name in het vrij gebruiken van patenten en de werkelijke openheid van het formaat) en het feit dat de norm nog niet is gepubliceerd (en het.docx formaat dat nu door Office 2007 wordt gebruikt nog niet voldoet aan de ISO norm) maken dat het formaat in deze beoordeling niet zal worden meegenomen. Ook een moeilijk geval is het Microsoft Office Word bestandsformaat. Voorheen was dit een gesloten formaat, en voldeed in die zin op geen enkele zin aan de wens van openheid, maar dit lijkt per februari 2008 verleden tijd. Vallend onder de Open Specification Promise van Microsoft zijn de specificaties van het MS Word bestandsformaat beschikbaar gekomen. 6 De precieze consequenties voor de langetermijnbewaring van deze nieuwe openheid zijn op dit moment lastig te overzien. Ook lijkt de Open Specification Promise van Microsoft in sommige kringen omstreden. Toch zal ondanks deze onduidelijkheid het MS Word formaat wel worden meegenomen in deze beoordeling. Een andere recente ontwikkeling die van belang is voor deze selectie is de ISO (ISO 32000) normering van het reguliere PDF 1.7 formaat (sinds februari 2008). Daarmee is ook het normale PDF formaat een open standaard geworden en zal het PDF 1.7 formaat dus ook worden beoordeeld. 6 IT bedrijven als SUN en IBM hebben ook Open Specification Promises uitgebracht. 8

10 3. Beoordeling van bestandsformaten 3.1 Criteria voor lange termijn behoud en de File Format Assessment Method Om bestandsformaten te kunnen beoordelen op hun geschiktheid voor langetermijnbehoud zijn er zeven, internationaal algemeen aanvaarde criteria ontwikkeld: 7 1. Openness 2. Adoption 3. Complexity 4. Technical Protection Mechanism 5. Self-documentation 6. Robustness 7. Dependencies Met behulp van de File Format Assessment Method kunnen op basis van de bovenstaande criteria bestandsformaten worden beoordeeld op de geschiktheid voor langetermijnbehoud. Deze methode is ontwikkeld door de Koninklijke Bibliotheek (KB). De methode is uitgebreid beschreven in het door Van Wijk en Rog geschreven artikel Evaluating File Formats for Long-term Preservation. 8 In het kort komt de methode er op neer dat er een weging plaatsvindt van de bovenstaande zeven criteria. Elk criterium is opgedeeld in een aantal subcriteria (characteristics). Zo is bijvoorbeeld het criterium Openness onderverdeeld in drie subcriteria: Standardisation, Restrictions on the interpretation of the file format en Reader with freely available source. Aan elk van deze subcriteria is een score verbonden en een gewicht. De mogelijke scores staan beschreven in het hierboven genoemde artikel Evaluating File Formats for Long-term Preservation. De scores voor het subcriterium Standardisation zijn bijvoorbeeld: Score mogelijkheden Scores De jure standard 2 De facto standard, specifications 1,5 made available by independent organisation De facto standard, specifications 1 made available by manufacturer only De facto standard, closed 0,5 specifications No standard 0 De gewichten die aan de subcriteria zijn verbonden kunnen aan de eigen langetermijnstrategie van een instituut worden aangepast. In deze beoordeling van de bestandsformaten door het SAA worden de door de KB toegekende gewichten grotendeels aangehouden. De enige wijziging is het gewicht voor compressie dat stond op 6 en is veranderd in 3. Het SAA ziet compressie, mits gebaseerd op een open standaard, als minder groot probleem voor langetermijnarchivering. Uiteindelijk krijgt het beoordeeld bestandsformaat een totale score (absoluut en procentueel). Voor de betekenis en achtergrond van de in de File Format Assessment Method gebruikte begrippen wordt verwezen naar het artikel van Rog en Van Wijk. 7 Caroline van Wijk, Judith Rog, Evaluating File Formats for Long-term Preservation, p Ibidem. 9

11 3.2 Beoordeling van de bestandsformaten met behulp van de File Format Assessment Method De File Format Assessment Method scores van de geselecteerde bestandsformaten zijn als volgt: Openness 3 Baseline TIFF 6.0 unc TIFF 6.0 LZW TIFF 6.0 Group 4 Weight Score Total Score Total Sc ore Basic JFIF (JPEG) 1.02 JPEG-2000 Part 1 lossy compressed JPEG-2000 Part 1 lossless compressed JPM (JPEG-2000 Part 6) PNG 1.2 PDF/A-1 PDF 1.7 ODF 1.0 MS Word Total Score Total Score Total Score Total Score Total Score Total Score Total Score Total Score Total Score Total Standardisation ,5 4, Restrictons on the interpretation of the file format Reader with freely available source ,7 2 4,7 2 4,7 2 4,7 2 4,7 2 4,7 1 2,3 2 4,7 2 4,7 2 4,7 2 4,7 1 2,3 Adoption 2 World wide usage Usage in the , , ,5 0 0 cultural heritage sector as archival format Complexity 3 Human readability Compression Variety of functions Technical Protection Mechanism (DRM) Password protection ,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 1 0,6 1 0,6 1 0,6 Copy protection 3 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 1 0,6 2 1,2 1 0,6 Digital signature 3 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 1 0,6 2 1,2 1 0,6 Printing protection 3 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 1 0,6 2 1,2 2 1,2 Content extraction protection 3 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 Self-documentation 2 Metadata , , Technical 1 1 0, , ,5 0 0 description of format embeddeded Robustness 5 Format should be robust against single point of failure File corruption detection 2 1 0, ,4 2 0,8 2 0,8 2 0,8 1 0, , File format stability 2 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 1 0,4 1 0,4 Backward compatibilty Forward compatibilty 2 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0, ,8 2 0,8 2 0, ,4 1 0,4 1 0,

12 Baseline TIFF 6.0 unc TIFF 6.0 LZW TIFF 6.0 Group 4 Basic JFIF (JPEG) 1.02 JPEG-2000 Part 1 lossy compressed JPEG-2000 Part 1 lossless compressed JPM (JPEG-2000 Part 6) PNG 1.2 PDF/A-1 PDF 1.7 ODF 1.0 MS Word Dependencies 4 Not dependent on specific hardware Not dependent on specific operating systems Not dependent on one specific reader Not dependent on other external resources (font + codecs) Max Score 61, Percentage of

13 Dit levert de volgende scorelijsten op: Digitaal geboren tekstdocumenten Rang Formaat Score 1 PDF/A PDF ODF MS Word Gedigitaliseerde tekstdocumenten Rang Formaat Score 1 PDF/A PDF TIFF Uncompressed 84 4 TIFF Group 4 compressie 82 5 PNG 79 6 JPEG 2000 Part 1 Lossless compression 76 7 JPEG 68 8 JPEG 2000 part 1 Lossy compression 68 9 TIFF LZW JPEG 2000 Part 6 61 PDF(/A) komt in beide lijsten voor omdat dit bestandsformaat zowel digitaal geboren tekstbestanden als gedigitaliseerde tekstbestanden kan bevatten. 3.3 Overwegingen digitaal geboren tekstdocumenten Uit de scorelijsten kan opgemaakt worden dat PDF/A als bestandsformaat verreweg het meest geschikt is voor lange termijnopslag van digitaal geboren materiaal. Het reguliere PDF formaat scoort lager, vanwege de vele gebruiksmogelijkheden van het bestand en de daardoor verhoogde complexiteit. Ook een belangrijk nadeel voor langetermijnarchivering en toegankelijkheid zijn de verschillende beveiligingsmogelijkheden van het reguliere PDF formaat. Het SAA spreekt daarom een sterke voorkeur uit voor het PDF/A formaat. Het reguliere PDF formaat wordt bij voorkeur alleen gebruikt wanneer PDF/A te weinig functionaliteit biedt om essentiële informatie uit het brondocument te kunnen weergeven. Het op XML gebaseerde ODF bestandsformaat scoort ook relatief hoog. Het verschil met PDF zit met name in het adoptie (adoption) criterium: het gebruik van het jonge ODF bestandsformaat is zowel wereldwijd als in de culturele erfgoed sector nog (relatief) gering. Vanuit de overheid is een sterke voorkeur ontstaan voor het gebruik van PDF/A als exclusief archiefformaat. ODF wordt in deze visie slechts als bestand gebruikt op het moment dat het document nog in bewerking is. Het is echter de vraag of deze visie niet te beperkt is. Het gevaar dat een bestand kan worden aangepast is, wanneer het eenmaal is opgeslagen in een duurzaam digitaal depot, immers afwezig. Een ander, en veel belangrijker probleem van het ODF formaat is dat een eenduidige weergave van de documentopmaak tussen verschillende viewers en omgevingen niet is te garanderen. Zo kunnen verschillen optreden in regeleindes, pagina-eindes, de positionering van elementen als afbeeldingen en tabellen, en fonts. Doordat fonts niet geïmplanteerd kunnen worden in het ODF formaat, is een eenduidige weergave onmogelijk op computers waar het betreffende font niet aanwezig is. Het probleem van een niet eenduidige documentweergave is voor overheidspublicaties natuurlijk onaanvaardbaar. ODF zal daarom niet worden geselecteerd als een geschikt formaat voor langetermijnarchivering. Langetermijnopslag van het MS Word bestand wordt gezien de lage score in de File Format Assessment Method ontraden. Al is het formaat niet langer gesloten, er zijn nog altijd beperkingen in 12

14 verband met patenten. Daarnaast is de complexiteit van het formaat hoog, heeft het formaat veel mogelijkheden tot beveiliging (o.a. wachtwoord, kopieerbeveiliging) en is het gebruik als archiefformaat in de culturele erfgoedwereld zeer gering. 3.4 Overwegingen gedigitaliseerde tekstdocumenten Voor gedigitaliseerd materiaal scoort PDF(/A) ook het hoogste. Toch is PDF zeker niet altijd het meest aangewezen formaat als het gaat om de opslag van gedigitaliseerd tekstmateriaal. Zoals in het bovenstaande al is aangegeven kunnen tekstdocumenten ook als losse rasterafbeeldingen zijn opgeslagen, waarbij de documentstructuur in de metadata is vastgelegd. Het voordeel daarvan is dat de bestanden in het originele rasterformaat (bijvoorbeeld TIFF of JPEG) worden opgeslagen. Wanneer er om de, van origine, digitale beelden een PDF schil wordt aangebracht, dan wordt daarmee een extra laag van complexiteit aangebracht. Dit is een duidelijk nadeel voor langetermijnarchivering. Een ander nadeel van de opname van afbeeldingen in een PDF schil is dat de PDF bestanden al snel vrij groot worden. Zeker wanneer de documenten grijswaarden of kleur bevatten of groter zijn dan A4. Er zijn echter wel weer mogelijkheden om de afbeeldingen binnen het PDF bestand te downsamplen (verlagen van de resolutie) en/of te comprimeren (zie onderstaande overzicht voor de verschillende mogelijkheden). Compressie doet echter de complexiteit van het bestand alleen maar toenemen en het te gretig toepassen van downsampling en/of compressie kan de informatieoverdracht van het document in de weg staan. Het nadeel van opslag van documenten als losse afbeeldingen, is dat ook de metadata die de structuur van het document bepalen duurzaam moet worden bewaard en aan de afbeeldingen gekoppeld moet blijven. Dit is natuurlijk het grote pré van het gebruik van PDF(/A): de structuur van het document zit ingebakken in het PDF bestand. 9 Met betrekking tot de digitale duurzaamheid van gedigitaliseerde tekstdocumenten lijkt er dus sprake te zijn van het kiezen tussen twee kwaden : Opnemen van afbeeldingen in een PDF schil: Verhoogt de complexiteit van het te archiveren formaat Kan een bestand erg zwaar maken Opslaan van aparte afbeeldingen: Maakt het noodzakelijk de metadata die de structuur bepalen ook duurzaam op te slaan Maakt het noodzakelijk meer objecten te beheren Het SAA kan op dit moment geen duidelijke voorkeur uitspreken voor één van de twee methodes. Er zal van geval tot geval moeten worden gekeken wat de doorslag geeft. Functionele eisen (bepaald door de archiefvormende dienst) zullen daarbij een belangrijke rol spelen Bestandsformaten met compressie Wanneer er wordt gekozen voor de opslag van losse afbeeldingen speelt er nog de keuze voor het al dan niet toepassen van lossless of lossy compressie. 10 Afhankelijk van de functionele en kwalitatieve eisen en beschikbare opslagruimte zijn er serieuze alternatieven voor ongecomprimeerde afbeeldingen (alleen het TIFF uncompressed formaat is hiervoor geselecteerd) beschikbaar. Voor lossless compressie: JPEG 2000 part 1 lossless PNG TIFF 6.0 LZW TIFF 6.0 Group 4 (lossless compressie van bitonale scans) Voor lossy compressie: JPEG 2000 part 1 lossy en part 6 JPEG 9 Dit kan echter ook een nadeel blijken, wanneer op enig moment blijkt dat de volgorde niet klopt. 10 Lossless compressie betekent dat het bestand gecomprimeerd is zonder enig verlies van informatie. Bij lossy compressie gaat wel informatie verloren. De hoeveelheid compressie is vaak instelbaar. Door de hoeveelheid compressie in beperkte mate toe te passen, ontstaan vaak afbeeldingen die niet of nauwelijks van het ongecomprimeerde bestand zijn te onderscheiden (visual lossless). Lossy compressie levert veel meer opslagwinst op dan lossless compressie. 13

15 TIFF LZW scoort relatief laag door de nog altijd onzekere situatie rondom de patenten van het LZW compressieformaat en het geringe gebruik van het formaat. Gebruik van TIFF LZW als lange termijn opslagformaat is daarom niet verstandig en niet geselecteerd voor duurzame opslag. JPEG 2000 part 6 scoort ook laag door onduidelijkheden rondom de patenten van deze compressietechniek en het eveneens geringe gebruik, ook al is dit voor een relatief nieuw formaat logisch. JPEG 2000 part 6 zal daarom voorlopig niet als lange termijn opslagformaat worden geselecteerd. JPEG 2000 part 1 lossless en PNG (is standaard lossless) hebben bijna een gelijke score (respectievelijk 76 en 79%). Het verschil zit in het geheel vrij zijn van patenten van het PNG formaat en enige, weinig risicovolle, restricties daarop in het JPEG 2000 formaat. Om het aantal geselecteerde bestanden enigszins in te perken is er, ondanks de hogere score van het PNG formaat, toch gekozen voor het JPEG 2000 part 1 lossless formaat. De voornaamste reden hiervoor is dat grote culturele instellingen wereldwijd beginnen JPEG 2000 te ondersteunen als archief formaat. PNG wordt daarentegen gering gebruikt. Daarbij heeft het JPEG 2000 formaat grote functionele voordelen, bijvoorbeeld multiresolutie, en gebruikt het een efficiëntere compressiemethode. Het JPEG formaat zal ondanks de relatief lage score toch worden geselecteerd voor duurzame opslag. Dit ligt vooral in de enorme verspreiding van dit bestandsformaat, de efficiënte compressietechniek en het feit dat het SAA zelf zijn digitale masters van gedigitaliseerd materiaal grotendeels opslaat in het JPEG formaat. Ook het eveneens relatief laag scorende JPEG 2000 lossy formaat zal worden geselecteerd voor opname in het E-depot. De reden hiervoor ligt in de bovengenoemde functionele voordelen en het gebruik van een verbeterde compressiemethode ten opzichte van JPEG. 3.5 Achterwaartse compatibiliteit In de File Format Assessment Method is een subcriterium Backward Compatibility opgenomen. Dat betekent dat oudere versies van het bestandsformaat altijd uitwisselbaar zullen blijven ten opzichte van een nieuwere versie. Alle geselecteerde bestandsformaten scoren hierin goed. Dat betekent dat ondanks veranderingen die de komende jaren ongetwijfeld zullen gaan plaatsvinden in een formaat als PDF/A, er geen reden is om de bestanden die in een oudere versie van dit bestandsformaat zijn opgeslagen te migreren naar een nieuwere versie. 14

16 4. Geselecteerde bestandsformaten voor opslag in het SAA E-depot Op basis van de bovenstaande beoordeling en overwegingen zijn de volgende bestandsformaten geselecteerd voor opname in het SAA E-depot: 4.1 Digitaal geboren tekstdocumenten PDF/A-1a of 1b 11 PDF 1.7 (en eerder versies) Het reguliere PDF formaat (versie 1.7 en eerder) dient alleen te worden gebruikt wanneer in het PDF/A-1 bestand essentiële informatie uit het brondocument onvoldoende kan worden weergegeven. Zie voor de beperkingen van PDF/A-1 de onderstaande beschrijving. 4.2 Gedigitaliseerde tekstdocumenten Opslag in PDF schil: PDF/A-1b Opslag als losse afbeeldingen (geen volgorde van voorkeur) TIFF 6.0 uncompressed TIFF 6.0 Group 4 JPEG 2000 part 1 lossless of lossy JPEG 1.02 (is lossy) De beperkingen van het PDF/A bestand zullen voor gedigitaliseerde documenten geen problemen opleveren. Het reguliere PDF bestand wordt daarom voor digitaliseerde documenten afgeraden. 11 Zie voor het verschil tussen PDF/A-1a en 1b onderstaande paragraaf

17 5. Beschrijving geselecteerde bestanden In het onderstaande overzicht worden de geselecteerde bestanden beschreven op basis van duurzaamheid en functionaliteit. 5.1 Digitaal geboren tekstdocumenten PDF/A-1 Naam Versie en standaardisering Omschrijving Functionaliteit (PDF/A-1) Portable File Format for Archiving Subset van het reguliere PDF formaat. Gebaseerd op PDF 1.4 en PDF/X-3. ISO norm :2005. Een nieuwe versie is in de maak PDF/A-2 (ISO ). 12 Bestandsformaat ontworpen voor langetermijnarchivering van elektronische tekstdocumenten, inclusief raster, vector en andere data. In tegenstelling tot het reguliere PDF formaat kent PDF/A-1 een aantal restricties waardoor het formaat minder complex wordt en zodoende eenvoudiger te bewaren. Doel van PDF/A-1 is: Onafhankelijk zijn van hard- en software (kan onafhankelijk van hard- of softwareplatform betrouwbaar en consistent worden weergegeven) Self-contained zijn (bevat alle bronnen, met name fonts, om betrouwbare weergave mogelijk te maken) Zelfbeschrijvend zijn (bevat eigen beschrijving) Er zijn twee conformance levels mogelijk: 1. PDF/A-1a: Voldoet aan volledige eisen van de standaard. De tekst is naast correcte weergave ook doorzoekbaar (tekst is gecodeerd als Unicode). De logische structuur (koppen, paragrafen etc) van tekst zijn bewaard. Ook wel tagged PDF. 2. PDF/A-1b: Voldoet aan minimale eisen van de standaard. Tekst (en andere content) worden correct weergegeven maar de tekst is soms niet doorzoekbaar. Dit formaat wordt gebruikt voor gescande documenten of elektronisch geboren tekst (zonder structuurelementen, tekst die is opgemaakt in oudere software of waar onbekende fonts zijn gebruikt). Wanneer PDF/A via een printer driver tool wordt gegenereerd is deze altijd PDF/A-1b. Restricties functionaliteit PDF/A-1 ten opzichte van het normale PDF formaat: Geen multimedia (audio, video, 3D) Geen ingebedde bestanden 13 Geen transparantie of lagen Beperkte kleurenruimtes 14 Geen beveiliging en encryptie Geen externe referenties naar benodigde viewersoftware of fonts Fonts moeten zijn ingebed Geen Javascript Geen interactiviteit (bijvoorbeeld Form Fields ) Hyperlinks wel opgeslagen maar niet aanklikbaar Metadata gebaseerd op Adobe XMP Geen LZW en JPEG 2000 compressie Voor wel aanwezige functionaliteit, exclusief bovenstaande uitsluitingen, zie onderstaande PDF beschrijving. Zie PDF/A-1 tabel onder gedigitaliseerde originelen voor mogelijkheden compressie. 12 PDF/A-2 zal worden gebaseerd op PDF versie 1.6. Een ISO normering wordt verwacht in Nieuw daarin is o.a: JPEG 2000, PDF layers, verbeterde tagging, een nieuw Level U conformance (ergens tussen 1a en 1b in - zie: lezing Leonard Rosenthol, PDF/A: IS (PDF/A-2), Congresbundel First International PDF/A Conference 2008) p In een reguliere PDF kunnen bestanden van geheel andere aard (bijvoorbeeld spreadsheets) worden ingebed. Dit is voor de lange termijn houdbaarheid van een bestand natuurlijk uiterst problematisch. 16

18 Documentatie Formaat beschrijving op de website van de Library of Congress: Sustainability of Digital Formats Planning for Library of Congress Collections (voortaan: LOC): Adobe: ISO: PDF/A Competence Centre Belangrijkste bezwaren voor langetermijnarchivering Voorkeur SAA Geen PDF/A-1 heeft sterk de voorkeur boven het reguliere PDF formaat. Aanbevolen wordt het reguliere PDF bestand alleen te gebruiken als de functionaliteit van PDF/A-1 tekort schiet. Voor documenten die direct in ODF zijn opgemaakt heeft ODF als archiefformaat de voorkeur PDF Naam Versie en standaardisering Omschrijving Gebruik Functionaliteit Documentatie Belangrijkste bezwaren voor langetermijnarchi vering (PDF) Portable File Format PDF 1.7 is de laatste versie en is sinds begin 2008 een open formaat: ISO Oudere versies zijn de facto standaarden die zijn gepubliceerd door Adobe. Versie 1.0 stamt uit Bestandsformaat ontworpen voor elektronische distributie van documenten in hun definitieve staat. PDF is ontwikkeld door Adobe Systems Incorporated. Door Adobe omschreven als een general document representation language. Voor gebruik van gestructureerde tekst, al dan niet voorzien van afbeeldingen, audio-visuele en 3D content. Mogelijkheden naast tekst onder andere: Multimedia (audio, video, 3D, CAD) Metadata (XML, XMP standaard) Bookmarks en annotaties Interactieve formulieren ( Form Fields ) Mogelijkheid transparantie en lagen (bijvoorbeeld voor verschillende vertalingen van een document) Beveiliging (eventueel wachtwoord, kopieer- of printbeveiliging) en authenticatie Mogelijkheid tot plaatsen van een digitale handtekening Mogelijkheid tot opname van andere (ook niet-pdf) bestanden in een PDF file LOC: Adobe: ISO: er=51502 Complexiteit formaat - door vele gebruiksmogelijkheden is hoog (dit is belangrijkste reden voor de creatie van PDF/A-1) Beveiligingsmogelijkheden Voorkeur SAA Wanneer er geen sprake is van functionaliteit die niet in PDF/A-1 wordt ondersteund (zie restricties PDF/A-1 in het onderstaande), heeft migratie naar PDF/A-1 sterk de voorkeur. 14 Zie voor een overzicht van toegestane kleurenruimtes op de PDF/A competence center website: 17

19 5.2 Gedigitaliseerde tekstdocumenten PDF/A-1 Zie bovenstaande omschrijving. Onderstaande tabel is een aanvulling op de functionaliteit specifiek voor gedigitaliseerde tekst. Naam (PDF) Portable File Format Functionaliteit Doorzoekbare OCR tekst (als hidden text layer ) Compressiemogelijkheden o Voor kleur en grijswaardenafbeeldingen: JPEG (hoeveelheid compressie instelbaar) MRC (Mixed Raster Content, ISO 16485) met JPEG compressie ZIP o Voor bitonale afbeeldingen: CITT Group 3 en 4 JBIG2 lossy of lossless ZIP Mogelijkheid tot downsampling op verschillende manieren. Compressie en downsampling zijn ook uit te schakelen. Documentatie Adobe documentatie betreft compressie en downsampling: 5A4C-42a8-90E1-FD4E912A9BFD.html Belangrijkste bezwaren voor Het opnemen van digitale afbeeldingen in een PDF bestand voegt een extra laag van complexiteit aan het bestand toe. langetermijnarchi vering Het opnemen van digitale afbeeldingen in een PDF bestand kan een PDF bestand soms zwaar maken. Voorkeur SAA Compressie: LZW compressie wordt sterk afgeraden (in verband met onduidelijkheid omtrent patenten) CITT Group 3 compressie is verouderd en wordt daarom afgeraden De efficiëntere JBIG2 compressie wordt aanbevolen boven CITT Group 4 compressie JPEG 2000 Naam JPEG (Joint Photographic Experts Group) 2000 Versie en JPEG 2000 is een ISO standaard: ISO :2004. Dit is de tweede versie standaardisering van Part 1 (de eerste versie stamt uit 2000). JPEG 2000 bestaat uit 13 andere delen (voor onder andere bewegend beeld) die, behalve de laatste twee, allemaal ISO zijn genormeerd. 15 Van belang voor stilstaand rasterbeeld is Part 1 ISO (bevat de basisfunctionaliteit van JPEG 2000, extensie.jp2), Part 2 ISO (bevat uitgebreide functionaliteiten op Part 1, extensie.jpx) en Part 6 ISO (voor documenten, gebruikt MRC compressie, extensie.jpm). Omschrijving JPEG 2000 is een bestandsformaat voor rasterbeeld en bewegend beeld (Part 3). Het formaat is ontwikkeld door de Joint Photographic Experts Group met als doel een open en veelzijdig compressie formaat te creëren. JPEG 2000 is bedoeld als opvolger van het JPEG/JFIF formaat. JPEG 2000 Part 1 is vrij van royalty en licentiekosten, echter niet geheel vrij van patenten. 15 Deel 13 en 14 zijn zeer recente aanvullingen (zo recent dat ze niet worden genoemd op de jpeg.org website). Met name deel 14 is veelbelovend: dit behandelt de XML representatie van het JPEG 2000 formaat (jpxml). Dit is natuurlijk een interessante ontwikkeling in het kader van langetermijnarchivering. 18

20 Functionaliteit Geschikt voor grijswaarden, kleuren en bitonale beelden 16 Lossless en variabele lossy compressie is mogelijk Verbeterde lossy (wavelet) compressie ten opzichte van het JPEG formaat) Uitgebreide mogelijkheden voor metadata Multiresolutie mogelijkheden 17 Part 6 biedt ook de mogelijkheid van het opnemen van meerdere pagina s (zoals PDF). Documentatie JPEG 2000 homepage: LOC JPEG 2000 Part 1: LOC JPEG 2000 Part 2: LOC JPEG 2000 Part 6: ISO: csnumber=37674 Belangrijkste Geringe adoptie, zowel wereldwijd als in erfgoedkring bezwaren voor langetermijnarchivering Voorkeur SAA Alleen het gebruik van JPEG 2000 Part 1 wordt op dit moment aangeraden. JPEG 2000 Part 2 en Part 6 wordt op dit moment niet aangeraden door de onduidelijkheden omtrent patenten TIFF 6.0 Naam TIFF (Tagged Image File Format) 6.0 Versie en Het baseline TIFF 6.0 stamt uit 1992 (de oudste versie stamt uit 1986). Versie standaardisering 6.0 kent meerdere extensies: TIFF/EP (2001), TIFF/IT (2004), DNG (2005) and EXIF. Baseline TIFF 6.0 is geen ISO norm maar is wel een de facto standaard, Omschrijving gepubliceerd door Adobe. Het idee achter TIFF was een file formaat te creëren voor het uitwisselen van rasterbeelden. Het formaat is zo opgezet (de basis zijn tags) dat het eenvoudig kan worden uitgebreid (de extensies) voor verschillende doeleinden. Het grote nadeel van deze opzet is dat de gebruikte extensies niet altijd worden ondersteund. Functionaliteit Geschikt voor grijswaarden, kleuren en bitonale beelden Is zowel ongecomprimeerd als met lossless (LZW, ZIP en Group 4 compressie) en lossy (JPEG) compressie op te slaan Uitgebreide metadata mogelijkheden, waaronder EXIF Multiresolutie mogelijkheden (Image Pyramid) 18 Multi-page mogelijkheid 19 Documentatie TIFF 6.0 specifications: LOC TIFF: 16 Het is niet duidelijk of bitonale beelden alleen worden ondersteund in Part 2. Voor bitonale beelden ligt TIFF Group 4 of PDF JBIF2 ook meer voor de hand. 17 Multiresolutie houdt in dat in een afbeelding meerdere resoluties zijn opgeslagen. In de praktijk betekent het dat als eerste een lage resolutie afbeelding zal worden getoond, waarna de hogere resoluties volgen. Ook zijn er mogelijkheden het beeld op te bouwen vanuit kwaliteit, kleur en positie. Zie voor meer informatie Gillesse en Rog, Alternative File Formats p 16, Deze optie wordt nauwelijks gebruikt en ondersteund en wordt dus afgeraden. Een alternatief is JPEG Ook deze optie wordt weinig gebruikt en ondersteund en dus afgeraden. Een beter alternatief is PDF(/A). 19

Aanbevelingen migratie van tekstdocumenten naar PDF/A ten behoeve concern Amsterdam

Aanbevelingen migratie van tekstdocumenten naar PDF/A ten behoeve concern Amsterdam Aanbevelingen migratie van tekstdocumenten naar PDF/A ten behoeve concern Amsterdam Datum: 8 december 2008 Versie: 0.2 Status: Concept Inhoudsopgave Inhoudsopgave...1 Versiegeschiedenis...2 Inleiding...3

Nadere informatie

Aanbevelingen voor digitalisering van tekstdocumenten ten behoeve van het concern Amsterdam

Aanbevelingen voor digitalisering van tekstdocumenten ten behoeve van het concern Amsterdam Aanbevelingen voor digitalisering van tekstdocumenten ten behoeve van het concern Amsterdam Datum: 26 maart 2009 Versie: 0.5 Status: Concept Inhoudsopgave Inhoudsopgave...1 Versiegeschiedenis...3 Managementsamenvatting...4

Nadere informatie

Van digitale vluchtigheid naar digitaal houvast. Bewaren van e-mail

Van digitale vluchtigheid naar digitaal houvast. Bewaren van e-mail Van digitale vluchtigheid naar digitaal houvast Bewaren van e-mail Testbed Digitale Bewaring is een initiatief van de Rijksarchiefdienst en het Ministerie van Binnenlandse Zaken en Koninkrijksrelaties.

Nadere informatie

Preserveringsplan. MS Word 97-2003 tekstdocumenten

Preserveringsplan. MS Word 97-2003 tekstdocumenten Preserveringsplan MS Word 97-2003 tekstdocumenten Identificatie Code: [Id P-plan] Name: MS Word 97-2003 tekstdocumenten Auteur: Jacob Takema Organisatie: Gemeentearchief Rotterdam Datum: 25-12-2010 Versie:

Nadere informatie

Handreiking Multimediaformaten. Naar optimale toegang van audio, video en afbeeldingen

Handreiking Multimediaformaten. Naar optimale toegang van audio, video en afbeeldingen Handreiking Multimediaformaten Naar optimale toegang van audio, video en afbeeldingen Inhoudsopgave Voorwoord 1. Introductie 2. Wat zijn multimediaformaten? 3. Hoe kies je een geschikt multimediaformaat?

Nadere informatie

Handreiking open documentstandaarden voor de overheid

Handreiking open documentstandaarden voor de overheid Handreiking open documentstandaarden voor de overheid NOiV is een programma van Forum Standaardisatie Voorwoord De vanzelfsprekendheid waarmee we een vrijwel onophoudelijke stroom documenten vanaf onze

Nadere informatie

Handreiking open documentstandaarden voor de overheid

Handreiking open documentstandaarden voor de overheid Handreiking open documentstandaarden voor de overheid Voorwoord De vanzelfsprekendheid waarmee we een vrijwel onophoudelijke stroom documenten vanaf onze computers digitaal de wereld inschieten, heeft

Nadere informatie

Elektronische publicaties en gedigitaliseerd erfgoed in de Koninklijke Bibliotheek van België

Elektronische publicaties en gedigitaliseerd erfgoed in de Koninklijke Bibliotheek van België Elektronische publicaties en gedigitaliseerd erfgoed in de Koninklijke Bibliotheek van België een bijdrage aan de European Digital Library student: Pierre Leonavicius promotor: Guido Goedemé presentatie

Nadere informatie

Handreiking open documentstandaarden voor de overheid

Handreiking open documentstandaarden voor de overheid Handreiking open documentstandaarden voor de overheid Voorwoord De vanzelfsprekendheid waarmee we een vrijwel onophoudelijke stroom documenten vanaf onze computers digitaal de wereld inschieten, heeft

Nadere informatie

Beleidsplan Open Standaarden en Open Source Software

Beleidsplan Open Standaarden en Open Source Software Beleidsplan Open Standaarden en Open Source Software Inhoudsopgave 1. Inleiding... 3 2. Open standaarden, open source software en ODF... 4 2.1. Doel... 4 2.2. Open source software... 4 2.3. Open standaarden...

Nadere informatie

TOELICHTING. Algemeen. 1. Inleiding. 2. Evaluatie van de regelingen

TOELICHTING. Algemeen. 1. Inleiding. 2. Evaluatie van de regelingen TOELICHTING Algemeen 1. Inleiding Ingevolge artikel 21, eerste lid, van de Archiefwet 1995 worden bij of krachtens algemene maatregel van bestuur regels gesteld met betrekking tot de duurzaamheid van door

Nadere informatie

Documentstandaarden binnen de overheid

Documentstandaarden binnen de overheid Documentstandaarden binnen de overheid P D F e n O D F t o e g e l i c h t Inhoud 2-3 Inleiding 7 Open standaarden en open source 9 Open standaarden voor documenten: PDF en ODF 15 Overheden en open documentstandaarden

Nadere informatie

Instituut voor Media en Informatie Management. Open Standaarden en Open Source Software in de archiefwereld

Instituut voor Media en Informatie Management. Open Standaarden en Open Source Software in de archiefwereld Instituut voor Media en Informatie Management Archieven open u! Open Standaarden en Open Source Software in de archiefwereld Afstudeerscriptie Informatie en Media / Archivistiek-B Hade Mugie Praktijkbegeleider:

Nadere informatie

Rapport. Onderzoek naar een Geoinformatie Intranetsite voor de Provincie Limburg

Rapport. Onderzoek naar een Geoinformatie Intranetsite voor de Provincie Limburg Rapport Onderzoek naar een Geoinformatie Intranetsite voor de Provincie Limburg Drs. B.J. Köbben & Prof. Dr. M J. Kraak Februari 1999 INHOUD 1 SAMENVATTING 3 2 INLEIDING 4 2.1 Het onderzoek 4 2.2 Begripsbepaling

Nadere informatie

E D 3. Eisen Duurzaam Digitaal Depot. toetsingskader voor de beheersomgeving van blijvend te bewaren digitale informatie. Versie 1

E D 3. Eisen Duurzaam Digitaal Depot. toetsingskader voor de beheersomgeving van blijvend te bewaren digitale informatie. Versie 1 E D 3 Eisen Duurzaam Digitaal Depot toetsingskader voor de beheersomgeving van blijvend te bewaren digitale informatie Versie 1 Landelijk Overleg Provinciale Archief Inspecteurs mei 2008 foto omslag: Koninklijke

Nadere informatie

Standaarden voor digitale archiefdocumenten

Standaarden voor digitale archiefdocumenten Standaarden voor digitale archiefdocumenten Filip Boudrez Expertisecentrum DAVID Antwerpen, 2005 0. INHOUDSOPGAVE 1. BELANG VAN STANDAARDEN VOOR DIGITALE ARCHIVERING... 1 2. HIËRARCHIE VAN DE ARCHIVERINGSSTANDAARDEN...

Nadere informatie

Handboek digitaliseren van documenten Technische aspecten en kwaliteitseisen

Handboek digitaliseren van documenten Technische aspecten en kwaliteitseisen Handboek digitaliseren van documenten Technische aspecten en kwaliteitseisen Jeroen Poppe FARO. Vlaams steunpunt voor cultureel erfgoed vzw September 2011 Versie 1.0 Colofon Auteur Jeroen Poppe Tekstredactie

Nadere informatie

Advies Regeling geordende en toegankelijke staat archiefbescheiden (Regeling 12)

Advies Regeling geordende en toegankelijke staat archiefbescheiden (Regeling 12) Advies Regeling geordende en toegankelijke staat archiefbescheiden (Regeling 12), december 2006 Advies Regeling geordende en toegankelijke staat archiefbescheiden (Regeling 12) Dit rapport is gepubliceerd

Nadere informatie

De kosten van duurzame digitale toegankelijkheid. Een scriptie over besparen op de kosten van het permanent bewaren van digitaal archief

De kosten van duurzame digitale toegankelijkheid. Een scriptie over besparen op de kosten van het permanent bewaren van digitaal archief De kosten van duurzame digitale toegankelijkheid Een scriptie over besparen op de kosten van het permanent bewaren van digitaal archief Thijs Hessling Amsterdam, april 2010 2 Hogeschool van Amsterdam,

Nadere informatie

Rapport vooronderzoek digitale bestemmingsplannen en archivering

Rapport vooronderzoek digitale bestemmingsplannen en archivering Rapport vooronderzoek digitale bestemmingsplannen en archivering Gemeentearchief Amsterdam In opdracht van het ministerie van Onderwijs, Cultuur en Wetenschappen, Begeleidingsgroep Convenant Archieven

Nadere informatie

De bouwstenen van de digitale bibliotheek

De bouwstenen van de digitale bibliotheek De bouwstenen van de digitale bibliotheek DEN Marco de Niet Dit artikel is geschreven door Marco de Niet en gepubliceerd in De Digitale Bibliotheek. Red. Bart van der Meij en Kees Westerkamp. Rotterdam,

Nadere informatie

OPEN STANDAARDEN EN OPEN SOURCE. Onderzoek ter ondersteuning van gewenste beleidsintensivering

OPEN STANDAARDEN EN OPEN SOURCE. Onderzoek ter ondersteuning van gewenste beleidsintensivering OPEN STANDAARDEN EN OPEN SOURCE Onderzoek ter ondersteuning van gewenste beleidsintensivering OPEN STANDAARDEN EN OPEN SOURCE Onderzoek ter ondersteuning van gewenste beleidsintensivering René van den

Nadere informatie

Toevoegingen bij Cultureel erfgoed digitaal; leidraad bij projecten

Toevoegingen bij Cultureel erfgoed digitaal; leidraad bij projecten Naar inhoud Leidraad Toevoegingen bij Cultureel erfgoed digitaal; leidraad bij projecten Welkom op de website die behoort bij de publicatie Cultureel erfgoed digitaal; leidraad bij projecten. Met deze

Nadere informatie

Software Archivering met Emulatie. Michiel van Dam - 1224239 Jeff van Egmond - 1308041 4 augustus 2010

Software Archivering met Emulatie. Michiel van Dam - 1224239 Jeff van Egmond - 1308041 4 augustus 2010 Software Archivering met Emulatie Michiel van Dam - 1224239 Jeff van Egmond - 1308041 4 augustus 2010 Executive Summary Veel culturele en onderzoeksdata wordt tegenwoordig gearchiveerd. Bij zo n archief

Nadere informatie

Handboek digitale vervanging archiefbescheiden Gemeente Hof van Twente

Handboek digitale vervanging archiefbescheiden Gemeente Hof van Twente Handboek digitale vervanging archiefbescheiden Gemeente Hof van Twente Versie/registratienr. Omschrijving Opsteller Datum B&W besluit Datum inwerkingtreding Versie 1.0 TESZ 43439 Definitief E. Wolthuis-Krooshoop

Nadere informatie

Bart De Nil & Jeroen Walterus (red.)

Bart De Nil & Jeroen Walterus (red.) Erfgoed 2.0 Nieuwe perspectieven voor digitaal erfgoed Bart De Nil & Jeroen Walterus (red.) pharo Publishing Erfgoed 2.0 Nieuwe perspectieven voor digitaal erfgoed 2009 FARO. Vlaams steunpunt voor cultureel

Nadere informatie

DIGITALISERINGSPLAN NOORD-HOLLANDS ARCHIEF. 2008 tot en met 2010

DIGITALISERINGSPLAN NOORD-HOLLANDS ARCHIEF. 2008 tot en met 2010 DIGITALISERINGSPLAN NOORD-HOLLANDS ARCHIEF 2008 tot en met 2010 Auteur: Marianne Weits Versie 1.1 26 mei 2008 INHOUDSOPGAVE 1. Inleiding... 3 1.1 Waarom digitaliseert het Noord-Hollands Archief?... 3 1.2

Nadere informatie

Op zoek naar Vaste Waarden Vooronderzoek Digitale Archivering aan het Vlaams Parlement, 2005-2006

Op zoek naar Vaste Waarden Vooronderzoek Digitale Archivering aan het Vlaams Parlement, 2005-2006 Op zoek naar Vaste Waarden Vooronderzoek Digitale Archivering aan het Vlaams Parlement, 2005-2006 digitaal: een reeks gehele getallen voorgesteld als vaste waarden analoog: werken met waarden in een continuüm

Nadere informatie

Best practice Waboscanafspraken in Overijssel

Best practice Waboscanafspraken in Overijssel Best practice Waboscanafspraken in Overijssel 1 juli 2010 Best practice Wabo-scanafspraken in Overijssel Een handreiking bij scanning 1 juli 2010 Colofon Datum 1 juli 2010 Auteur Eindredactie: J.J. Duivenvoorden,

Nadere informatie

Forum Standaardisatie. Expertadvies XForms. Datum 3 april 2014

Forum Standaardisatie. Expertadvies XForms. Datum 3 april 2014 Forum Standaardisatie Expertadvies XForms Datum 3 april 2014 Colofon Projectnaam Expertadvies XForms Versienummer 1.0 Locatie Organisatie Forum Standaardisatie Postbus 96810 2509 JE Den Haag forumstandaardisatie@logius.nl

Nadere informatie