Richtlijn Bestandsformaten voor digitaal geboren en gedigitaliseerde tekstdocumenten ten behoeve van het concern Amsterdam



Vergelijkbare documenten
Aanbevelingen migratie van tekstdocumenten naar PDF/A ten behoeve concern Amsterdam

A. Wat zijn digitale afbeeldingen? B. Bitonaal, grijswaarden of kleur en de bitdiepte C. Resolutie, bestandsgrootte, compressie en bestandsformaten

Bijlage III. Generiek scanprotocol gemeente Nijmegen - backlog

Introduktie op PDF/A-2

Notitie College Standaardisatie CS B. Agendapunt: 06 Standaarden open Bijlagen: Rapport Expertgroep PDF v1.7 Aan: College Standaardisatie Van:

Over Bits Pixels Dpi & Extensies

EXPERTADVIES NEN-ISO :2005 (PDF/A-1) Forum Standaardisatie

Basisbegrippen i.v.m. kleur op beeldschermen, afbeeldingsformaten en resoluties

Helemaal Digitaal. Tips voor een beter beheer van je digitaal archief

Bewaar als... Digitaal archiveren. Digitaal archiveren is niet hetzelfde als het maken van een back-up! Vuistregels digitaal archiveren

Bijlage 1. Generiek scanprotocol

Archiveren met PDF/A (een introductie)

Opname PDF/A-2 op de lijst voor pas toe of leg uit. Datum: 23 mei 2012 Versie 1.0

PDF-standaarden in een handomdraai

Testplan KB en migratie

Rondreis door de PDFgeschiedenis,

PDF-standaarden in een handomdraai

Handreiking vervanging archiefbescheiden ELV EO B.V. W W W.ELV EO.N L OOST ER EO.N L

Digitale Fotografie. 1 Bestandstypes

Is kwaliteitsverlies van kleurenscans door JPEG-compressie acceptabel in vergelijking tot het alternatief: verliesvrij comprimeren van grijswaarden?

Foto s en Videobewerking

Ten minste houdbaar tot: zie deksel depot. Justitiële Informatiedienst Emile de Maat

De mogelijkheden van XML voor de langdurige bewaring van digitale documenten. DAVID studiedag 30 nov 2000

Een PDF rondreis. Didier Haazen Juni

Belang. Voordelen. Parameters en opties. Wrappers en codecs

De mogelijkheden van Adobe Acrobat 8 voor het maken van toegankelijke PDF documenten

Standaard Duurzame Bestandsformaten

Presentatie Digitaal Materiaal

Opslaan van afbeeldingen als JPG

digitaliseren Archiveren kan je leren, les 4 Sint-Niklaas, 29 november 2008 Willem Vanneste

NORMEN VOOR EDEPOTS DUURZAME BEWARING IS VOOR EDEPOTS GROEIMODEL NAAR EEN OAIS BLUE BOOK. Archiverings- en raadplegingsformaten


Het actieplan en uw website. Mr Mathieu Paapst (juridisch adviseur)

Nederlands WMS - SLD Profiel. Versie 1.0

Hoe selecteer je preserveringstools? Sara van Bussel. Koninklijke Bibliotheek

De onderwerpen die voor deze avond zijn aangedragen! Maskers maken. Workflow Lightroom en Photoshop. Verschil tussen werken in RGB en srgb

WORKSHOP: HOE BEWAAR JE FOTO EN VIDEO VOOR HET NAGESLACHT? Joris Janssens en Henk Vanstappen

Aanbevelingen voor digitalisering van tekstdocumenten ten behoeve van het concern Amsterdam

PDF-WORKFLOW. Hogeschool Gent 2e kan grafische en reclame vormgeving Departement KASK academiejaar

Regionaal Archief Nijmegen (RAN)

Forum Standaardisatie. Expertadvies: Vervanging MD5 door SHA 2 op lijst met gangbare standaarden. Datum 5 augustus 2010

Op weg naar duurzame archivering

Samenwerken aan PDF documenten

Open voorkeur in de ICT inkoop en aanbestedingsstrategie. Mr Mathieu Paapst (juridisch adviseur)

UITVOERINGSHANDBOEK DIGITALE VERVANGING GEMEENTE ECHT- SUSTEREN

C M Y K C M Y K

Het digitaal samenstellen en uniformeren van projectdocumentatie.

Digitaal Depot Nationaal Archief

Acrobat PDF Software. Installeren van Acrobat. Adobe PDF driver Voorkeuren 1. Voorkeuren 2. Adobe PDF driver. Voorkeuren 3.

Beveiligen van PDF documenten (deel 1)

HTML. Media. Hans Roeyen V 3.0

Functionele beschrijving: scannen naar Exact Globe.

Tags. Praktische toepassing van TIFF tags. 4 TIFF Revision 6.0, Adobe, 1992, p TIFF Revision 6.0, Adobe, 1992, p

emaxx Systeem eisen ManagementPortaal voor de ZakenMagazijn database

WORKSHOP DIGITALE FORMATEN RENÉ DUURSMA

Foto: THE Holy Hand Grenade! CC BY-SA 2.0

Succes story. Koninklijke Zeelandia Groep BV. ECMsolutions. Zeelandia en OpenText Alchemy: Het recept voor succes.

PDF Workshop Toledo PDF Acrobat software

Functionele beschrijving: scannen naar van Brug software.

5,7. Samenvatting door een scholier 903 woorden 28 september keer beoordeeld. Informatica. Samenvatting Informatica Hoofdstuk 2

PDF-standaard. Versie SIVI

De werkelijke namen en beschikbaarheid van menuopdrachten kunnen per mobiel platform verschillen. De stappen kunnen ook verschillen.

Toegankelijkheid documenten

Origineel bestandsform aat DWG als archiveringsfo rmaat

Concept. Inleiding. Advies. Agendapunt: 04 Bijlagen: - College Standaardisatie

AANLEVEREN DIGITAAL MATERIAAL

Foxit Phantom PDF Suite

Functionele beschrijving: Scannen naar AFAS Profit.

Catalogger 9.0 features

VNFE Digitale Workshop. Voorjaar 2006

Digitaliseren in de heemkundige kring

OSOSS NOiV. Nederland Open in Verbinding met ODF. ODF Workshop Decentrale Overheden Utrecht, 14 mei 2008 Fabrice Mous

HET WETTELIJK DEPOT VAN NUMERIEKE

SIMPLIFYSCAN. A sharp choice in intelligent scanning

Forum Standaardisatie. Expertadvies PDF/A-2. Datum 13 februari 2012

esigning: snel en eenvoudig elektronisch ondertekenen

Toepassingsprofiel Berichtenmodel Omgevingsdocumenten

Technisch Ontwerp W e b s i t e W O S I

PDF Workshop Toledo PDF Acrobat software

Opname EPUB 3.0 op de lijst voor pas toe of leg. Stuurgroep Standaardisatie Datum: 3 april 2014 Versie 1.0

Digitaal archiveren. overzicht. digitaal archiveren: WAT?

NATIONALE COALITIE DIGITALE DUURZAAMHEID BEGINSELVERKLARING. CONCEPT 4 juni 2007 DE UITDAGING

Aanpassing functioneel toepassingsgebieden document- en (web)content-standaarden

Functionele beschrijving: scannen naar Trivium FORTUNA.

Fleet Pack Scan2FleetPack

Tools voor canonieke datamodellering Bert Dingemans

Functionele beschrijving: scannen naar UNIT4 DocumentManager

1 Inleiding. 1.1 Doel. 1.2 Gerelateerde documenten. 1.3 Documenten historie

Posters maken in PowerPoint

Adobe s positionering op document beveiliging

Welkom op het online Adobe Acrobat 8 Overheids seminar Adobe Systems Incorporated. All Rights Reserved.

Digitaal archiveren. Timo van Houdt werkgroep Archieven

Snel en efficiënt informatie archiveren en delen met anderen

Bestandsformaten in de digitale fotografie: RAW of JPeg

Workflow Verrijkte Documenten

Preservation metadata voor AV-collecties: De uitdagingen

Research & development

HOOFDSTUK 3: Afbeeldingen

Hoofdstuk 12: Afdrukken en andere output

18. Oefening: baksteen tekenen

Transcriptie:

Richtlijn Bestandsformaten voor digitaal geboren en gedigitaliseerde tekstdocumenten ten behoeve van het concern Amsterdam Datum: 24 november 2008 Versie: 0.9 Status: geredigeerd concept

Inhoudsopgave Inhoudsopgave...1 Versiegeschiedenis...2 Management samenvatting...3 Inleiding...4 Doel en scope van dit document...4 Opzet van dit document...4 Doelgroep...4 Herzienstermijn van dit document...4 Vervolgonderzoek...4 1. Afbakening...5 1.1 Uitsluiting documenttypen...5 1.2 Digitale tekstdocumenten...5 1.3 Wettelijk kader...5 1.4 Actieplan Nederland Open in Verbinding...5 1.5 Advies Testbed Digitale Bewaring Nationaal Archief...6 2. De selectie van te beoordelen bestandsformaten...7 2.1 Geselecteerde bestandsformaten...7 2.2 Toelichting...7 3. Beoordeling van bestandsformaten...9 3.1 Criteria voor lange termijn behoud en de File Format Assessment Method...9 3.2 Beoordeling van de bestandsformaten met behulp van de File Format Assessment Method...10 3.3 Overwegingen digitaal geboren tekstdocumenten...12 3.4 Overwegingen gedigitaliseerde tekstdocumenten...13 3.4.1 Bestandsformaten met compressie...13 3.5 Achterwaartse compatibiliteit...14 4. Geselecteerde bestandsformaten voor opslag in het SAA E-depot...15 4.1 Digitaal geboren tekstdocumenten...15 4.2 Gedigitaliseerde tekstdocumentenl...15 5. Beschrijving geselecteerde bestanden...16 5.1 Digitaal geboren tekstdocumenten...16 5.1.1 PDF/A-1...16 5.1.2 PDF...17 5.2 Gedigitaliseerde tekstdocumenten...18 5.2.1 PDF/A-1...18 5.2.2 JPEG 2000...18 5.2.3 TIFF 6.0...19 5.2.4 JPEG...20 6. Advies bestandsformaat per documentsoort...21 6.1 Digitaal geboren tekstdocumenten...21 6.2 Gedigitaliseerde tekstdocumenten...21 7. Literatuur- en internetbronnenlijst...23 8. Begrippenlijst...26 Bijlage 1 Wettelijk kader...30 1

Versiegeschiedenis Huidige versie 0.9 Versie Versie datum Belangrijkste wijzigingen 0.1 2008 Auteur: Robèrt Gillesse 0.7 10 oktober 2008 Bouwtekeningen vallen buiten scope Toevoegen versiegeschiedenis Toevoegen managementsamenvatting Toevoegen herzieningstermijn document Toevoegen vervolgonderzoek Toevoegen overwegingen selectie JPEG en JPEG 2000 lossy (paragraaf 3.4.1) Toevoegen paragraaf 3.5 Achterwaartse compatibiliteit Inperken begrippenlijst 0.8 1 november 2008 ODF afvoeren als archiefformaat Tekstuele verbeteringen 0.9 24 november 2008 Geredigeerd Migratieadvies van PDF naar PDF/A omgezet in het afraden van migratie van PDF naar PDF/A 2

Managementsamenvatting Dit document behelst een richtlijn van standaard bestandsformaten voor de langetermijnbewaring en toegankelijkheid van digitale tekstbestanden ten behoeve van het concern Amsterdam. Op basis van het wettelijk kader, het Actieplan Nederland Open in Verbinding, de publicaties van het Testbed Digitale Bewaring en literatuuronderzoek, is een selectie gemaakt van bestandsformaten die in aanmerking zouden kunnen komen voor de langetermijnarchivering van digitale tekstdocumenten. Daarbij is er een duidelijk onderscheid gemaakt tussen digitaal geboren en gedigitaliseerde tekstdocumenten. De geselecteerde bestandsformaten zijn vervolgens beoordeeld met de door de Koninklijke Bibliotheek ontwikkelde File Format Assessment Method. Met behulp van deze methode kunnen bestandsformaten worden beoordeeld op de geschiktheid voor langetermijnarchivering. Elk bestandsformaat krijg daarbij een score. Op basis van deze scores en nadere overwegingen zijn door het SAA de volgende bestandsformaten geselecteerd voor langetermijnarchivering: Digitaal geboren PDF/A-1a en 1b PDF 1.7 (en eerdere versies) Het reguliere PDF formaat (versie 1.7 en eerder) dient alleen te worden gebruikt wanneer in het PDF/A-1 bestand essentiële informatie uit het brondocument onvoldoende kan worden weergegeven. Tekstdocumenten gecreëerd in het MS Word formaat of andere tekstformaten moeten worden gemigreerd naar PDF/A-1. Gedigitaliseerd van origineel Opslag in PDF schil : PDF/A-1b Opslag als losse afbeeldingen (geen volgorde van voorkeur) TIFF 6.0 uncompressed TIFF 6.0 Group 4 JPEG 2000 part 1 lossless of lossy JPEG 1.02 (is lossy) Het SAA heeft geen voorkeur voor enerzijds de opslag van digitaliseerde documenten in een PDF schil en anderzijds als losse afbeeldingen. Beide methodes hebben voor- en nadelen (zie daarvoor paragraaf 3.4). Ook spreekt het SAA geen voorkeur uit voor ongecomprimeerde of gecomprimeerde opslag. In hoofdstuk 5 van deze richtlijn zijn deze bestandsformaten uitgebreid beschreven. In hoofdstuk 6 zijn er aanbevelingen gedaan voor bestandsformaten per digitaal geboren brondocument (MS Word, RTF, TXT, reguliere PDF). Ook is er een aanbeveling gedaan voor verschillende soorten gedigitaliseerde documenten. 3

Inleiding Doel en scope van dit document Dit document behelst een richtlijn van standaard bestandsformaten voor de langetermijnbewaring en toegankelijkheid van digitale tekstbestanden ten behoeve van het concern Amsterdam. Opzet van dit document Dit document kent de volgende opzet: 1. Afbakening: welke documenttypen worden wel en niet behandeld, het wettelijk kader, het Actieplan Nederland Open in Verbinding en het advies van het Testbed Digitale Bewaring (van het Nationaal Archief) 2. Selectie van bestandsformaten die in aanmerking komen voor langetermijnarchivering op basis van het bovengeschetste kader 3. Beoordeling van deze bestandsformaten met behulp van File Format Assessment Method (elk bestandsformaat krijgt een score die de geschiktheid voor langetermijnarchivering aangeeft) en overwegingen aangaande de scores 4. Definitieve lijst van de voor lange termijn geselecteerde bestandsformaten 5. Een korte en praktische beschrijving van de voor lange termijn geselecteerde formaten 6. Een advies welk bestandsformaat voor welke documentsoort te gebruiken 7. Een literatuur- en internetbronnenlijst 8. Een begrippenlijst waarin de belangrijkste begrippen worden gedefinieerd Doelgroep Managementniveau: informatiemanagers, hoofden DIV en/of hoofden I&A binnen het concern Amsterdam. Herzieningstermijn van dit document Gezien de snelle wijzigingen op technisch vlak en de nog vigerende situatie op wetgevend gebied, zal dit document op regelmatige basis moeten worden aangepast. De eerste update van dit document zal naar verwachting een half jaar na publicatie plaatsvinden (zomer 2009). Gerelateerde documenten Aanbevelingen migratie naar PDF/A ten behoeve van het concern Amsterdam Stadsarchief Amsterdam 2008 (concept). Aanbevelingen voor digitalisering van tekstdocumenten SAA ten behoeve van het concern Amsterdam Stadsarchief Amsterdam 2008 (concept). Stadsarchief Amsterdam. Standaard metadata voor digitaal informatiebeheer. Stadsarchief Amsterdam 2008. Vervolgonderzoek Op deze richtlijn zullen op korte termijn (begin 2009) twee publicaties volgen: Aanbevelingen voor digitalisering van tekstdocumenten Aanbevelingen voor migratie naar PDF/A 4

1. Afbakening 1.1 Uitsluiting documenttypen Deze richtlijn is gericht op bestandsformaten die geschikt zijn om digitale tekstdocumenten duurzaam toegankelijk te houden. Het gaat daarbij om documenten die zijn gecreëerd met tekstverwerkingssoftware. Buiten beschouwing gelaten zijn: Gedigitaliseerde foto s, schilderijen, prenten, 3D objecten, bouwtekeningen, bewegend beeld en geluid Digitaal geboren foto s, CAD/CAM bestanden, bewegend beeld en geluid, presentaties, rekenbladen (spreadsheets), databases en e-mail 1. Niet of ten dele kantoorgebonden tekstdocumenten als HTML en XML. Niet of nauwelijks gebruikte of sterk verouderde tekstverwerkingsbestanden. Deze documentsoorten zullen in volgende publicaties worden behandeld. 1.2 Digitale tekstdocumenten Digitale tekstdocumenten zijn er in twee varianten: 1. Tekst die digitaal is gecreëerd (digitaal geboren) in tekstverwerkingssoftware. 2. Tekst die is gedigitaliseerd van een papieren origineel. Dit kan door het document (fotografisch) om te zetten naar een digitaal rasterbeeld, of de tekst over te zetten (overtypen) naar een door een machine leesbare tekst. In het laatste geval zal de opmaak van het originele formaat (grotendeels) verloren gaan. In de archiefcontext zal daarom meestal worden gekozen voor het scannen van documenten, al dan niet in combinatie met optische tekenherkenning (OCR) en/of metadata-invoer. Deze richtlijn gaat daarom uit van gescande of digitaal gefotografeerde documenten. Deze richtlijn adviseert over beide soorten tekstdocumenten. 1.3 Wettelijk kader Het wettelijke kader wordt bepaald door drie documenten: 1. Artikel 6 van de ministeriële regeling Geordende en toegankelijke staat archiefbescheiden (2002). Deze regeling wordt momenteel herzien. 2. Artikel 25 van het concept van de nieuwe ministeriële regeling, gebaseerd op de evaluatiecommissie (augustus 2008) die de regeling uit 2002 heeft beoordeeld. 3. De LOPAI ED3 norm (mei 2008): Eisen Duurzaam Digitaal Depot. Zie bijlage 1 voor de complete tekst van de genoemde artikelen. 1.4 Actieplan Nederland Open in Verbinding Recente ontwikkelingen binnen de Nederlandse overheid en politiek zijn sterk gericht op het bereiken van interoperabiliteit binnen de ICT infrastructuur van de overheid door de toepassing van open standaarden (OS) en open source software (OSS). Het Actieplan en programmabureau Nederland Open in Verbinding (NOiV) van Economische Zaken uit september 2007 is daarvan het belangrijkste resultaat 2. 1 Een e-mail client genereert natuurlijk wel tekstdocumenten. Het probleem van binaire bijlagen (afbeeldingen, spreadsheets, MS Word documenten etc.) maakt echter verder onderzoek naar de lange termijnbewaring van e-mail noodzakelijk. 2 Het programma Nederland Open in Verbinding (NOiV) informeert overheidsorganisaties over de mogelijkheden van open standaarden (OS) en open source software (OSS) en stimuleert hen deze waar mogelijk toe te passen in hun informatiesystemen. NOiV is de opvolger van het programma OSSOS en wordt uitgevoerd door Stichting ICTU (http://www.ictu.nl) die ICT projecten van de overheid ondersteunt. Het College en Forum Standaardisatie (http://www.forumstandaardisatie.nl/) is een ander belangrijk adviesorgaan op het gebied van open standaarden. Dit is op zijn beurt onderdeel van GBO.Overheid (http://gbo.overheid.nl/), dat als doel heeft overheidbreed ICT toepassingen te beheren en verder te ontwikkelen. 5

Een belangrijk onderdeel van het actieplan is de invoering van ODF (Open Document Format) voor het lezen, schrijven en uitwisselen van documenten (actielijn 6) 3. Het ODF formaat bevat alle gangbare Office mogelijkheden: dus naast tekstverwerking (file extensie.odt) is zijn er ook mogelijkheden voor rekenbladen (.ods), tekenen (.odg) en presentaties (.odp) aanwezig. Naar aanleiding van het Actieplan is het Forum Standaardisatie gekomen met een basislijst van open standaarden. Daar is voor tekstdocumenten, naast ODF voor uitwisseling van reviseerbare documenten, PDF-A-1a geselecteerd als formaat voor langetermijnarchivering. De Amsterdamse vertaling van het Actieplan is te vinden in het project Open.Amsterdam 4. 1.5 Advies Testbed Digitale Bewaring Het Nationaal Archief (NA) heeft in 2003 de publicatie Testbed digitale bewaring, van vluchtigheid naar digitaal houvast, bewaren van tekstdocumenten uitgegeven. De hierin geschetste strategie voor langetermijnbehoud (langer dan 10 jaar), beschouwt migratie niet als een veilige methode. Migratie (in een of meerdere migratieslagen) zal over een dermate lange periode onherroepelijk leiden tot verlies aan informatie. Het gaat er dus om een bestandsformaat te kiezen dat de essentiële eigenschappen van een tekstdocument op de lange termijn kan representeren. Het NA adviseert, naast het bewaren van het originele document in de originele staat (dat zal meestal MS Word zijn), het document te bewaren in XML (structuur) en/of PDF (opmaak). XML wordt daarbij alleen aangeraden wanneer de documenten expliciet van opmaak en structuur zijn voorzien. 3 Ministerie van Economische Zaken Actielijn 6 ODF-invoering. Toelichting op het Actieplan Nederland Open in Verbinding http://www.ez.nl/onderwerpen/betrouwbare_telecom/open_standaarden_en_open_source_software/berichten_en_document en/actielijn_6_odf_invoering_toelichting_op_het_actieplan_nederland_open_in_verbinding 4 Project Open.Amsterdam: http://amsterdam.nl/gemeente/open_amsterdam 6

2. De selectie van te beoordelen bestandsformaten 2.1 Geselecteerde bestandsformaten Op basis van bovenstaande kaders en literatuuronderzoek heeft SAA de volgende bestandsformaten geselecteerd voor beoordeelding op geschiktheid voor duurzame opslag en toegankelijkheid: Digitaal geboren tekstdocumenten PDF 1.7 (ISO 32000) PDF/A-1 (ISO 19005) MS Word 97-2007 ODF (versies 1.0 ISO 26300:2006, 1.1, 1.2) Gedigitaliseerde tekstdocumenten PDF 1.7 (ISO 32000) PDF/A-1 (ISO 19005) Baseline TIFF 6.0 Uncompressed Baseline TIFF 6.0 met Group 4 Baseline TIFF 6.0 met LZW compressie Basic JFIF (JPEG) 1.02 PNG 1.2 (ISO 15948) JPEG 2000 part 1 (ISO 15444-1) JPEG 2000 part 6 (ISO 15444-6) 2.2 Toelichting Uit het wettelijk kader (ministeriële regeling 2002) is op te maken dat voor digitaal geboren tekstdocumenten PDF of XML kan worden gebruikt en voor gedigitaliseerd materiaal TIFF of PDF. Wanneer dit kader wordt vertaald naar 2008 ligt het gebruik van PDF/A-1 (de archiefvariant van PDF uit 2005) en ODF (open XML bestandsformaat voor office documenten uit 2006) voor de hand. Uit de conceptherziening van deze regeling (augustus 2008) kunnen de volgende eisen worden opgemaakt: -gedocumenteerd open formaat -verbod op encryptie -verantwoord toepassen van compressie (zonder informatieverlies). Er worden geen specifieke bestandsformaten meer voorgeschreven. Uit het Actieplan Nederland Open in Verbinding en de daarmee verbonden (conceptuele) basislijst van open standaarden van het Forum Standaardisatie, wordt ODF gezien als een bestandsformaat voor uitwisseling van reviseerbare documenten en PDF/A-1 als een formaat voor langetermijnarchivering. ODF wordt hierin dus niet gezien als een geschikt archiefformaat. De reden hiervoor is hoogstwaarschijnlijk dat dit bestand eenvoudig is te wijzigen en daarmee de authenticiteit van het document gevaar kan lopen. Echter, ook een PDF kan met enige moeite worden aangepast. Het is de vraag of de kwestie van authenticiteit op het niveau van het bestandsformaat moet worden gelegd. Een alternatief zou kunnen zijn om het advies van het Testbed digitale bewaring van het Nationaal Archief (uit 2003) toe passen: het bewaren van het bestand in XML en PDF (naast het originele formaat). Vertaald naar 2008 zou dat dan betekenen dat het bestand zowel in ODF als PDF/A-1 wordt bewaard. ODF zal daarom toch ook in de beoordeling voor langetermijnarchivering worden meegenomen. Wat in de basislijst van het Forum Standaardisatie ontbreekt, zijn de bestandsformaten voor gedigitaliseerde tekstdocumenten. Naast het voor de hand liggende PDF(/A) formaat, waarin de digitale afbeeldingen in het geval van gedigitaliseerde documenten op de juiste volgorde zijn opgenomen, kunnen gescande tekstdocumenten ook als losse rasterafbeeldingen worden opgeslagen. De documentstructuur wordt hierbij in de metadata 5 vastgelegd (dit gebeurt bijvoorbeeld 5 Eventuele standaarden die daarvoor gebruikt kunnen worden zijn MPEG21/DIDL en METS. 7

in de SAA Archiefbank). Het is daarom noodzakelijk dat ook de belangrijkste afbeeldingsformaten worden beoordeeld. De onderstaande selectie van bestanden is gemaakt op basis van de SAA publicatie M. Holtman e.a., Digitalisering ontrafeld en de KB publicatie R. Gillesse en J. Rog, Alternative File Formats for Storing Master Images of Digitisation Projects: TIFF uncompressed, TIFF LZW, TIFF Group 4, JPEG, JPEG 2000 part 1 (lossless en lossy) en part 6 en PNG. Uit de geraadpleegde literatuur en internetbronnen kunnen nog een aantal dingen worden opgemaakt: Een alternatief voor ODF is het Open Office XML (OOXML) van Microsoft dat in 2008, weliswaar na heftige strubbelingen, ISO is genormeerd (ISO 29500). Op moment van dit schrijven zijn de laatste protesten tegen de ISO normering verworpen en kan de standaard (meer dan 6000 pagina s!) binnenkort worden gepubliceerd. Rekening houdend met de nog omstreden status van OOXML (met name in het vrij gebruiken van patenten en de werkelijke openheid van het formaat) en het feit dat de norm nog niet is gepubliceerd (en het.docx formaat dat nu door Office 2007 wordt gebruikt nog niet voldoet aan de ISO norm) maken dat het formaat in deze beoordeling niet zal worden meegenomen. Ook een moeilijk geval is het Microsoft Office Word bestandsformaat. Voorheen was dit een gesloten formaat, en voldeed in die zin op geen enkele zin aan de wens van openheid, maar dit lijkt per februari 2008 verleden tijd. Vallend onder de Open Specification Promise van Microsoft zijn de specificaties van het MS Word bestandsformaat beschikbaar gekomen. 6 De precieze consequenties voor de langetermijnbewaring van deze nieuwe openheid zijn op dit moment lastig te overzien. Ook lijkt de Open Specification Promise van Microsoft in sommige kringen omstreden. Toch zal ondanks deze onduidelijkheid het MS Word formaat wel worden meegenomen in deze beoordeling. Een andere recente ontwikkeling die van belang is voor deze selectie is de ISO (ISO 32000) normering van het reguliere PDF 1.7 formaat (sinds februari 2008). Daarmee is ook het normale PDF formaat een open standaard geworden en zal het PDF 1.7 formaat dus ook worden beoordeeld. 6 IT bedrijven als SUN en IBM hebben ook Open Specification Promises uitgebracht. 8

3. Beoordeling van bestandsformaten 3.1 Criteria voor lange termijn behoud en de File Format Assessment Method Om bestandsformaten te kunnen beoordelen op hun geschiktheid voor langetermijnbehoud zijn er zeven, internationaal algemeen aanvaarde criteria ontwikkeld: 7 1. Openness 2. Adoption 3. Complexity 4. Technical Protection Mechanism 5. Self-documentation 6. Robustness 7. Dependencies Met behulp van de File Format Assessment Method kunnen op basis van de bovenstaande criteria bestandsformaten worden beoordeeld op de geschiktheid voor langetermijnbehoud. Deze methode is ontwikkeld door de Koninklijke Bibliotheek (KB). De methode is uitgebreid beschreven in het door Van Wijk en Rog geschreven artikel Evaluating File Formats for Long-term Preservation. 8 In het kort komt de methode er op neer dat er een weging plaatsvindt van de bovenstaande zeven criteria. Elk criterium is opgedeeld in een aantal subcriteria (characteristics). Zo is bijvoorbeeld het criterium Openness onderverdeeld in drie subcriteria: Standardisation, Restrictions on the interpretation of the file format en Reader with freely available source. Aan elk van deze subcriteria is een score verbonden en een gewicht. De mogelijke scores staan beschreven in het hierboven genoemde artikel Evaluating File Formats for Long-term Preservation. De scores voor het subcriterium Standardisation zijn bijvoorbeeld: Score mogelijkheden Scores De jure standard 2 De facto standard, specifications 1,5 made available by independent organisation De facto standard, specifications 1 made available by manufacturer only De facto standard, closed 0,5 specifications No standard 0 De gewichten die aan de subcriteria zijn verbonden kunnen aan de eigen langetermijnstrategie van een instituut worden aangepast. In deze beoordeling van de bestandsformaten door het SAA worden de door de KB toegekende gewichten grotendeels aangehouden. De enige wijziging is het gewicht voor compressie dat stond op 6 en is veranderd in 3. Het SAA ziet compressie, mits gebaseerd op een open standaard, als minder groot probleem voor langetermijnarchivering. Uiteindelijk krijgt het beoordeeld bestandsformaat een totale score (absoluut en procentueel). Voor de betekenis en achtergrond van de in de File Format Assessment Method gebruikte begrippen wordt verwezen naar het artikel van Rog en Van Wijk. 7 Caroline van Wijk, Judith Rog, Evaluating File Formats for Long-term Preservation, p. 2. http://www.kb.nl/hrd/dd/dd_links_en_publicaties/publicaties/kb_file_format_evaluation_method_27022008.pdf 8 Ibidem. 9

3.2 Beoordeling van de bestandsformaten met behulp van de File Format Assessment Method De File Format Assessment Method scores van de geselecteerde bestandsformaten zijn als volgt: Openness 3 Baseline TIFF 6.0 unc TIFF 6.0 LZW TIFF 6.0 Group 4 Weight Score Total Score Total Sc ore Basic JFIF (JPEG) 1.02 JPEG-2000 Part 1 lossy compressed JPEG-2000 Part 1 lossless compressed JPM (JPEG-2000 Part 6) PNG 1.2 PDF/A-1 PDF 1.7 ODF 1.0 MS Word 97-2007 Total Score Total Score Total Score Total Score Total Score Total Score Total Score Total Score Total Score Total Standardisation 9 1 3 1 3 1 3 1,5 4,5 2 6 2 6 2 6 2 6 2 6 2 6 2 6 1 3 Restrictons on the interpretation of the file format Reader with freely available source 9 2 6 1 3 2 6 1 3 1 3 1 3 1 3 2 6 2 6 2 6 2 6 1 3 7 2 4,7 2 4,7 2 4,7 2 4,7 2 4,7 2 4,7 1 2,3 2 4,7 2 4,7 2 4,7 2 4,7 1 2,3 Adoption 2 World wide usage 4 1 2 1 2 1 2 2 4 1 2 1 2 0 0 1 2 2 4 2 4 1 2 2 4 Usage in the 7 2 7 0 0 2 7 0 0 0 0 1 3,5 0 0 1 3,5 2 7 2 7 1 3,5 0 0 cultural heritage sector as archival format Complexity 3 Human readability 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 2 2 0 0 Compression 3 2 2 1 1 1 1 0 0 0 0 1 1 0 0 1 1 2 2 2 2 1 1 0 0 Variety of functions 3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 Technical Protection Mechanism (DRM) Password protection 5 3 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 1 0,6 1 0,6 1 0,6 Copy protection 3 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 1 0,6 2 1,2 1 0,6 Digital signature 3 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 1 0,6 2 1,2 1 0,6 Printing protection 3 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 1 0,6 2 1,2 2 1,2 Content extraction protection 3 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 2 1,2 Self-documentation 2 Metadata 1 2 1 2 2 2 1 1 0,5 2 1 2 1 2 1 1 0,5 2 1 2 1 2 1 2 1 Technical 1 1 0,5 1 1 1 0,5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0,5 0 0 description of format embeddeded Robustness 5 Format should be robust against single point of failure File corruption detection 2 1 0,4 0 0 0 0 1 0,4 2 0,8 2 0,8 2 0,8 1 0,4 0 0 0 0 1 0,4 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 File format stability 2 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 1 0,4 1 0,4 Backward compatibilty Forward compatibilty 2 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 0,8 2 2 0,8 2 0,8 2 0,8 0 0 0 0 0 0 0 0 0 0 1 0,4 1 0,4 1 0,4 0 0 10

Baseline TIFF 6.0 unc TIFF 6.0 LZW TIFF 6.0 Group 4 Basic JFIF (JPEG) 1.02 JPEG-2000 Part 1 lossy compressed JPEG-2000 Part 1 lossless compressed JPM (JPEG-2000 Part 6) PNG 1.2 PDF/A-1 PDF 1.7 ODF 1.0 MS Word 97-2007 Dependencies 4 Not dependent on specific hardware Not dependent on specific operating systems Not dependent on one specific reader 8 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 1 2 8 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 0 0 8 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 1 2 Not dependent on 8 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4 1 2 2 4 other external resources (font + codecs) Max Score 61,66666667 52 42 51 42 42 47 38 49 57 53 48 27 Percentage of 100 84 68 82 68 68 75 61 79 92 85 78 43 11

Dit levert de volgende scorelijsten op: Digitaal geboren tekstdocumenten Rang Formaat Score 1 PDF/A-1 92 2 PDF 1.7 86 3 ODF 1.0 78 4 MS Word 97-2007 43 Gedigitaliseerde tekstdocumenten Rang Formaat Score 1 PDF/A-1 92 2 PDF 1.7 86 3 TIFF Uncompressed 84 4 TIFF Group 4 compressie 82 5 PNG 79 6 JPEG 2000 Part 1 Lossless compression 76 7 JPEG 68 8 JPEG 2000 part 1 Lossy compression 68 9 TIFF LZW 68 10 JPEG 2000 Part 6 61 PDF(/A) komt in beide lijsten voor omdat dit bestandsformaat zowel digitaal geboren tekstbestanden als gedigitaliseerde tekstbestanden kan bevatten. 3.3 Overwegingen digitaal geboren tekstdocumenten Uit de scorelijsten kan opgemaakt worden dat PDF/A als bestandsformaat verreweg het meest geschikt is voor lange termijnopslag van digitaal geboren materiaal. Het reguliere PDF formaat scoort lager, vanwege de vele gebruiksmogelijkheden van het bestand en de daardoor verhoogde complexiteit. Ook een belangrijk nadeel voor langetermijnarchivering en toegankelijkheid zijn de verschillende beveiligingsmogelijkheden van het reguliere PDF formaat. Het SAA spreekt daarom een sterke voorkeur uit voor het PDF/A formaat. Het reguliere PDF formaat wordt bij voorkeur alleen gebruikt wanneer PDF/A te weinig functionaliteit biedt om essentiële informatie uit het brondocument te kunnen weergeven. Het op XML gebaseerde ODF bestandsformaat scoort ook relatief hoog. Het verschil met PDF zit met name in het adoptie (adoption) criterium: het gebruik van het jonge ODF bestandsformaat is zowel wereldwijd als in de culturele erfgoed sector nog (relatief) gering. Vanuit de overheid is een sterke voorkeur ontstaan voor het gebruik van PDF/A als exclusief archiefformaat. ODF wordt in deze visie slechts als bestand gebruikt op het moment dat het document nog in bewerking is. Het is echter de vraag of deze visie niet te beperkt is. Het gevaar dat een bestand kan worden aangepast is, wanneer het eenmaal is opgeslagen in een duurzaam digitaal depot, immers afwezig. Een ander, en veel belangrijker probleem van het ODF formaat is dat een eenduidige weergave van de documentopmaak tussen verschillende viewers en omgevingen niet is te garanderen. Zo kunnen verschillen optreden in regeleindes, pagina-eindes, de positionering van elementen als afbeeldingen en tabellen, en fonts. Doordat fonts niet geïmplanteerd kunnen worden in het ODF formaat, is een eenduidige weergave onmogelijk op computers waar het betreffende font niet aanwezig is. Het probleem van een niet eenduidige documentweergave is voor overheidspublicaties natuurlijk onaanvaardbaar. ODF zal daarom niet worden geselecteerd als een geschikt formaat voor langetermijnarchivering. Langetermijnopslag van het MS Word bestand wordt gezien de lage score in de File Format Assessment Method ontraden. Al is het formaat niet langer gesloten, er zijn nog altijd beperkingen in 12

verband met patenten. Daarnaast is de complexiteit van het formaat hoog, heeft het formaat veel mogelijkheden tot beveiliging (o.a. wachtwoord, kopieerbeveiliging) en is het gebruik als archiefformaat in de culturele erfgoedwereld zeer gering. 3.4 Overwegingen gedigitaliseerde tekstdocumenten Voor gedigitaliseerd materiaal scoort PDF(/A) ook het hoogste. Toch is PDF zeker niet altijd het meest aangewezen formaat als het gaat om de opslag van gedigitaliseerd tekstmateriaal. Zoals in het bovenstaande al is aangegeven kunnen tekstdocumenten ook als losse rasterafbeeldingen zijn opgeslagen, waarbij de documentstructuur in de metadata is vastgelegd. Het voordeel daarvan is dat de bestanden in het originele rasterformaat (bijvoorbeeld TIFF of JPEG) worden opgeslagen. Wanneer er om de, van origine, digitale beelden een PDF schil wordt aangebracht, dan wordt daarmee een extra laag van complexiteit aangebracht. Dit is een duidelijk nadeel voor langetermijnarchivering. Een ander nadeel van de opname van afbeeldingen in een PDF schil is dat de PDF bestanden al snel vrij groot worden. Zeker wanneer de documenten grijswaarden of kleur bevatten of groter zijn dan A4. Er zijn echter wel weer mogelijkheden om de afbeeldingen binnen het PDF bestand te downsamplen (verlagen van de resolutie) en/of te comprimeren (zie onderstaande overzicht voor de verschillende mogelijkheden). Compressie doet echter de complexiteit van het bestand alleen maar toenemen en het te gretig toepassen van downsampling en/of compressie kan de informatieoverdracht van het document in de weg staan. Het nadeel van opslag van documenten als losse afbeeldingen, is dat ook de metadata die de structuur van het document bepalen duurzaam moet worden bewaard en aan de afbeeldingen gekoppeld moet blijven. Dit is natuurlijk het grote pré van het gebruik van PDF(/A): de structuur van het document zit ingebakken in het PDF bestand. 9 Met betrekking tot de digitale duurzaamheid van gedigitaliseerde tekstdocumenten lijkt er dus sprake te zijn van het kiezen tussen twee kwaden : Opnemen van afbeeldingen in een PDF schil: Verhoogt de complexiteit van het te archiveren formaat Kan een bestand erg zwaar maken Opslaan van aparte afbeeldingen: Maakt het noodzakelijk de metadata die de structuur bepalen ook duurzaam op te slaan Maakt het noodzakelijk meer objecten te beheren Het SAA kan op dit moment geen duidelijke voorkeur uitspreken voor één van de twee methodes. Er zal van geval tot geval moeten worden gekeken wat de doorslag geeft. Functionele eisen (bepaald door de archiefvormende dienst) zullen daarbij een belangrijke rol spelen. 3.4.1 Bestandsformaten met compressie Wanneer er wordt gekozen voor de opslag van losse afbeeldingen speelt er nog de keuze voor het al dan niet toepassen van lossless of lossy compressie. 10 Afhankelijk van de functionele en kwalitatieve eisen en beschikbare opslagruimte zijn er serieuze alternatieven voor ongecomprimeerde afbeeldingen (alleen het TIFF uncompressed formaat is hiervoor geselecteerd) beschikbaar. Voor lossless compressie: JPEG 2000 part 1 lossless PNG TIFF 6.0 LZW TIFF 6.0 Group 4 (lossless compressie van bitonale scans) Voor lossy compressie: JPEG 2000 part 1 lossy en part 6 JPEG 9 Dit kan echter ook een nadeel blijken, wanneer op enig moment blijkt dat de volgorde niet klopt. 10 Lossless compressie betekent dat het bestand gecomprimeerd is zonder enig verlies van informatie. Bij lossy compressie gaat wel informatie verloren. De hoeveelheid compressie is vaak instelbaar. Door de hoeveelheid compressie in beperkte mate toe te passen, ontstaan vaak afbeeldingen die niet of nauwelijks van het ongecomprimeerde bestand zijn te onderscheiden (visual lossless). Lossy compressie levert veel meer opslagwinst op dan lossless compressie. 13

TIFF LZW scoort relatief laag door de nog altijd onzekere situatie rondom de patenten van het LZW compressieformaat en het geringe gebruik van het formaat. Gebruik van TIFF LZW als lange termijn opslagformaat is daarom niet verstandig en niet geselecteerd voor duurzame opslag. JPEG 2000 part 6 scoort ook laag door onduidelijkheden rondom de patenten van deze compressietechniek en het eveneens geringe gebruik, ook al is dit voor een relatief nieuw formaat logisch. JPEG 2000 part 6 zal daarom voorlopig niet als lange termijn opslagformaat worden geselecteerd. JPEG 2000 part 1 lossless en PNG (is standaard lossless) hebben bijna een gelijke score (respectievelijk 76 en 79%). Het verschil zit in het geheel vrij zijn van patenten van het PNG formaat en enige, weinig risicovolle, restricties daarop in het JPEG 2000 formaat. Om het aantal geselecteerde bestanden enigszins in te perken is er, ondanks de hogere score van het PNG formaat, toch gekozen voor het JPEG 2000 part 1 lossless formaat. De voornaamste reden hiervoor is dat grote culturele instellingen wereldwijd beginnen JPEG 2000 te ondersteunen als archief formaat. PNG wordt daarentegen gering gebruikt. Daarbij heeft het JPEG 2000 formaat grote functionele voordelen, bijvoorbeeld multiresolutie, en gebruikt het een efficiëntere compressiemethode. Het JPEG formaat zal ondanks de relatief lage score toch worden geselecteerd voor duurzame opslag. Dit ligt vooral in de enorme verspreiding van dit bestandsformaat, de efficiënte compressietechniek en het feit dat het SAA zelf zijn digitale masters van gedigitaliseerd materiaal grotendeels opslaat in het JPEG formaat. Ook het eveneens relatief laag scorende JPEG 2000 lossy formaat zal worden geselecteerd voor opname in het E-depot. De reden hiervoor ligt in de bovengenoemde functionele voordelen en het gebruik van een verbeterde compressiemethode ten opzichte van JPEG. 3.5 Achterwaartse compatibiliteit In de File Format Assessment Method is een subcriterium Backward Compatibility opgenomen. Dat betekent dat oudere versies van het bestandsformaat altijd uitwisselbaar zullen blijven ten opzichte van een nieuwere versie. Alle geselecteerde bestandsformaten scoren hierin goed. Dat betekent dat ondanks veranderingen die de komende jaren ongetwijfeld zullen gaan plaatsvinden in een formaat als PDF/A, er geen reden is om de bestanden die in een oudere versie van dit bestandsformaat zijn opgeslagen te migreren naar een nieuwere versie. 14

4. Geselecteerde bestandsformaten voor opslag in het SAA E-depot Op basis van de bovenstaande beoordeling en overwegingen zijn de volgende bestandsformaten geselecteerd voor opname in het SAA E-depot: 4.1 Digitaal geboren tekstdocumenten PDF/A-1a of 1b 11 PDF 1.7 (en eerder versies) Het reguliere PDF formaat (versie 1.7 en eerder) dient alleen te worden gebruikt wanneer in het PDF/A-1 bestand essentiële informatie uit het brondocument onvoldoende kan worden weergegeven. Zie voor de beperkingen van PDF/A-1 de onderstaande beschrijving. 4.2 Gedigitaliseerde tekstdocumenten Opslag in PDF schil: PDF/A-1b Opslag als losse afbeeldingen (geen volgorde van voorkeur) TIFF 6.0 uncompressed TIFF 6.0 Group 4 JPEG 2000 part 1 lossless of lossy JPEG 1.02 (is lossy) De beperkingen van het PDF/A bestand zullen voor gedigitaliseerde documenten geen problemen opleveren. Het reguliere PDF bestand wordt daarom voor digitaliseerde documenten afgeraden. 11 Zie voor het verschil tussen PDF/A-1a en 1b onderstaande paragraaf 5.1.1. 15

5. Beschrijving geselecteerde bestanden In het onderstaande overzicht worden de geselecteerde bestanden beschreven op basis van duurzaamheid en functionaliteit. 5.1 Digitaal geboren tekstdocumenten 5.1.1 PDF/A-1 Naam Versie en standaardisering Omschrijving Functionaliteit (PDF/A-1) Portable File Format for Archiving Subset van het reguliere PDF formaat. Gebaseerd op PDF 1.4 en PDF/X-3. ISO norm 19005-1:2005. Een nieuwe versie is in de maak PDF/A-2 (ISO 19005-2). 12 Bestandsformaat ontworpen voor langetermijnarchivering van elektronische tekstdocumenten, inclusief raster, vector en andere data. In tegenstelling tot het reguliere PDF formaat kent PDF/A-1 een aantal restricties waardoor het formaat minder complex wordt en zodoende eenvoudiger te bewaren. Doel van PDF/A-1 is: Onafhankelijk zijn van hard- en software (kan onafhankelijk van hard- of softwareplatform betrouwbaar en consistent worden weergegeven) Self-contained zijn (bevat alle bronnen, met name fonts, om betrouwbare weergave mogelijk te maken) Zelfbeschrijvend zijn (bevat eigen beschrijving) Er zijn twee conformance levels mogelijk: 1. PDF/A-1a: Voldoet aan volledige eisen van de standaard. De tekst is naast correcte weergave ook doorzoekbaar (tekst is gecodeerd als Unicode). De logische structuur (koppen, paragrafen etc) van tekst zijn bewaard. Ook wel tagged PDF. 2. PDF/A-1b: Voldoet aan minimale eisen van de standaard. Tekst (en andere content) worden correct weergegeven maar de tekst is soms niet doorzoekbaar. Dit formaat wordt gebruikt voor gescande documenten of elektronisch geboren tekst (zonder structuurelementen, tekst die is opgemaakt in oudere software of waar onbekende fonts zijn gebruikt). Wanneer PDF/A via een printer driver tool wordt gegenereerd is deze altijd PDF/A-1b. Restricties functionaliteit PDF/A-1 ten opzichte van het normale PDF formaat: Geen multimedia (audio, video, 3D) Geen ingebedde bestanden 13 Geen transparantie of lagen Beperkte kleurenruimtes 14 Geen beveiliging en encryptie Geen externe referenties naar benodigde viewersoftware of fonts Fonts moeten zijn ingebed Geen Javascript Geen interactiviteit (bijvoorbeeld Form Fields ) Hyperlinks wel opgeslagen maar niet aanklikbaar Metadata gebaseerd op Adobe XMP Geen LZW en JPEG 2000 compressie Voor wel aanwezige functionaliteit, exclusief bovenstaande uitsluitingen, zie onderstaande PDF beschrijving. Zie PDF/A-1 tabel onder gedigitaliseerde originelen voor mogelijkheden compressie. 12 PDF/A-2 zal worden gebaseerd op PDF versie 1.6. Een ISO normering wordt verwacht in 2010. Nieuw daarin is o.a: JPEG 2000, PDF layers, verbeterde tagging, een nieuw Level U conformance (ergens tussen 1a en 1b in - zie: lezing Leonard Rosenthol, PDF/A: IS0 19005-2 (PDF/A-2), Congresbundel First International PDF/A Conference 2008) p 116. 13 In een reguliere PDF kunnen bestanden van geheel andere aard (bijvoorbeeld spreadsheets) worden ingebed. Dit is voor de lange termijn houdbaarheid van een bestand natuurlijk uiterst problematisch. 16

Documentatie Formaat beschrijving op de website van de Library of Congress: Sustainability of Digital Formats Planning for Library of Congress Collections (voortaan: LOC): http://www.digitalpreservation.gov/formats/fdd/fdd000125.shtml Adobe: http://www.adobe.com/devnet/pdf/pdf_reference.html ISO: http://www.iso.org/iso/catalogue_detail?csnumber=38920 PDF/A Competence Centre http://www.pdfa.org/ Belangrijkste bezwaren voor langetermijnarchivering Voorkeur SAA Geen PDF/A-1 heeft sterk de voorkeur boven het reguliere PDF formaat. Aanbevolen wordt het reguliere PDF bestand alleen te gebruiken als de functionaliteit van PDF/A-1 tekort schiet. Voor documenten die direct in ODF zijn opgemaakt heeft ODF als archiefformaat de voorkeur. 5.1.2 PDF Naam Versie en standaardisering Omschrijving Gebruik Functionaliteit Documentatie Belangrijkste bezwaren voor langetermijnarchi vering (PDF) Portable File Format PDF 1.7 is de laatste versie en is sinds begin 2008 een open formaat: ISO 32000. Oudere versies zijn de facto standaarden die zijn gepubliceerd door Adobe. Versie 1.0 stamt uit 1993. Bestandsformaat ontworpen voor elektronische distributie van documenten in hun definitieve staat. PDF is ontwikkeld door Adobe Systems Incorporated. Door Adobe omschreven als een general document representation language. Voor gebruik van gestructureerde tekst, al dan niet voorzien van afbeeldingen, audio-visuele en 3D content. Mogelijkheden naast tekst onder andere: Multimedia (audio, video, 3D, CAD) Metadata (XML, XMP standaard) Bookmarks en annotaties Interactieve formulieren ( Form Fields ) Mogelijkheid transparantie en lagen (bijvoorbeeld voor verschillende vertalingen van een document) Beveiliging (eventueel wachtwoord, kopieer- of printbeveiliging) en authenticatie Mogelijkheid tot plaatsen van een digitale handtekening Mogelijkheid tot opname van andere (ook niet-pdf) bestanden in een PDF file LOC: http://www.digitalpreservation.gov/formats/fdd/fdd000030.shtml Adobe: http://www.adobe.com/devnet/pdf/pdf_reference.html ISO: http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumb er=51502 Complexiteit formaat - door vele gebruiksmogelijkheden is hoog (dit is belangrijkste reden voor de creatie van PDF/A-1) Beveiligingsmogelijkheden Voorkeur SAA Wanneer er geen sprake is van functionaliteit die niet in PDF/A-1 wordt ondersteund (zie restricties PDF/A-1 in het onderstaande), heeft migratie naar PDF/A-1 sterk de voorkeur. 14 Zie voor een overzicht van toegestane kleurenruimtes op de PDF/A competence center website: http://www.pdfa.org/doku.php?id=artikel:en:pdfa_and_colors#pdf_color_spaces 17

5.2 Gedigitaliseerde tekstdocumenten 5.2.1 PDF/A-1 Zie bovenstaande omschrijving. Onderstaande tabel is een aanvulling op de functionaliteit specifiek voor gedigitaliseerde tekst. Naam (PDF) Portable File Format Functionaliteit Doorzoekbare OCR tekst (als hidden text layer ) Compressiemogelijkheden o Voor kleur en grijswaardenafbeeldingen: JPEG (hoeveelheid compressie instelbaar) MRC (Mixed Raster Content, ISO 16485) met JPEG compressie ZIP o Voor bitonale afbeeldingen: CITT Group 3 en 4 JBIG2 lossy of lossless ZIP Mogelijkheid tot downsampling op verschillende manieren. Compressie en downsampling zijn ook uit te schakelen. Documentatie Adobe documentatie betreft compressie en downsampling: http://help.adobe.com/nl_nl/photoshop/10.0/help.html?content=ws4de92d2d- 5A4C-42a8-90E1-FD4E912A9BFD.html Belangrijkste bezwaren voor Het opnemen van digitale afbeeldingen in een PDF bestand voegt een extra laag van complexiteit aan het bestand toe. langetermijnarchi vering Het opnemen van digitale afbeeldingen in een PDF bestand kan een PDF bestand soms zwaar maken. Voorkeur SAA Compressie: LZW compressie wordt sterk afgeraden (in verband met onduidelijkheid omtrent patenten) CITT Group 3 compressie is verouderd en wordt daarom afgeraden De efficiëntere JBIG2 compressie wordt aanbevolen boven CITT Group 4 compressie 5.2.2 JPEG 2000 Naam JPEG (Joint Photographic Experts Group) 2000 Versie en JPEG 2000 is een ISO standaard: ISO 15444-1:2004. Dit is de tweede versie standaardisering van Part 1 (de eerste versie stamt uit 2000). JPEG 2000 bestaat uit 13 andere delen (voor onder andere bewegend beeld) die, behalve de laatste twee, allemaal ISO zijn genormeerd. 15 Van belang voor stilstaand rasterbeeld is Part 1 ISO 15444-1 (bevat de basisfunctionaliteit van JPEG 2000, extensie.jp2), Part 2 ISO 15444-2 (bevat uitgebreide functionaliteiten op Part 1, extensie.jpx) en Part 6 ISO 15444-6 (voor documenten, gebruikt MRC compressie, extensie.jpm). Omschrijving JPEG 2000 is een bestandsformaat voor rasterbeeld en bewegend beeld (Part 3). Het formaat is ontwikkeld door de Joint Photographic Experts Group met als doel een open en veelzijdig compressie formaat te creëren. JPEG 2000 is bedoeld als opvolger van het JPEG/JFIF formaat. JPEG 2000 Part 1 is vrij van royalty en licentiekosten, echter niet geheel vrij van patenten. 15 Deel 13 en 14 zijn zeer recente aanvullingen (zo recent dat ze niet worden genoemd op de jpeg.org website). Met name deel 14 is veelbelovend: dit behandelt de XML representatie van het JPEG 2000 formaat (jpxml). Dit is natuurlijk een interessante ontwikkeling in het kader van langetermijnarchivering. 18

Functionaliteit Geschikt voor grijswaarden, kleuren en bitonale beelden 16 Lossless en variabele lossy compressie is mogelijk Verbeterde lossy (wavelet) compressie ten opzichte van het JPEG formaat) Uitgebreide mogelijkheden voor metadata Multiresolutie mogelijkheden 17 Part 6 biedt ook de mogelijkheid van het opnemen van meerdere pagina s (zoals PDF). Documentatie JPEG 2000 homepage: http://www.jpeg.org/jpeg2000/ LOC JPEG 2000 Part 1: http://www.digitalpreservation.gov/formats/fdd/fdd000143.shtml LOC JPEG 2000 Part 2: http://www.digitalpreservation.gov/formats/fdd/fdd000141.shtml LOC JPEG 2000 Part 6: http://www.digitalpreservation.gov/formats/fdd/fdd000144.shtml ISO: http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm? csnumber=37674 Belangrijkste Geringe adoptie, zowel wereldwijd als in erfgoedkring bezwaren voor langetermijnarchivering Voorkeur SAA Alleen het gebruik van JPEG 2000 Part 1 wordt op dit moment aangeraden. JPEG 2000 Part 2 en Part 6 wordt op dit moment niet aangeraden door de onduidelijkheden omtrent patenten. 5.2.3 TIFF 6.0 Naam TIFF (Tagged Image File Format) 6.0 Versie en Het baseline TIFF 6.0 stamt uit 1992 (de oudste versie stamt uit 1986). Versie standaardisering 6.0 kent meerdere extensies: TIFF/EP (2001), TIFF/IT (2004), DNG (2005) and EXIF. Baseline TIFF 6.0 is geen ISO norm maar is wel een de facto standaard, Omschrijving gepubliceerd door Adobe. Het idee achter TIFF was een file formaat te creëren voor het uitwisselen van rasterbeelden. Het formaat is zo opgezet (de basis zijn tags) dat het eenvoudig kan worden uitgebreid (de extensies) voor verschillende doeleinden. Het grote nadeel van deze opzet is dat de gebruikte extensies niet altijd worden ondersteund. Functionaliteit Geschikt voor grijswaarden, kleuren en bitonale beelden Is zowel ongecomprimeerd als met lossless (LZW, ZIP en Group 4 compressie) en lossy (JPEG) compressie op te slaan Uitgebreide metadata mogelijkheden, waaronder EXIF Multiresolutie mogelijkheden (Image Pyramid) 18 Multi-page mogelijkheid 19 Documentatie TIFF 6.0 specifications: http://partners.adobe.com/public/developer/en/tiff/tiff6.pdf LOC TIFF: http://www.digitalpreservation.gov/formats/fdd/fdd000022.shtml 16 Het is niet duidelijk of bitonale beelden alleen worden ondersteund in Part 2. Voor bitonale beelden ligt TIFF Group 4 of PDF JBIF2 ook meer voor de hand. 17 Multiresolutie houdt in dat in een afbeelding meerdere resoluties zijn opgeslagen. In de praktijk betekent het dat als eerste een lage resolutie afbeelding zal worden getoond, waarna de hogere resoluties volgen. Ook zijn er mogelijkheden het beeld op te bouwen vanuit kwaliteit, kleur en positie. Zie voor meer informatie Gillesse en Rog, Alternative File Formats p 16, 17. 18 Deze optie wordt nauwelijks gebruikt en ondersteund en wordt dus afgeraden. Een alternatief is JPEG 2000. 19 Ook deze optie wordt weinig gebruikt en ondersteund en dus afgeraden. Een beter alternatief is PDF(/A). 19