Preserveringsplan MS Word 97-2003 tekstdocumenten Identificatie Code: [Id P-plan] Name: MS Word 97-2003 tekstdocumenten Auteur: Jacob Takema Organisatie: Gemeentearchief Rotterdam Datum: 25-12-2010 Versie: V2.6 1 van 26
Status Geldig vanaf Gebaseerd op eerder preserveringsplan Inmiddels vervangen door Vervangen / ongeldig sinds: Vastgesteld door: Datum vaststelling: [datum] concept 0.7 Preserveringsplan Tekstdocumenten (binair) (Prototype document) [ID] [datum] Stuurgroep [datum] Aanleiding voor revaluatie en aanpassing (triggers zie bijlage I): - Changed Objective Alert (COA) - Changed Environment Alert (CEA) - Changed Collection Profile Alert (CPA) Contributies Naam Datum Bijdrage Jacob Takema 15-12-2010 Auteur Commentaar Commentator Datum Versie Opmerkingen Annie de Roover 16062010 V2.1 Mette van Essen 16062010 V2.1 Annie de Roover 21072010 V2.2 Annie de Roover 22072010 V2.3 Klankbordgroep 22112010 V2.4 n.a.v. reviewformulieren klankbordgroep Jacob Takema 15122010 V2.5 Lay-out aangepast Jacob Takema 16122010 V2.6 Datum en commentaar kolom bijgewerkt 2 van 26
Samenvatting Het doel van dit document is om de overwegingen duidelijk te krijgen en advies te geven over de oplossingsrichting voor een actieplan voor het verduurzamen van MS Word 97-2003 documenten. Dit document richt zich op strategieën waarbij het omzetten naar een ISO-genormeerd bestandsformaat de voorkeur geniet. In deze categorie zitten de bestandsformaten PDF/A-1 a, OOXML en ODF 1.0. We gebruiken de PLANETS preservation planning workflow. Deze workflow is een manier om het complexe preserveringsplanningsproces te doorlopen en staat beschreven in bijlage II. Er is gebruik gemaakt van de planning tool PLATO, die beschikbaar is als een online service. Om tot de beste oplossingsrichting te komen zijn er experimenten uitgevoerd op een verzameling testbestanden. De uitkomsten van deze experimenten zijn gewogen en geanalyseerd. De uitkomsten van de experimenten geven aan dat de migratie naar PDF/A-1a volgens de huidige set van eisen de beste oplossing is om MS Word 97-2003 bestanden te verduurzamen. PDF/A-1a behoudt goed de informatiekenmerken van het oorspronkelijke document. Daarnaast is een PDF/A-1a bestand een op zichzelf staand bestand dat niet afhankelijk is van informatie van externe bronnen (bijvoorbeeld lettertypen) om het document te kunnen weergeven, dit is bevorderlijk voor de duurzaamheid. Verder laat de PDF/A-1a standaard geen transparantie en actieve hyperlinks toe. Een randvoorwaarde is daarom dat documenten, met afbeeldingen die transparantie bevatten, deze transparantie mogen verliezen en actieve hyperlinks inactief mogen worden gemaakt om te kunnen voldoen aan de PDF/A-1a standaard. Tot slot is het gebruik van PDF wijdverspreid, wat ten goede komt aan de duurzame toegankelijkheid van PDF/A-1a bestanden. Een nadeel is dat Adobe patenten bezit m.b.t. technologie die betrekking kan hebben op de PDF/A- 1a specificatie. Wel heeft Adobe, om het gebruik van PDF te promoten, de PDF patenten m.b.t. informatie uitwisseling royalty vrij en op niet-exclusieve basis ter beschikking gesteld voor het ontwikkelen van software dat PDF bestanden kan produceren, verwerken en interpreteren. De aanbeveling is dan ook om Word 2003-2007 bestanden, bij signalering dat het Word 2003-2007 bestandsformaat in ongebruik raakt, te migreren naar PDF/A1-a. Wel zijn er enkele openstaande zaken die nog uitgezocht dienen te worden om tot een actieplan te komen, zie hiervoor de follow-up in hoofdstuk 4.8. 3 van 26
Inhoudsopgave Samenvatting... 3 Inleiding... 5 Definitie preserveringsplan... 5 Leeswijzer... 5 1. Grondslag... 6 1.1 Aanpassingen t.o.v. de voorgaande versie... 6 2. Beschrijving van de bestanden... 7 2.1 Voor- en nadelen... 8 2.2 Afbakening... 8 2.3Type-omschrijving... 8 2.4 Microsoft Word.doc bestandsformaatversies... 9 2.5 Microsoft Word versies...10 2.6 Voorbeeld-objecten...10 3. Doel en Eisen...11 3.1. Doel van dit plan...11 3.2. De Objective Tree...11 4. Strategie...12 4.1 Uitgevoerde experimenten en afgevallen opties...12 4.2 Geanalyseerde experimenten...13 4.3 Testpad...14 4.4 Resultaten...15 4.5 Evaluatie...15 4.6 Openstaande zaken...17 4.7 Conclusie en aanbevelingen...18 4.8 Follow-up...18 5. Het actieplan...19 6. Bronvermelding...20 Bijlage I Triggers voor aanpassing preserveringsplan...21 Bijlage II PLATO workflow...22 Bijlage III Objective tree met preserveringseisen...24 Bijlage IV weging van de eisen...25 Bijlage V Open Document Format (ODF) bestandsextensies...26 4 van 26
Inleiding Definitie preserveringsplan Een preserveringsplan definieert de serie van preserveringsacties die doorlopen dient te worden ter preservering van een vooraf vastgestelde collectie digitale objecten (of records). Idealiter houdt het plan daarbij rekening met voorgeschreven beleid, juridische verplichtingen, organisatorische en technische beperkingen, gebruikerseisen en doeleinden van preservering. Het beschrijft de preserveringsomstandigheden, de in overweging genomen strategieën, de geteste preserveringstools en acties en de als resultaat daarvan genomen en onderbouwde beslissingen. Het in het preserveringsplan opgenomen actieplan formuleert de te nemen stappen ten behoeve van preservering, in combinatie met gestelde verantwoordelijkheden, procedures en condities waaronder gewerkt moet worden. Met nadruk op haalbare, toetsbare en technisch mogelijke acties, biedt dit preserveringsplan een blauwdruk voor het preserveren van de desbetreffende collectie. Een preserveringsplan is voortdurend aan actualisering onderhevig. Externe invloeden, organisatorische en technische factoren maken het document zeer dynamisch. Leeswijzer Dit document is een neerslag van het preserveringsplanningsproces in de planning tool PLATO en is de bijbehorende workflow gevolgd (zie bijlage II). In hoofdstuk 1 wordt de grondslag voor dit plan als fundament voor de preservering uitgelegd. Hoofdstuk 2 beschrijft de met dit plan te preserveren collectie. In hoofdstuk 3 zijn doel en te volgen eisen vastgelegd. Hoofdstuk 4 is een weergave van de overwogen en geteste strategieën en bijbehorende conclusies en aanbevelingen. Hoofdstuk 5 is het uit te voeren actieplan. 5 van 26
1. Grondslag Het Gemeentearchief Rotterdam stelt zich ten doel het in goede, geordende en toegankelijke staat brengen en houden van zijn collecties. In dit document wordt rekening gehouden met wet- en regelgeving, interne beleidsstukken, overeenkomsten en contracten: - Archiefwet 1995 1 - Archiefbesluit 1995 2 - Archiefregeling 2009 3 - Auteurswet 1912 - College en Forum Standaardisatie 4 - Besluit Informatiebeheer Rotterdam 2004 - Preserveringsbeleid e-depot Gemeentearchief Rotterdam 2007-2008 (wordt herzien) 1.1 Aanpassingen t.o.v. de voorgaande versie Het vorige document had als hypothese het omzetten van informatie van een gesloten, ongedocumenteerd en binair-formaat naar een open, gedocumenteerd, tekst-gebaseerd bestandsformaat om de duurzaamheid te verbeteren. Bij het vorige document bleek dat een beperkte set van eisen te zwaar het belang van openheid benadrukte ten koste van de eisen m.b.t. (on)acceptabel informatieverlies. Deze balans is hersteld in dit document. De hypothese werd als te beperkt ervaren en is losgelaten. De opzet van het huidige plan is om op basis van een verbeterde set eisen, verschillende standaarden naast elkaar te vergelijken. Daarnaast is een grotere set testbestanden gebruikt. 1 http://wetten.overheid.nl/bwbr0007376/geldigheidsdatum_07-05-2010 2 http://wetten.overheid.nl/bwbr0007748/geldigheidsdatum_07-05-2010 3 http://wetten.overheid.nl/bwbr0027041/geldigheidsdatum_07-05-2010 4 Het kabinet streeft naar verbetering van overheidsdienstverlening en naar administratieve lastenverlichting. Daarom heeft het kabinet in 2006 op basis van een advies besloten tot de instelling van het College en Forum Standaardisatie. Deze adviesorganen bevorderen de digitale samenwerking (interoperabiliteit) tussen bedrijven, burgers en overheden, met de nadruk op standaardisatie. Bron: http://www.forumstandaardisatie.nl/ 6 van 26
2. Beschrijving van de bestanden Het soort digitale bestanden waar dit plan betrekking op heeft, zijn tekstdocumenten. Een tekstdocument is een bestand dat gecreëerd is met een tekstverwerkingsprogramma, zoals Microsoft Word of WordPerfect. Afgezien van ontwikkelingen van de laatste jaren is een tekstdocument vaak een binair bestand 5 : een computerbestand dat gecodeerd is in een binair formaat dat alleen voor bijbehorende applicatiesoftware begrijpelijk en leesbaar is (afbeelding 1). Afbeelding 1: een weergave van een Worddocument en de onderliggende data. Dit in tegenstelling tot de bestandsformaten voor tekstdocumenten van de laatste jaren, deze worden steeds meer op XML gebaseerd. Dit betekent dat de door de applicatiesoftware te lezen data bestaat uit teksttekens. Hierdoor is de inhoudelijke tekst, structuur en opmaak duidelijk onderscheiden aanwezig in de data (afbeelding 2). Afbeelding 2: de onderliggende data van een Open Document Format tekstdocument. De inhoudelijke tekst uit het document is leesbaar aanwezig in de onderliggende XML-data. 5 http://nl.wikipedia.org/wiki/binair_bestand 7 van 26
2.1 Voor- en nadelen De directe leesbaarheid van XML wordt gezien als gunstig voor de duurzaamheid. Het vergroot de kans om in de toekomst documenten interpreteerbaar te houden met de dan courante software. De keuze voor een open binair bestandsformaat is ook te rechtvaardigen. Een open bestandsformaat betekent dat het formaat gespecificeerd is en dat de specificatie openbaar en vrij of tegen geringe kosten beschikbaar is. Het is dan nog wel binair van aard en niet direct door mensen leesbaar zoals XML, maar door middel van de open specificatie kan de duurzame toegankelijkheid wel beter nagestreefd worden dan bij een gesloten bestandsformaat. Door de open specificatie en indien de kwaliteit van de specificatie voldoende is, is het voor ontwikkelaars mogelijk om applicaties te bouwen die deze bestanden kunnen interpreteren. Een bestandsformaat kan daardoor breder ondersteund worden en dit is positief voor de duurzame toegankelijkheid. Daarnaast is de gedachte dat in geval van nood, er op basis van deze open specificatie, viewers gebouwd kunnen worden om de bestanden leesbaar te houden. 2.2 Afbakening Het MS Word 97-2003 bestandsformaat is een gesloten binair bestandsformaat, dat jarenlang een de facto standaard was op het gebied van tekstverwerking en nog veel wordt gebruikt. Microsoft heeft in 2008 de specificatie 6 van het bestandsformaat openbaar gemaakt, waardoor het een wat minder gesloten bestandsformaat is geworden en er iets meer bekend is hoe de informatie daadwerkelijk is gecodeerd in het bestand. Het bestandsformaat is niet erg interoperabel: een andere softwareversie dan waarin het bestand gecreëerd is kan interpretatieverschillen en een andere weergave van hetzelfde document opleveren. Het is nog niet bedreigd, maar ook geen duurzaam opslagformaat. Bij tekenen van het in ongebruik raken van dit bestandsformaat is het noodzakelijk preserveringshandelingen te initiëren. Dit document beperkt zich voor nu tot MS-Word 97-2003 bestanden. Deze bestanden behoren tot de concern standaard en komen veel voor binnen de overheid en bij het GAR. Ook particulieren gebruiken nog veel dit bestandsformaat. Er is geen specifieke collectie bekend waarbinnen uitsluitend Word-bestanden voorkomen: dit type bestanden komt waarschijnlijk vooral versnipperd voor binnen verschillende archieven en collecties. Oudere Word-bestanden (en andere tekstdocumenten zoals WordPerfect-bestanden) worden, indien nodig, in een later stadium onderzocht. 2.3Type-omschrijving Met het uitbrengen van Word 97 heeft Microsoft haar tekstverwerkingsformaat (.doc) gereviseerd. Dit zogenaamde Microsoft Word 97-2003 7 formaat is een subvorm van het OLE2 8 Compound Document Format 9. OLE2 Compound Document Format, hierna OLE2 genoemd is ontwikkeld door Microsoft als overkoepelend bestandsformaat voor zijn Office applicaties en biedt de mogelijkheid om inhoud vanuit het ene Office programma te linken naar, of te importeren in, het andere Office programma. Bijvoorbeeld een grafiek vanuit Excel is in Word geïmporteerd. Alle Microsoft Word 97-2003 bestanden zijn OLE2 bestanden, hoewel niet elk bestand ingebedde objecten bevat. 6 http://msdn.microsoft.com/en-us/library/cc313153.aspx Word Binary File Format (.doc) Structure Specification 7 Het MS Word 97-2003 formaat wordt beschouwd als onveranderd gebleven sinds het uitkomen van Word 97, 2000, 2002 en 2003: daarom wordt het formaat aangeduid als MS Word 97-2003. (bron: PRONOM Technical Registry, http://www.nationalarchives.gov.uk/pronom/) 8 OLE: Object Linking and Embedding 9 http://msdn.microsoft.com/en-us/library/cc313062.aspx Object Linking and Embedding (OLE) Data Structures: Structure Specification 8 van 26
Afbeelding 3: opbouw OLE2 bestand met WordDocument stream (blauwe balk). Dit is een Word-document met een ingebed object: een afbeelding. De data van dit object zit in de container _1017840207 die zich weer in de ObjectPool container bevind. OLE2 werkt als een file system, bestaand uit een hiërarchie en is een samengesteld ( compound ) bestand van datastreams 10 en mogelijk één of meer containers (zie afbeelding 3). Neem bijvoorbeeld de Excel-grafiek die in Word is geïmporteerd: het Word-document is dan opgeslagen in een container als een Word Document stream, terwijl in een andere container de grafiek als onderdeel van een Excel werkboek is opgeslagen. De Excel grafiek is dan een ingebed object in het Word-document. 2.4 Microsoft Word.doc bestandsformaatversies Het bepalen van de bestandsformaat versie is mogelijk door in de datastream CompObj te kijken, zoals te zien is in afbeelding 4. Hier kan het volgende staan: Word.Document.6 (Word 6 formaat) Word.Document.7 (Word 95 formaat) Word.Document.8 (Word 97 of een later formaat) Dit plan richt zich op documenten van de Word.Document.8 versie oftewel MS Word 97-2003 documenten. Specifiekere (sub)versie informatie is niet beschikbaar. Afbeelding 4: de bestandsformaatversie, hier van Word 97 of later, is zichtbaar gemaakt in de datastream met de applicatie SSViewer 11. 10 http://en.wikipedia.org/wiki/data_stream 11 Structure Storage Viewer, versie 3.3.1.0 http://www.mitec.cz/ssv.html 9 van 26
2.5 Microsoft Word versies MS Word 97-2003 bestanden kunnen gemaakt zijn met MS Word 97, 2000, 2002, 2003 of 2007 (de Macintosh buiten beschouwing gelaten). Het met absolute zekerheid vaststellen van de creatiesoftware is bij MS Wordbestanden niet mogelijk. Wel is vast te stellen met welke software het bestand voor het laatst is bewerkt. Dit is in het geval van MS Word 97, 2000 en 2002 mogelijk door de bestandseigenschappen te raadplegen of te kijken in de datastreams. Bij bestanden die gemaakt of geopend en opgeslagen zijn in MS Word 2003 of 2007 wordt er geen versie meer weergeven, alleen Microsoft Office Word staat vermeld in de datastream. 2.6 Voorbeeld-objecten De identificatie van alle in de collecties van het GAR opgenomen tekstdocumenten, is wegens beperkingen van het huidige beheersysteem niet mogelijk geweest voor dit preserveringsplan. Op stuksniveau zijn digitale objecten in het beheerssysteem niet identificeerbaar. Het identificeren van bestandsformaten is nog onderwerp van onderzoek, er is dan ook geen verzameling of collectie bestanden (op basis van bestandsformaat) om vanuit te gaan. Daarom is er gekozen om uit te gaan van losse bestanden vanuit verschillende verzamelingen. Er is gekozen voor MS-Word 97-2003 testbestanden die meerdere inhoudelijke eigenschappen bevatten: naast tekst en opmaak ook veel afbeeldingen, tabellen en grafieken. De testset bevat bestanden met ingebedde objecten en zonder. Wat betreft bestandsformaatversies is geput uit de beschikbare testbestanden en dit leverde bestanden op die gemaakt zijn in MS Word 2002 en 2003/2007. De beschikbare testbestanden bevatten geen bestanden die gemaakt zijn met MS Word 97 en 2000. Daarom zijn met deze programma s bestanden gemaakt die zijn vergeleken op een aantal variabelen t.o.v. MS Word 2002 en 2003 of latere bestanden. Dit geeft een voorlopige, maar geen definitieve, uitslag voor de geldigheid van dit preserveringsplan voor alle MS-Word 97-2003 bestanden die gemaakt zijn met MS Word 97 t/m 2003 (en 2007). In de loop der tijd zullen meer testbestanden vanuit digitale archieven beschikbaar komen en deze zullen getoetst worden aan de huidige testresultaten. Op basis van het resultaat van deze toetsing zal dit document worden bijgewerkt. 10 van 26
3. Doel en Eisen 3.1. Doel van dit plan Het doel van dit document is om de overwegingen duidelijk te krijgen, advies te geven over de oplossingsrichting en een actieplan op te leveren voor het verduurzamen van MS Word 97-2003 documenten. We gebruiken de PLANETS preservation planning workflow. Deze workflow is een manier om het complexe preserveringsplanningsproces te doorlopen en staat beschreven in bijlage II. Er is gebruik gemaakt van de planning tool PLATO, die beschikbaar is als een online service 12. Dit document richt zich op strategieën waarbij het omzetten naar een ISO-genormeerd bestandsformaat de voorkeur geniet. In deze categorie zitten de bestandsformaten PDF/A-1a, OOXML en ODF 1.0. Dit plan zal zich op deze bestandsformaten richten. 3.2. De Objective Tree Een belangrijke stap bij het maken van een preserveringsplan is het duidelijk opstellen van eisen en doelen 13 voor de preserveringsoplossing. In de zogenaamde objective tree 14 worden doelen en gedetailleerde vereisten opgesteld en georganiseerd in een boom-structuur. Voor dit preserveringplan voor tekstdocumenten is een Objective tree gemaakt, hieronder wordt een vereenvoudigde versie weergegeven. Voor de gehele boom zie bijlage III. Objective tree tekstdocumenten Eisen aan het doel-bestandsformaat o Openheid o Kwaliteit van de documentatie o Wijdverspreidheid o Ondersteuning door viewers o Internationale standaard Essentiële kenmerken o Uiterlijk / re-creatie o Structuur o Inhoud o Gedrag Proces eigenschappen o Procesduur 12 PLATO, PLANETS Preservation Planning Tool, mei 2010 http://www.ifs.tuwien.ac.at/dp/plato/intro.html 13 Framework for the definition of significant properties - Gareth Knight, V1,05/02/2008 http://www.significantproperties.org.uk/documents/wp33-propertiesreport-v1.pdf 14 The Objective Tree: Defining goals and requirements - Christoph Becker, april 2008 http://www.planets-project.eu/docs/presentations/080415_becker_wien_trees.pdf 11 van 26
4. Strategie 4.1 Uitgevoerde experimenten en afgevallen opties De gekozen oplossingmogelijkheden worden gezocht bij de ISO-genormeerde bestandsformaten PDF/A-1a 15, OOXML 16 en ODF 17. Er zijn tien experimenten overwogen, zie tabel 1. Hiervan zijn er zeven uitgevoerd en uiteindelijk vijf geanalyseerd en verwerkt tot een advies. Exp. Nr. Experiment (migratie van naar) Platform en Tool Mee in analyse? Reden 1. Doc>PDF/A-1a - Office 2007 Ja - ISO standaard - PDF is goed in het behouden van de opmaak 2. 2. Doc>PDF 1.4 - Word 2003 - Cute PDF Nee - geen configuratiemogelijkheden voor het outputformaat. 3. 3. Doc>PDF/A-1a - Word 2003 - Adobe Acrobat Pro 4. Doc>ODF 1.0 - OpenOffice 3.2 Nee ja - Adobe Acrobat Pro is niet correct geconfigureerd in de CItrix omgeving Alternatief: Combinatie van Office 2003 en Adobe Acrobat Pro realiseren binnen een stand-alone situatie. - ODF 1.0 is een ISO-standaard 5. Doc>ODF 1.0 - Open Office 3.2 - XENA 4.2.1 6. Doc>ODF 1.2 - OpenOffice 3.2 ja nee - Goede ervaringen uit eerdere experimenten - ODF 1.0 is een ISO-standaard - XENA is een tool die ontwikkeld is met als uitdrukkelijk doel duurzame lange termijn bewaring - ODF 1.2 is geen ISO-standaard - omzetting geeft bij initiële testen geen betere resultaten dan ODF 1.0 bij experiment 4. 7. Doc>OOXML - Office 2007 ja - ISO-standaard - uit eigen ervaringen goede resultaten wat betreft informatiebehoud bij migratie. 8. Doc>PDF 1.7 - Adobe Acrobat Pro Nee - Is nog niet helemaal helder of PDF 1.7 geschikt is voor Word-documenten, het lijkt zich te richten op andere documenttypen: initiële experimenten noodzakelijk. - Adobe Acrobat Pro is niet correct geconfigureerd in de CItrix omgeving Alternatief: Combinatie van Office 2003 en Adobe Acrobat Pro realiseren binnen een stand-alone situatie. 9. Doc>OOXML>ODF 1.0 - Office 2007 - ODF plug-in Ja - ODF 1.0 is een ISO-standaard 10. Doc>PDF/A-1a - Commerciële tools nee - nog onbekend terrein - budget - keuzecriteria Tabel 1: Overwogen, uitgevoerde en geanalyseerde experimenten 15 ISO 19005-1:2005 16 ISO/IEC 29500-1:2008, ISO/IEC 29500-2:2008, ISO/IEC 29500-3:2008, ISO/IEC 29500-4:2008 17 ISO/IEC 26300:2006 12 van 26
4.2 Geanalyseerde experimenten 1. Doc>PDF/A-1a Migratie naar PDF/A-1a vanuit MS-Word 2007 PDF/A-1a is meegenomen als optie omdat PDF veel wordt gebruikt en omdat het de opmaak van een document goed kan weergeven. De ISO-standaard kent twee toepassingsniveau s, namelijk PDF/A1- a en PDF/A1-b. PDF/A1-a heeft betrekking op de gehele specificatie van ISO 19005-1. PDF/A1-b voldoet aan de minimaal noodzakelijke eisen en behoudt met name het uiterlijk van het document, maar behoudt niet de documentstructuur die een origineel gecreëerd PDF/A1-a document wel bevat. PDF/A1-b wordt dan ook vooral gebruikt voor ingescande documenten. In dit document werken we met PDF/A1-a, namelijk een PDF die voldoet aan de ISO 19005-1 standaard. 4. Doc>ODF 1.0 Migratie naar ODF met Open Office 3.2 Het Open Document Format is open gedocumenteerd en een XML-based bestandsformaat. Viewers en tekstverwerkingsprogramma's zoals OpenOffice zijn vaak open-source en gratis te downloaden. ODF staat op de lijst met open standaarden 18 van het Forum Standaardisatie. 5. XENA>ODF 1.0 Migratie naar ODF met XENA en Open Office 3.2 XENA (Xml Electronic Normalising for Archives) is een vrij verkrijgbare open-source software ontwikkeld door het Nationaal Archief van Australië. XENA wordt door het Nationaal Archief van Australie gebruikt voor het normaliseren van digitale records naar open standaarden. XENA converteert MS-Word documenten naar ODF en maakt hierbij gebruik van Open Office. Het is geschreven in Java en is daardoor cross-platform en draait op Linux, Windows en OS X. 7. Doc>OOXML Migratie naar OOXML met MS-Word 2007 OOXML is een ISO-standaard. Het is ontwikkeld om te bestaan naast de legacy formaten van Microsoft zoals word 6 en Word 97-2003 en niet met als doel interoperabiliteit. OOXML wordt meegenomen als mogelijk strategie omdat eerdere ervaringen leren dat het goede resultaten geeft wat betreft informatiebehoud bij migratie. 9. Doc>OOXML>ODF 1.0 Migratie naar Open Document Format 1.0 (ODF) via OOXML, vanuit MS-Word 2007 Er is gekozen om te converteren m.b.v. MS Word 2007, omdat deze een plug-in heeft waarmee naar ODF geconverteerd kan worden. 18 Op deze lijst staan open standaarden die volgens het comply or explain -regime verplicht zijn gesteld voor de overheid. www.forumstandaardisatie.nl/fileadmin/ovos/os_lijst_open_standaarden_voor_pas_toe_of_leg_uit.pdf 13 van 26
4.3 Testpad Voor elk van de genoemde testopties zijn experimenten uitgevoerd met testobjecten. De experimenten zijn als volgt opgezet. 1. Doc>PDF/A-1a Migratie naar PDF/A1-a vanuit MS-Word 2007 Het oorspronkelijke MS-Word bestand is geopend met MS-Word 2007 (opent in de compatibiliteitsmodus), en m.b.v. een Plug-in in MS Word, is het document geconverteerd naar PDF/A-1a (ISO 19005-1). Platform: Windows XP Professional 2002, servicepack 3 Microsoft Office 2007 plug-in: SaveAsPDFandXPS, versie: 12.0.4518.1014 Ontwikkelaar: Microsoft Corporation 4. Doc>ODF 1.0 Migratie naar ODF met Open Office 3.2 Platform: Windows XP Professional 2002, servicepack 3 Open Office 3.2 5. XENA>ODF 1.0 Migratie naar ODF met XENA en Open Office 3.2 Platform: Windows XP Professional 2002, servicepack 3 XENA 4.2.1 Open Office 3.2 7. Doc>OOXML Migratie naar OOXML met MS-Word 2007 Platform: Windows XP Professional 2002, servicepack 3 Microsoft Office 2007 9. Doc>OOXML>ODF 1.0 Migratie naar Open Document Format 1.0 (ODF) via OOXML, vanuit MS-Word 2007 Het oorspronkelijke MS-Word bestand is geopend met MS-Word 2007 (opent in de compatibiliteitsmodus). Met behulp van een Plug-in in MS Word is het document geconverteerd naar Open Document-text (ODT). ODT is het bestandsformaat van het Open Document Format (ODF) voor tekstdocumenten. Voordat de conversie plaats kon vinden moest het originele bestand eerst opgeslagen worden in het gangbare bestandsformaat van MS-Word 2007: OOXML. Platform: Windows XP Professional 2002, servicepack 3 Microsoft Office 2007 Plug-in: ODF Add-in for Microsoft Office Ontwikkelaar: DIaLOGika GmBH Versie: 3.0.5246.0 14 van 26
4.4 Resultaten De experimenten zijn uitgevoerd en de uitkomsten zijn naast de boom met eisen gehouden. De uitkomsten van de experimenten zijn in PLATO ingevoerd. De waarden zijn bij elkaar opgeteld, waarbij rekening wordt gehouden met de aangebrachte weging (zie bijlage IV). Afbeelding 4: De uitkomsten van de experimenten voor de gekozen alternatieven Alles bij elkaar genomen komt optie 1: het migreren van.doc naar PDF/A1-a m.b.v. MS-Word 2007 als beste uit de experimenten. 4.5 Evaluatie 4.5.1 Eisen aan de drie doel-bestandsformaten Wat betreft de tak eisen waaraan de drie doel-bestandsformaten moeten voldoen scoort PDF/A-1a het hoogste, OOXML het laagst en ODF zit hier tussen in. PDF/A-1a scoort hoog omdat het een internationale standaard is. Wel is het eigendom van Adobe. Om het gebruik van PDF te promoten worden PDF patenten m.b.t. informatie uitwisseling royalty vrij 19 en op niet-exclusieve basis ter beschikking gesteld voor het ontwikkelen van software dat PDF bestanden kan produceren, verwerken en interpreteren. PDF wordt wereldwijd veel gebruikt en wordt breed ondersteund. Een PDF/A-1a is een op zichzelf staand bestand en mag niet afhankelijk zijn van informatie van externe bronnen om het document te kunnen weergeven. Het heeft ingesloten informatie, o.a. lettertypen en kleurprofielen, om elke keer het document op exact de zelfde manier weer te geven. Tussen PDF/A-1a en OOXML neemt ODF een middenscore in. Het is een internationale standaard en is ontwikkeld binnen een wereldwijde community. ODF is daarom het meest open: kennis van het format ligt niet bij één commerciële partij. Het wijdverspreid gebruik is een stuk minder in vergelijking met PDF, maar er zijn viewers verkrijgbaar zoals o.a. Open Office, KOffice (beiden vrij verkrijgbaar) en Microsoft Office (vanaf SP2). De geschiktheid van ODF als opslagformaat is twijfelachtig omdat het bestand een ZIP-formaat is en hierdoor mogelijk foutgevoelig wordt. Een ODF bestand is niet op zich zelf staand, maar is afhankelijk van externe bronnen voor informatie om het document te kunnen weergeven. 19 http://www.digitalpreservation.gov/formats/fdd/fdd000030.shtml 15 van 26
De lage score van OOXML, die nochtans een internationale standaard is, is te wijten aan de complexiteit van het bestandsformaat. OOXML is niet ontwikkeld met als doel interoperabiliteit. De specificatie verwijst bij een aantal onderdelen ondermeer naar oudere legacy formaten van Microsoft. Dit gegeven, samen met het feit dat OOXML vanwege de complexiteit een specificatie van 6000 pagina s telt, hindert en maakt het moeilijker voor andere partijen om producten te ontwikkelen die OOXML kunnen interpreteren. Het gebruik van OOXML is niet wijdverspreid, viewers zijn niet alom aanwezig buiten Microsoft Office. De geschiktheid van OOXML als opslagformaat is twijfelachtig omdat het bestand een ZIP-formaat is en hierdoor mogelijk foutgevoelig wordt. Een OOXML bestand is niet op zich zelf staand, maar is afhankelijk van externe bronnen voor informatie om het document te kunnen weergeven. 4.5.2 Behoud van essentiële kenmerken in de vijf experimenten Wat betreft de tak het behoud van essentiële kenmerken scoort experiment 1. PDF/A-1a het hoogst op de voet gevolgd door experiment 7. OOXML. Een stuk minder goed komt experiment 5. XENA ODF uit de bus gevolgd door 4. ODF. De slechtste score op dit onderdeel is voor experiment 9.OOXML> ODF, Doc omgezet naar ODF via OOXML. In volgorde de score van hoog naar laag: 1. Doc>PDF/A-1a Kenmerkend voor migratie naar de PDF/A-1a is het goede behoud van de structuur en opmaak van het document. Opmerkelijk is het verlies van actieve links, zowel in- als externe links worden inactief (de URL blijft in de vorm van metadata behouden). Dit is opmerkelijk maar een pré omdat het de duurzaamheid vergroot. Dit is daarom ook een bewust gekozen eigenschap van PDF/A-1a om gedrag te verliezen met vergrootte duurzaamheid als winst. Hetzelfde geldt voor afbeeldingen met transparantie: bij een enkel testbestand verdwijnt deze transparantie in een logo in de koptekst. PDF/A-1a ondersteunt geen transparantie, maar dit wordt aangepast bij de opvolger van PDF/A-1a. 7. Doc>OOXML Verliest bij enkele bestanden informatie-elementen, de reden is onduidelijk. Scoort voor de rest voor dit onderdeel hetzelfde als PDF/A-1a. Geeft actieve links en transparante afbeeldingen onveranderd weer. 5. XENA ODF Bij migratie naar ODF is de grootste moeilijkheid de opmaak: tekst schuift door en de lay-out wordt aangepast, wat kan leiden tot verandering van de structuur. De oorzaak is vaak verkeerd gebruik 20 van de tekstverwerker die deze lay-out problemen opleveren, maar dit is een gegeven bij MS Worddocumenten. Inhoudsopgaven zijn lastig omdat ze automatisch worden bijgewerkt en links naar de hoofdstukken kunnen bevatten die verkeerd kunnen (gaan) verwijzen. Dit resulteerde in sommige gevallen tot aanpassing van hoofdstuknummering. Omdat inhoudsopgaven eigenlijk een soort links zijn hebben ze de neiging om bij conversie naar ODF een andere kleur aan te nemen. Verschil in resultaat met experiment 4. ODF is dat XENA opsommingen netter mee-converteert. 4. Doc>ODF 1.0 Dezelfde bevindingen als experiment 5. XENA ODF met als extra nadelige bevinding dat opsommingen wel worden mee geconverteerd, maar dat dit niet netjes gebeurt waardoor de lay-out 20 Het komt regelmatig voor dat auteurs tekstverwerkers zoals MS Word verkeerd gebruiken, ze gebruiken bijvoorbeeld geen gedefinieerde koppen om structuur in de tekst aan te brengen maar alleen vet en lettergrootte waardoor de structuur alleen visueel aanwezig is. Een ander voorbeeld zijn enters i.p.v. pagina-eindes, waardoor tekst doorschuift en de lay-out wordt aangepast. 16 van 26
rommelig wordt. Dit is op zich al onwenselijk maar kan ook nog verdere lay-out verschuivingen tot gevolg hebben. 9. Doc>OOXML>ODF 1.0 Dit experiment heeft dezelfde bevindingen wat betreft opsommingen als experiment 4. ODF, maar presteert minder stabiel bij het behoud van grafieken. Bij een testbestand is een grafiek na de conversie verdwenen. 4.5.3 Proces eigenschappen De proceseigenschappen zijn zeer algemeen meegenomen in dit preserveringsplan, de uit te voeren handelingen bij de experimenten verschillen qua inspanning zo weinig van elkaar dat dit waarschijnlijk alleen bij behandeling van grote aantallen bestanden merkbaar is. 4.5.4 Resultaat van alle takken De uitkomsten zijn geëvalueerd aan de hand van de opgestelde eisen uit de objective tree. De takken van de objective tree zijn met gewogen vermenigvuldiging (weighted multiplication) samengevoegd tot de onderstaande grafiek. Alles bij elkaar genomen komt optie 1: het migreren van.doc naar PDF/A1-a m.b.v. MS-Word 2007 als beste uit de experimenten. 4.6 Openstaande zaken 4.6.1 Identificatie en validatie Een PDF/A-1a document kan geïdentificeerd worden als zijnde een PDF/A-1a document door te kijken naar PDF/A-1a specifieke metadata. Maar het zeggen dat je een PDF/A-1a bent en het dan ook werkelijk zijn, kunnen twee aparte dingen zijn. Een PDF document kan PDF/A-1a compliant zijn, maar de PDF/A-1a metadata missen. Verder kan een PDF document als PDF/A-1a geïdentificeerd worden, maar niet PDF/A-1a compliant zijn omdat het eigenschappen bevat die een PDF/A-1a niet mag bezitten. Bij de totstandkoming van dit document is het niet mogelijk geweest dit uit te zoeken. De validatie van het PDF/A-1a bestandsformaat is daarom een onderwerp dat nog verder uitgediept dient te worden. Dit dient te geschieden voor het opstarten van het actieplan. 4.6.2 migratietools en instellingen Bij de uitgevoerde tests is een beperkt aantal migratietools gebruikt. De tools die beschikbaar waren zijn in de tests meegenomen, maar er zijn meer (commerciële) tools. Om tot de beste werkwijze te komen moeten er meer tools getest worden. Daarnaast zijn er bij PDF veel instellingsmogelijkheden die nog niet uitputtend zijn onderzocht. Deze twee zaken dienen nog onderzocht te worden om tot een werkwijze te komen. Het resultaat dient gevalideerd te worden op behoud van inhoudelijke kenmerken en compliance met de PDF/A-1a standaard. 17 van 26
4.7 Conclusie en aanbevelingen De migratie naar PDF/A-1a is volgens de uitgevoerde tests de beste oplossing om MS Word 97-2003 bestanden te verduurzamen. PDF/A-1a behoud goed de informatiekenmerken van het oorspronkelijke document. Een PDF-A-1a bestand is een op zichzelf staand bestand en is niet afhankelijk van informatie van externe bronnen (bijvoorbeeld lettertypen) om het document te kunnen weergeven. Dit is bevorderlijk voor de duurzaamheid. Verder laat de PDF/A-1a standaard geen transparantie en actieve hyperlinks toe. Een randvoorwaarde is daarom dat documenten, met afbeeldingen die transparantie bevatten, deze transparantie mogen verliezen en actieve hyperlinks inactief mogen worden gemaakt om te kunnen voldoen aan de PDF/A-1a standaard. Tot slot is het gebruik van PDF wijdverspreid, wat ten goede komt aan de duurzame toegankelijkheid van PDF/A-1a bestanden. Een nadeel is dat Adobe patenten 21 bezit m.b.t. technologie die betrekking kan hebben op de PDF/A- 1a specificatie. Wel heeft Adobe, om het gebruik van PDF te promoten, de PDF patenten m.b.t. informatie uitwisseling royalty vrij 22 en op niet-exclusieve basis ter beschikking gesteld voor het ontwikkelen van software dat PDF bestanden kan produceren, verwerken en interpreteren. ODF is open, relatief stabiel en oogt betrouwbaar. De geschiktheid van ODF als opslagformaat is twijfelachtig omdat het bestand een ZIP-formaat is en hierdoor mogelijk foutgevoelig wordt. Daarnaast treedt er onacceptabel informatieverlies op bij migratie naar dit bestandsformaat. Een ODF bestand is niet op zich zelf staand, maar is afhankelijk van externe bronnen voor informatie om het document te kunnen weergeven. OOXML scoort goed in het behouden van informatie vanuit Word 97-2003 bestanden, maar scoort op wijdverspreidheid, openheid en betrouwbaarheid laag. De geschiktheid van OOXML als opslagformaat is twijfelachtig omdat het bestand een ZIP-formaat is en hierdoor mogelijk foutgevoelig wordt. Een OOXML bestand is niet op zich zelf staand, maar is afhankelijk van externe bronnen voor informatie om het document te kunnen weergeven. De aanbeveling is dan ook om Word 2003-2007 bestanden, bij signalering dat het Word 2003-2007 bestandsformaat in ongebruik raakt, te migreren naar PDF/A1-a. Wel zijn er nog enkele openstaande zaken die uitgezocht dienen te worden om tot een actieplan te komen, zie hiervoor de follow-up in hoofdstuk 4.8. 4.8 Follow-up De opzet van dit plan was om de verschillende open standaarden naast elkaar te vergelijken aan de hand van aangescherpte eisen. Er is gekozen voor een generieke migratie naar PDF/A-1a. Maar PDF kent vele instellingsmogelijkheden en (commerciële) migratietools die nog niet in dit plan zijn meegenomen. Daarom is verder onderzoek naar de precieze PDF instellingen, (betere) migratietools en validatiemogelijkheden 23 nodig om PDF/A-1a als duurzaamheidsoplossing verder te verfijnen. Daarnaast dient het beleid transparantie van ingebedde afbeeldingen als acceptabel verlies te bestempelen om te kunnen voldoen aan de PDF/A-1a standaard. Een nog niet onderzocht alternatief is om op het gebied van transparantie niet te voldoen aan de PDF/A-1a standaard of om te wachten op PDF/A-2. Binnen de PDF/A-2 standaard is transparantie wel mogelijk. Verwacht wordt dat PDF/A-2 als ISO standaard wordt erkend in het najaar 24. MS Word 97-2003 bestanden kunnen verschillende mate van complexiteit bezitten. Voor pure tekstbestanden kan een andere aanpak gelden dan voor complexe bestanden met embedde objecten. Het kan noodzakelijk zijn om dit verschil in complexiteit in de toekomst te onderkennen en toe te passen. Vervolg onderzoek zal moeten uitwijzen hoe dit te doen. 21 http://partners.adobe.com/public/developer/support/topic_legal_notices.html 22 http://www.digitalpreservation.gov/formats/fdd/fdd000030.shtml 23 http://www.pdfa.org/doku.php?id=pdfa:en:isartor_test_suite 24 http://www.archipel-project.be/content/pdfa-2-er-bijna 18 van 26
Naast MS Word 97-2003 documenten dienen er preserveringsplannen gemaakt te worden voor andere soorten tekstdocumenten die in onze collectie voorkomen. Te denken valt aan documenten gemaakt met WordPerfect en MS Word 7 en ouder. 5. Het actieplan Na vaststelling van de te kiezen strategie kan het preserveringsactieplan gemaakt worden. Opsomming van acties, met verantwoordelijken en betrokkenen (misschien een flowchart?) - Betrokkenen, rollen en uren - Planning - Benodigde middelen - Uitwerking kosten Kosten van de voorbereiding Kosten van de uitvoering 19 van 26
6. Bronvermelding Het archiveren waard:pdf/a-1 verplicht voor overheidsorganisaties Erika Hokke, Archievenblad April 2009 Preservation of word processing documents Ian Barnes, The Australian National University, Friday, 14 July 2006, 12:50:10 PM Website College en Forum Standaardisatie http://www.forumstandaardisatie.nl/ Forum Standaardisatie lijst met open standaarden www.forumstandaardisatie.nl/fileadmin/ovos/os_lijst_open_standaarden_voor_pas_toe_of_leg_uit.p df Preserveringsbeleid e-depot Gemeentearchief Rotterdam 2007-2008 Jacqueline Schuurman-Hess et al. Website Xena (Xml Electronic Normalising for Archives) Software for Digital Preservation http://xena.sourceforge.net/index.php Open Office http://nl.openoffice.org/ Open Document Format for Office Applications (OpenDocument) v1.0 OASIS Standard, 1 May 2005 (Open Document Format OASIS specificatie (incl. ODT) http://www.oasis-open.org/committees/download.php/12572/opendocument-v1.0-os.pdf PDF/A specificatie ISO 19005-1:2005 Microsoft Developer Network http://msdn.microsoft.com/en-us/library/default.aspx [MS-OFFDI]: Word Binary File Format (.doc) Structure Specification http://msdn.microsoft.com/en-us/library/cc313153.aspx [MS-OLEDS]: Object Linking and Embedding (OLE) Data Structures: Structure Specification http://msdn.microsoft.com/en-us/library/cc313062.aspx Details for: Microsoft Word for Windows Document 97-2003 from Technical Registry PRONOM http://www.nationalarchives.gov.uk/pronom/format/proformatsearch.aspx?status=detailreport&id= 690 Planets Preservation Planning Tool: Plato 2.1 User Manual V1.0, November 10, 2009 http://www.ifs.tuwien.ac.at/dp/plato/docs/plato_21_usermanual.pdf MICROSOFT OFFICE WORD 97-2007 BINARY FILE FORMAT SPECIFICATION [*.doc] http://www.digitalpreservation.gov/formats/digformatspecs/word97-2007binaryfileformat%28doc%29specification.pdf Sustainability of Digital Formats Planning for Library of Congress Collections http://www.digitalpreservation.gov/formats/fdd/fdd000030.shtml 20 van 26
Bijlage I Triggers voor aanpassing preserveringsplan 25 Created because of [trigger] + [risk]: - New Collection Alert (NCA) New Preservation plan from scratch for a new collection - Changed Collection Profile Alert (CPA) Change in the collection profile of an existing collection requires a revision of existing preservation plan. Examples for changes in the collection profile are new accepted object formats or significant change in collection size. - Changed Environment Alert (CEA) The environment of a preservation plan consists of technology environment, designated communities and the host institution. Changes in environment can lead to a change in the evaluation of objectives of existing preservation plans, for example changed prices for hardware or software. Other changes are new available preservation strategies or used object formats in an existing preservation plan are becoming obsolete. Changes in the environment require a revision of existing preservation plans, the objectives for the evaluation remain unchanged. - Changed Objective Alert (COA) Changes and developments in the environment can change the objectives for preservation evaluation over time. In this case a Changed Objective Alert is raised to evaluate existing preservation plans against changed objectives. Examples for changes of objectives are technology developments, new standards that have to be fulfilled by the preservation plans, change of the designated community that effects the objectives and changes of institutional policies or legal obligations. - Periodic Review Alert (PRA) Periodical reviews of existing preservation plans help to improve and further develop existing plans. A Periodic Revision Alert is raised to re-iterate the planning activity taking into account new developed preservation strategies to improve the existing plans. 25 http://www.ifs.tuwien.ac.at/dp/plato/docs/plato_21_usermanual.pdf 21 van 26
Bijlage II PLATO workflow 26 Basis van een preserveringsstrategie: De beslissing heeft niet alleen te maken met de technische mogelijkheden, maar ook met het proces, het doel en de financiële aspecten. PLATO is afkorting van Planning Tool en is een ondersteunend middel in het nemen van besluiten voor preservering. Het is geen automatisch middel wat een besluit kan maken. PLATO heeft 4 fases: 1. Definieert het scenario en de grenzen. Het specificeert de vereisten waaraan voldaan moet worden voor de mogelijke alternatieven van de preserverings-acties. De vereisten worden verzameld vanuit een zeer breed gebied (vanuit de gehele organisatie). 2. Identificeert en evalueert mogelijke alternatieven. De karakteristieken en technische details van deze alternatieven worden gespecificeerd. Hierna worden de middelen (resources) voor de experimenten geselecteerd, de te gebruiken tools. Daarna worden de experimenten ook daadwerkelijk uitgevoerd. Naar aanleiding van de gespecificeerde eisen in de eerste fase worden de experimenten geëvalueerd. 3. In deze fase worden de resultaten van de gehouden experimenten verzameld om ze te kunnen vergelijken, het belang ( weging ) van de verschillende factoren wordt vastgesteld en de verschillende alternatieven krijgen een waardering. 4. Het bouwen van een preserveringsplan. Het preserveringsplan definieert een serie van preserveringsacties die een verantwoordelijk instituut (het GAR) moet ondernemen te wijten aan een benoemd risico voor een gegeven set van digitale objecten of records (lees collectie) 11 stappen van Plato Stap 1 Het definiëren van de basis De basis van het preserveringsplan is een beschrijving bestaande uit de vereiste typen bestanden, een omschrijving van de omgeving waarbinnen het planningsproces gaat plaatsvinden en informatie over het aantal bestanden of records. Stap 2 Het kiezen van bestanden Om de verschillende strategieën goed te kunnen evalueren heb je voorbeeld bestanden nodig om de experimenten mee uit te voeren. Deze voorbeeldbestanden moeten representatief zijn voor de bestanden/collectie waar je het preserveringsplan voor maakt, zodat alle specifieke kenmerken en eisen van de bestanden naar voren komen. Stap 3 Het identificeren/opstellen van de eisen Het doel van deze essentiële stap is om duidelijk de eisen en doelen voor de preserveringsoplossing op te stellen. In de zogenaamde objective tree worden doelen en gedetailleerde vereisten opgesteld en georganiseerd in een boom-structuur. Hoe deze structuur wordt ingericht verschilt per preserveringplan, maar er moet een onderscheid moet gemaakt worden in 4 hoofdcategorieën: - Bestandskenmerken/eigenschappen. Hier worden de specifieke eigenschappen ( essentiële kenmerken ) voor de bestanden die van belang zijn gedefinieerd. Voorbeelden hiervan kunnen zijn: verschijningsvorm, inhoud, structuur,gedrag etc - Record characteristics. Deze beschrijven technische kenmerken van de digitale bestanden, de context waarin de bestanden zich bevinden, het opslagmedium, de onderlinge relaties tussen verschillende bestanden, de metadata etc. - Proces eigenschappen. Deze beschrijven het preserveringsproces. Hieronder verstaan we bijvoorbeeld gebruik, complexiteit en meetbaarheid van het proces - Kosten. Deze hebben een grote invloed op de keuze van de preserveringsstrategie. Deze kunnen over het algemeen onderverdeeld worden in technische kosten en personele kosten. Stap 4 Het definiëren van de verschillende alternatieven/strategieën In deze stap worden de verschillende strategieën gedefinieerd die uiteindelijk door PLATO worden geëvalueerd. De preservation planning software ondersteund deze stap door beschikbare 26 http://www.ifs.tuwien.ac.at/dp/plato/docs/plato_21_usermanual.pdf 22 van 26
preserveringsacties/services te noemen. (PLATO besluit niet in de strategieën, dit moet zelf gedaan worden) Hier wordt door de planner geschat hoeveel werk, tijd en geld het kost voor elk optie. (het specificeren van de middelen) Stap 5 Go / No-Go Hier wordt bekeken of de gekozen alternatieven haalbaar zijn. Dit gebeurt voornamelijk aan de hand van de beschikbare middelen. Het resultaat hiervan is een besluit om door te gaan met de evaluatie of een verantwoording waarom sommige strategieën niet gekozen worden. Een bepaalde actie kan bijvoorbeeld technisch wel haalbaar zijn, maar de kosten voor de aanschaf van de apparatuur zijn veel te hoog. Stap 6 Het ontwikkelen van de testen Een gedocumenteerde opstelling is nodig om verschillende tests te kunnen herhalen. In deze stap wordt voor elke strategie een specifiek test plan opgesteld waarin de te hanteren werkwijze, soft-en hardware van de gebruikte omgeving en de manier waarop de resultaten worden vastgelegd, wordt beschreven. De testen kunnen uitgevoerd worden met online services of in een eigen testomgeving. Wanneer de online services van Plato gebruikt gaan worden, worden de parameters en de keuze in de diensten door de planner bepaald. Stap 7 De testen uitvoeren In deze stap worden de uiteindelijke testen uitgevoerd (de verschillende strategieën worden met de gekozen bestanden uitgevoerd). Deze testen worden door de verantwoordelijke persoon uitgevoerd en niet door het systeem. De resultaten van de test worden in stap 8 geëvalueerd. Stap 8 Het evalueren van de testresultaten In deze stap worden de resultaten geëvalueerd zodat er bepaald kan worden in hoeverre de vereisten die opgesteld zijn in de objective tree ook daadwerkelijk gehaald zijn. Stap 9 Het transformeren van de waarden De metingen/resultaten van de uitgevoerde testen kunnen uitkomsten hebben in verschillende schalen. Om de metingen per strategie te kunnen optellen en onderling te kunnen vergelijken moeten ze getransformeerd worden naar één uniforme schaal. Hierbij wordt gebruik gemaakt van de transformatie functies. Stap 10 Het vaststellen van het belang Niet alle kenmerken/eigenschappen zijn even belangrijk. In deze stap wordt vastgesteld welke doelstellingen een grote rol spelen voor de preservering en welke doelstellingen een minimale rol. Het belang van een bepaalde factor kan wisselen per preserveringsplan en hangt af van de eisen die er gesteld worden. Stap 11 Het analyseren van de resultaten In deze stap worden de testresultaten vergeleken met het gewicht (hoe belangrijk is een bepaalde factor/kenmerk stap 10) wat uiteindelijk moet leiden tot een keuze. Door de berekening die Plato maakt, krijg je inzicht in je verschillende strategieën en welke, in het licht van de gedefinieerde eisen en doelen, het beste is voor de gekozen collectie/bestandstype. 23 van 26
Bijlage III Objective tree met preserveringseisen 24 van 26
Bijlage IV weging van de eisen 25 van 26
Bijlage V Open Document Format (ODF) bestandsextensies De OpenDocument-indeling (ODF), oftewel het OASIS Open Document Format for Office Applications, is een open standaard voor het bewaren en/of uitwisselen van tekstbestanden, rekenbladen, grafieken en presentaties. De OpenDocument-standaard werd ontwikkeld door het OASIS-consortium, vanuit de XML-gebaseerde bestandsindeling van OpenOffice.org. De belangrijkste bestandsextensies voor documenten (.od?) en bijhorende sjablonen (.ot?) (t van template):.odb voor databank.odc voor grafiek,.otc voor grafieksjabloon (c van chart).odf voor formule en wiskundige vergelijking,.otf voor formulesjabloon (f van formula).odg voor (vector)tekening,.otg voor tekeningsjabloon (g van graphic).oth voor webpaginasjabloon (h van html).odi voor afbeelding,.oti voor afbeeldingssjabloon (i van image).odm voor hoofddocument (m van master).odp voor presentatie,.otp voor presentatiesjabloon (p van presentation).ods voor rekenblad,.ots voor rekenbladsjabloon (s van spreadsheet).odt voor tekst,.ott voor tekstsjabloon Bron: http://nl.wikipedia.org/wiki/opendocument 26 van 26