Preserveringsplan. MS Word tekstdocumenten

Maat: px
Weergave met pagina beginnen:

Download "Preserveringsplan. MS Word 97-2003 tekstdocumenten"

Transcriptie

1 Preserveringsplan MS Word tekstdocumenten Identificatie Code: [Id P-plan] Name: MS Word tekstdocumenten Auteur: Jacob Takema Organisatie: Gemeentearchief Rotterdam Datum: Versie: V2.6 1 van 26

2 Status Geldig vanaf Gebaseerd op eerder preserveringsplan Inmiddels vervangen door Vervangen / ongeldig sinds: Vastgesteld door: Datum vaststelling: [datum] concept 0.7 Preserveringsplan Tekstdocumenten (binair) (Prototype document) [ID] [datum] Stuurgroep [datum] Aanleiding voor revaluatie en aanpassing (triggers zie bijlage I): - Changed Objective Alert (COA) - Changed Environment Alert (CEA) - Changed Collection Profile Alert (CPA) Contributies Naam Datum Bijdrage Jacob Takema Auteur Commentaar Commentator Datum Versie Opmerkingen Annie de Roover V2.1 Mette van Essen V2.1 Annie de Roover V2.2 Annie de Roover V2.3 Klankbordgroep V2.4 n.a.v. reviewformulieren klankbordgroep Jacob Takema V2.5 Lay-out aangepast Jacob Takema V2.6 Datum en commentaar kolom bijgewerkt 2 van 26

3 Samenvatting Het doel van dit document is om de overwegingen duidelijk te krijgen en advies te geven over de oplossingsrichting voor een actieplan voor het verduurzamen van MS Word documenten. Dit document richt zich op strategieën waarbij het omzetten naar een ISO-genormeerd bestandsformaat de voorkeur geniet. In deze categorie zitten de bestandsformaten PDF/A-1 a, OOXML en ODF 1.0. We gebruiken de PLANETS preservation planning workflow. Deze workflow is een manier om het complexe preserveringsplanningsproces te doorlopen en staat beschreven in bijlage II. Er is gebruik gemaakt van de planning tool PLATO, die beschikbaar is als een online service. Om tot de beste oplossingsrichting te komen zijn er experimenten uitgevoerd op een verzameling testbestanden. De uitkomsten van deze experimenten zijn gewogen en geanalyseerd. De uitkomsten van de experimenten geven aan dat de migratie naar PDF/A-1a volgens de huidige set van eisen de beste oplossing is om MS Word bestanden te verduurzamen. PDF/A-1a behoudt goed de informatiekenmerken van het oorspronkelijke document. Daarnaast is een PDF/A-1a bestand een op zichzelf staand bestand dat niet afhankelijk is van informatie van externe bronnen (bijvoorbeeld lettertypen) om het document te kunnen weergeven, dit is bevorderlijk voor de duurzaamheid. Verder laat de PDF/A-1a standaard geen transparantie en actieve hyperlinks toe. Een randvoorwaarde is daarom dat documenten, met afbeeldingen die transparantie bevatten, deze transparantie mogen verliezen en actieve hyperlinks inactief mogen worden gemaakt om te kunnen voldoen aan de PDF/A-1a standaard. Tot slot is het gebruik van PDF wijdverspreid, wat ten goede komt aan de duurzame toegankelijkheid van PDF/A-1a bestanden. Een nadeel is dat Adobe patenten bezit m.b.t. technologie die betrekking kan hebben op de PDF/A- 1a specificatie. Wel heeft Adobe, om het gebruik van PDF te promoten, de PDF patenten m.b.t. informatie uitwisseling royalty vrij en op niet-exclusieve basis ter beschikking gesteld voor het ontwikkelen van software dat PDF bestanden kan produceren, verwerken en interpreteren. De aanbeveling is dan ook om Word bestanden, bij signalering dat het Word bestandsformaat in ongebruik raakt, te migreren naar PDF/A1-a. Wel zijn er enkele openstaande zaken die nog uitgezocht dienen te worden om tot een actieplan te komen, zie hiervoor de follow-up in hoofdstuk van 26

4 Inhoudsopgave Samenvatting... 3 Inleiding... 5 Definitie preserveringsplan... 5 Leeswijzer Grondslag Aanpassingen t.o.v. de voorgaande versie Beschrijving van de bestanden Voor- en nadelen Afbakening Type-omschrijving Microsoft Word.doc bestandsformaatversies Microsoft Word versies Voorbeeld-objecten Doel en Eisen Doel van dit plan De Objective Tree Strategie Uitgevoerde experimenten en afgevallen opties Geanalyseerde experimenten Testpad Resultaten Evaluatie Openstaande zaken Conclusie en aanbevelingen Follow-up Het actieplan Bronvermelding...20 Bijlage I Triggers voor aanpassing preserveringsplan...21 Bijlage II PLATO workflow...22 Bijlage III Objective tree met preserveringseisen...24 Bijlage IV weging van de eisen...25 Bijlage V Open Document Format (ODF) bestandsextensies van 26

5 Inleiding Definitie preserveringsplan Een preserveringsplan definieert de serie van preserveringsacties die doorlopen dient te worden ter preservering van een vooraf vastgestelde collectie digitale objecten (of records). Idealiter houdt het plan daarbij rekening met voorgeschreven beleid, juridische verplichtingen, organisatorische en technische beperkingen, gebruikerseisen en doeleinden van preservering. Het beschrijft de preserveringsomstandigheden, de in overweging genomen strategieën, de geteste preserveringstools en acties en de als resultaat daarvan genomen en onderbouwde beslissingen. Het in het preserveringsplan opgenomen actieplan formuleert de te nemen stappen ten behoeve van preservering, in combinatie met gestelde verantwoordelijkheden, procedures en condities waaronder gewerkt moet worden. Met nadruk op haalbare, toetsbare en technisch mogelijke acties, biedt dit preserveringsplan een blauwdruk voor het preserveren van de desbetreffende collectie. Een preserveringsplan is voortdurend aan actualisering onderhevig. Externe invloeden, organisatorische en technische factoren maken het document zeer dynamisch. Leeswijzer Dit document is een neerslag van het preserveringsplanningsproces in de planning tool PLATO en is de bijbehorende workflow gevolgd (zie bijlage II). In hoofdstuk 1 wordt de grondslag voor dit plan als fundament voor de preservering uitgelegd. Hoofdstuk 2 beschrijft de met dit plan te preserveren collectie. In hoofdstuk 3 zijn doel en te volgen eisen vastgelegd. Hoofdstuk 4 is een weergave van de overwogen en geteste strategieën en bijbehorende conclusies en aanbevelingen. Hoofdstuk 5 is het uit te voeren actieplan. 5 van 26

6 1. Grondslag Het Gemeentearchief Rotterdam stelt zich ten doel het in goede, geordende en toegankelijke staat brengen en houden van zijn collecties. In dit document wordt rekening gehouden met wet- en regelgeving, interne beleidsstukken, overeenkomsten en contracten: - Archiefwet Archiefbesluit Archiefregeling Auteurswet College en Forum Standaardisatie 4 - Besluit Informatiebeheer Rotterdam Preserveringsbeleid e-depot Gemeentearchief Rotterdam (wordt herzien) 1.1 Aanpassingen t.o.v. de voorgaande versie Het vorige document had als hypothese het omzetten van informatie van een gesloten, ongedocumenteerd en binair-formaat naar een open, gedocumenteerd, tekst-gebaseerd bestandsformaat om de duurzaamheid te verbeteren. Bij het vorige document bleek dat een beperkte set van eisen te zwaar het belang van openheid benadrukte ten koste van de eisen m.b.t. (on)acceptabel informatieverlies. Deze balans is hersteld in dit document. De hypothese werd als te beperkt ervaren en is losgelaten. De opzet van het huidige plan is om op basis van een verbeterde set eisen, verschillende standaarden naast elkaar te vergelijken. Daarnaast is een grotere set testbestanden gebruikt Het kabinet streeft naar verbetering van overheidsdienstverlening en naar administratieve lastenverlichting. Daarom heeft het kabinet in 2006 op basis van een advies besloten tot de instelling van het College en Forum Standaardisatie. Deze adviesorganen bevorderen de digitale samenwerking (interoperabiliteit) tussen bedrijven, burgers en overheden, met de nadruk op standaardisatie. Bron: 6 van 26

7 2. Beschrijving van de bestanden Het soort digitale bestanden waar dit plan betrekking op heeft, zijn tekstdocumenten. Een tekstdocument is een bestand dat gecreëerd is met een tekstverwerkingsprogramma, zoals Microsoft Word of WordPerfect. Afgezien van ontwikkelingen van de laatste jaren is een tekstdocument vaak een binair bestand 5 : een computerbestand dat gecodeerd is in een binair formaat dat alleen voor bijbehorende applicatiesoftware begrijpelijk en leesbaar is (afbeelding 1). Afbeelding 1: een weergave van een Worddocument en de onderliggende data. Dit in tegenstelling tot de bestandsformaten voor tekstdocumenten van de laatste jaren, deze worden steeds meer op XML gebaseerd. Dit betekent dat de door de applicatiesoftware te lezen data bestaat uit teksttekens. Hierdoor is de inhoudelijke tekst, structuur en opmaak duidelijk onderscheiden aanwezig in de data (afbeelding 2). Afbeelding 2: de onderliggende data van een Open Document Format tekstdocument. De inhoudelijke tekst uit het document is leesbaar aanwezig in de onderliggende XML-data van 26

8 2.1 Voor- en nadelen De directe leesbaarheid van XML wordt gezien als gunstig voor de duurzaamheid. Het vergroot de kans om in de toekomst documenten interpreteerbaar te houden met de dan courante software. De keuze voor een open binair bestandsformaat is ook te rechtvaardigen. Een open bestandsformaat betekent dat het formaat gespecificeerd is en dat de specificatie openbaar en vrij of tegen geringe kosten beschikbaar is. Het is dan nog wel binair van aard en niet direct door mensen leesbaar zoals XML, maar door middel van de open specificatie kan de duurzame toegankelijkheid wel beter nagestreefd worden dan bij een gesloten bestandsformaat. Door de open specificatie en indien de kwaliteit van de specificatie voldoende is, is het voor ontwikkelaars mogelijk om applicaties te bouwen die deze bestanden kunnen interpreteren. Een bestandsformaat kan daardoor breder ondersteund worden en dit is positief voor de duurzame toegankelijkheid. Daarnaast is de gedachte dat in geval van nood, er op basis van deze open specificatie, viewers gebouwd kunnen worden om de bestanden leesbaar te houden. 2.2 Afbakening Het MS Word bestandsformaat is een gesloten binair bestandsformaat, dat jarenlang een de facto standaard was op het gebied van tekstverwerking en nog veel wordt gebruikt. Microsoft heeft in 2008 de specificatie 6 van het bestandsformaat openbaar gemaakt, waardoor het een wat minder gesloten bestandsformaat is geworden en er iets meer bekend is hoe de informatie daadwerkelijk is gecodeerd in het bestand. Het bestandsformaat is niet erg interoperabel: een andere softwareversie dan waarin het bestand gecreëerd is kan interpretatieverschillen en een andere weergave van hetzelfde document opleveren. Het is nog niet bedreigd, maar ook geen duurzaam opslagformaat. Bij tekenen van het in ongebruik raken van dit bestandsformaat is het noodzakelijk preserveringshandelingen te initiëren. Dit document beperkt zich voor nu tot MS-Word bestanden. Deze bestanden behoren tot de concern standaard en komen veel voor binnen de overheid en bij het GAR. Ook particulieren gebruiken nog veel dit bestandsformaat. Er is geen specifieke collectie bekend waarbinnen uitsluitend Word-bestanden voorkomen: dit type bestanden komt waarschijnlijk vooral versnipperd voor binnen verschillende archieven en collecties. Oudere Word-bestanden (en andere tekstdocumenten zoals WordPerfect-bestanden) worden, indien nodig, in een later stadium onderzocht. 2.3Type-omschrijving Met het uitbrengen van Word 97 heeft Microsoft haar tekstverwerkingsformaat (.doc) gereviseerd. Dit zogenaamde Microsoft Word formaat is een subvorm van het OLE2 8 Compound Document Format 9. OLE2 Compound Document Format, hierna OLE2 genoemd is ontwikkeld door Microsoft als overkoepelend bestandsformaat voor zijn Office applicaties en biedt de mogelijkheid om inhoud vanuit het ene Office programma te linken naar, of te importeren in, het andere Office programma. Bijvoorbeeld een grafiek vanuit Excel is in Word geïmporteerd. Alle Microsoft Word bestanden zijn OLE2 bestanden, hoewel niet elk bestand ingebedde objecten bevat. 6 Word Binary File Format (.doc) Structure Specification 7 Het MS Word formaat wordt beschouwd als onveranderd gebleven sinds het uitkomen van Word 97, 2000, 2002 en 2003: daarom wordt het formaat aangeduid als MS Word (bron: PRONOM Technical Registry, 8 OLE: Object Linking and Embedding 9 Object Linking and Embedding (OLE) Data Structures: Structure Specification 8 van 26

9 Afbeelding 3: opbouw OLE2 bestand met WordDocument stream (blauwe balk). Dit is een Word-document met een ingebed object: een afbeelding. De data van dit object zit in de container _ die zich weer in de ObjectPool container bevind. OLE2 werkt als een file system, bestaand uit een hiërarchie en is een samengesteld ( compound ) bestand van datastreams 10 en mogelijk één of meer containers (zie afbeelding 3). Neem bijvoorbeeld de Excel-grafiek die in Word is geïmporteerd: het Word-document is dan opgeslagen in een container als een Word Document stream, terwijl in een andere container de grafiek als onderdeel van een Excel werkboek is opgeslagen. De Excel grafiek is dan een ingebed object in het Word-document. 2.4 Microsoft Word.doc bestandsformaatversies Het bepalen van de bestandsformaat versie is mogelijk door in de datastream CompObj te kijken, zoals te zien is in afbeelding 4. Hier kan het volgende staan: Word.Document.6 (Word 6 formaat) Word.Document.7 (Word 95 formaat) Word.Document.8 (Word 97 of een later formaat) Dit plan richt zich op documenten van de Word.Document.8 versie oftewel MS Word documenten. Specifiekere (sub)versie informatie is niet beschikbaar. Afbeelding 4: de bestandsformaatversie, hier van Word 97 of later, is zichtbaar gemaakt in de datastream met de applicatie SSViewer Structure Storage Viewer, versie van 26

10 2.5 Microsoft Word versies MS Word bestanden kunnen gemaakt zijn met MS Word 97, 2000, 2002, 2003 of 2007 (de Macintosh buiten beschouwing gelaten). Het met absolute zekerheid vaststellen van de creatiesoftware is bij MS Wordbestanden niet mogelijk. Wel is vast te stellen met welke software het bestand voor het laatst is bewerkt. Dit is in het geval van MS Word 97, 2000 en 2002 mogelijk door de bestandseigenschappen te raadplegen of te kijken in de datastreams. Bij bestanden die gemaakt of geopend en opgeslagen zijn in MS Word 2003 of 2007 wordt er geen versie meer weergeven, alleen Microsoft Office Word staat vermeld in de datastream. 2.6 Voorbeeld-objecten De identificatie van alle in de collecties van het GAR opgenomen tekstdocumenten, is wegens beperkingen van het huidige beheersysteem niet mogelijk geweest voor dit preserveringsplan. Op stuksniveau zijn digitale objecten in het beheerssysteem niet identificeerbaar. Het identificeren van bestandsformaten is nog onderwerp van onderzoek, er is dan ook geen verzameling of collectie bestanden (op basis van bestandsformaat) om vanuit te gaan. Daarom is er gekozen om uit te gaan van losse bestanden vanuit verschillende verzamelingen. Er is gekozen voor MS-Word testbestanden die meerdere inhoudelijke eigenschappen bevatten: naast tekst en opmaak ook veel afbeeldingen, tabellen en grafieken. De testset bevat bestanden met ingebedde objecten en zonder. Wat betreft bestandsformaatversies is geput uit de beschikbare testbestanden en dit leverde bestanden op die gemaakt zijn in MS Word 2002 en 2003/2007. De beschikbare testbestanden bevatten geen bestanden die gemaakt zijn met MS Word 97 en Daarom zijn met deze programma s bestanden gemaakt die zijn vergeleken op een aantal variabelen t.o.v. MS Word 2002 en 2003 of latere bestanden. Dit geeft een voorlopige, maar geen definitieve, uitslag voor de geldigheid van dit preserveringsplan voor alle MS-Word bestanden die gemaakt zijn met MS Word 97 t/m 2003 (en 2007). In de loop der tijd zullen meer testbestanden vanuit digitale archieven beschikbaar komen en deze zullen getoetst worden aan de huidige testresultaten. Op basis van het resultaat van deze toetsing zal dit document worden bijgewerkt. 10 van 26

11 3. Doel en Eisen 3.1. Doel van dit plan Het doel van dit document is om de overwegingen duidelijk te krijgen, advies te geven over de oplossingsrichting en een actieplan op te leveren voor het verduurzamen van MS Word documenten. We gebruiken de PLANETS preservation planning workflow. Deze workflow is een manier om het complexe preserveringsplanningsproces te doorlopen en staat beschreven in bijlage II. Er is gebruik gemaakt van de planning tool PLATO, die beschikbaar is als een online service 12. Dit document richt zich op strategieën waarbij het omzetten naar een ISO-genormeerd bestandsformaat de voorkeur geniet. In deze categorie zitten de bestandsformaten PDF/A-1a, OOXML en ODF 1.0. Dit plan zal zich op deze bestandsformaten richten De Objective Tree Een belangrijke stap bij het maken van een preserveringsplan is het duidelijk opstellen van eisen en doelen 13 voor de preserveringsoplossing. In de zogenaamde objective tree 14 worden doelen en gedetailleerde vereisten opgesteld en georganiseerd in een boom-structuur. Voor dit preserveringplan voor tekstdocumenten is een Objective tree gemaakt, hieronder wordt een vereenvoudigde versie weergegeven. Voor de gehele boom zie bijlage III. Objective tree tekstdocumenten Eisen aan het doel-bestandsformaat o Openheid o Kwaliteit van de documentatie o Wijdverspreidheid o Ondersteuning door viewers o Internationale standaard Essentiële kenmerken o Uiterlijk / re-creatie o Structuur o Inhoud o Gedrag Proces eigenschappen o Procesduur 12 PLATO, PLANETS Preservation Planning Tool, mei Framework for the definition of significant properties - Gareth Knight, V1,05/02/ The Objective Tree: Defining goals and requirements - Christoph Becker, april van 26

12 4. Strategie 4.1 Uitgevoerde experimenten en afgevallen opties De gekozen oplossingmogelijkheden worden gezocht bij de ISO-genormeerde bestandsformaten PDF/A-1a 15, OOXML 16 en ODF 17. Er zijn tien experimenten overwogen, zie tabel 1. Hiervan zijn er zeven uitgevoerd en uiteindelijk vijf geanalyseerd en verwerkt tot een advies. Exp. Nr. Experiment (migratie van naar) Platform en Tool Mee in analyse? Reden 1. Doc>PDF/A-1a - Office 2007 Ja - ISO standaard - PDF is goed in het behouden van de opmaak Doc>PDF Word Cute PDF Nee - geen configuratiemogelijkheden voor het outputformaat Doc>PDF/A-1a - Word Adobe Acrobat Pro 4. Doc>ODF OpenOffice 3.2 Nee ja - Adobe Acrobat Pro is niet correct geconfigureerd in de CItrix omgeving Alternatief: Combinatie van Office 2003 en Adobe Acrobat Pro realiseren binnen een stand-alone situatie. - ODF 1.0 is een ISO-standaard 5. Doc>ODF Open Office XENA Doc>ODF OpenOffice 3.2 ja nee - Goede ervaringen uit eerdere experimenten - ODF 1.0 is een ISO-standaard - XENA is een tool die ontwikkeld is met als uitdrukkelijk doel duurzame lange termijn bewaring - ODF 1.2 is geen ISO-standaard - omzetting geeft bij initiële testen geen betere resultaten dan ODF 1.0 bij experiment Doc>OOXML - Office 2007 ja - ISO-standaard - uit eigen ervaringen goede resultaten wat betreft informatiebehoud bij migratie. 8. Doc>PDF Adobe Acrobat Pro Nee - Is nog niet helemaal helder of PDF 1.7 geschikt is voor Word-documenten, het lijkt zich te richten op andere documenttypen: initiële experimenten noodzakelijk. - Adobe Acrobat Pro is niet correct geconfigureerd in de CItrix omgeving Alternatief: Combinatie van Office 2003 en Adobe Acrobat Pro realiseren binnen een stand-alone situatie. 9. Doc>OOXML>ODF Office ODF plug-in Ja - ODF 1.0 is een ISO-standaard 10. Doc>PDF/A-1a - Commerciële tools nee - nog onbekend terrein - budget - keuzecriteria Tabel 1: Overwogen, uitgevoerde en geanalyseerde experimenten 15 ISO : ISO/IEC :2008, ISO/IEC :2008, ISO/IEC :2008, ISO/IEC : ISO/IEC 26300: van 26

13 4.2 Geanalyseerde experimenten 1. Doc>PDF/A-1a Migratie naar PDF/A-1a vanuit MS-Word 2007 PDF/A-1a is meegenomen als optie omdat PDF veel wordt gebruikt en omdat het de opmaak van een document goed kan weergeven. De ISO-standaard kent twee toepassingsniveau s, namelijk PDF/A1- a en PDF/A1-b. PDF/A1-a heeft betrekking op de gehele specificatie van ISO PDF/A1-b voldoet aan de minimaal noodzakelijke eisen en behoudt met name het uiterlijk van het document, maar behoudt niet de documentstructuur die een origineel gecreëerd PDF/A1-a document wel bevat. PDF/A1-b wordt dan ook vooral gebruikt voor ingescande documenten. In dit document werken we met PDF/A1-a, namelijk een PDF die voldoet aan de ISO standaard. 4. Doc>ODF 1.0 Migratie naar ODF met Open Office 3.2 Het Open Document Format is open gedocumenteerd en een XML-based bestandsformaat. Viewers en tekstverwerkingsprogramma's zoals OpenOffice zijn vaak open-source en gratis te downloaden. ODF staat op de lijst met open standaarden 18 van het Forum Standaardisatie. 5. XENA>ODF 1.0 Migratie naar ODF met XENA en Open Office 3.2 XENA (Xml Electronic Normalising for Archives) is een vrij verkrijgbare open-source software ontwikkeld door het Nationaal Archief van Australië. XENA wordt door het Nationaal Archief van Australie gebruikt voor het normaliseren van digitale records naar open standaarden. XENA converteert MS-Word documenten naar ODF en maakt hierbij gebruik van Open Office. Het is geschreven in Java en is daardoor cross-platform en draait op Linux, Windows en OS X. 7. Doc>OOXML Migratie naar OOXML met MS-Word 2007 OOXML is een ISO-standaard. Het is ontwikkeld om te bestaan naast de legacy formaten van Microsoft zoals word 6 en Word en niet met als doel interoperabiliteit. OOXML wordt meegenomen als mogelijk strategie omdat eerdere ervaringen leren dat het goede resultaten geeft wat betreft informatiebehoud bij migratie. 9. Doc>OOXML>ODF 1.0 Migratie naar Open Document Format 1.0 (ODF) via OOXML, vanuit MS-Word 2007 Er is gekozen om te converteren m.b.v. MS Word 2007, omdat deze een plug-in heeft waarmee naar ODF geconverteerd kan worden. 18 Op deze lijst staan open standaarden die volgens het comply or explain -regime verplicht zijn gesteld voor de overheid. 13 van 26

14 4.3 Testpad Voor elk van de genoemde testopties zijn experimenten uitgevoerd met testobjecten. De experimenten zijn als volgt opgezet. 1. Doc>PDF/A-1a Migratie naar PDF/A1-a vanuit MS-Word 2007 Het oorspronkelijke MS-Word bestand is geopend met MS-Word 2007 (opent in de compatibiliteitsmodus), en m.b.v. een Plug-in in MS Word, is het document geconverteerd naar PDF/A-1a (ISO ). Platform: Windows XP Professional 2002, servicepack 3 Microsoft Office 2007 plug-in: SaveAsPDFandXPS, versie: Ontwikkelaar: Microsoft Corporation 4. Doc>ODF 1.0 Migratie naar ODF met Open Office 3.2 Platform: Windows XP Professional 2002, servicepack 3 Open Office XENA>ODF 1.0 Migratie naar ODF met XENA en Open Office 3.2 Platform: Windows XP Professional 2002, servicepack 3 XENA Open Office Doc>OOXML Migratie naar OOXML met MS-Word 2007 Platform: Windows XP Professional 2002, servicepack 3 Microsoft Office Doc>OOXML>ODF 1.0 Migratie naar Open Document Format 1.0 (ODF) via OOXML, vanuit MS-Word 2007 Het oorspronkelijke MS-Word bestand is geopend met MS-Word 2007 (opent in de compatibiliteitsmodus). Met behulp van een Plug-in in MS Word is het document geconverteerd naar Open Document-text (ODT). ODT is het bestandsformaat van het Open Document Format (ODF) voor tekstdocumenten. Voordat de conversie plaats kon vinden moest het originele bestand eerst opgeslagen worden in het gangbare bestandsformaat van MS-Word 2007: OOXML. Platform: Windows XP Professional 2002, servicepack 3 Microsoft Office 2007 Plug-in: ODF Add-in for Microsoft Office Ontwikkelaar: DIaLOGika GmBH Versie: van 26

15 4.4 Resultaten De experimenten zijn uitgevoerd en de uitkomsten zijn naast de boom met eisen gehouden. De uitkomsten van de experimenten zijn in PLATO ingevoerd. De waarden zijn bij elkaar opgeteld, waarbij rekening wordt gehouden met de aangebrachte weging (zie bijlage IV). Afbeelding 4: De uitkomsten van de experimenten voor de gekozen alternatieven Alles bij elkaar genomen komt optie 1: het migreren van.doc naar PDF/A1-a m.b.v. MS-Word 2007 als beste uit de experimenten. 4.5 Evaluatie Eisen aan de drie doel-bestandsformaten Wat betreft de tak eisen waaraan de drie doel-bestandsformaten moeten voldoen scoort PDF/A-1a het hoogste, OOXML het laagst en ODF zit hier tussen in. PDF/A-1a scoort hoog omdat het een internationale standaard is. Wel is het eigendom van Adobe. Om het gebruik van PDF te promoten worden PDF patenten m.b.t. informatie uitwisseling royalty vrij 19 en op niet-exclusieve basis ter beschikking gesteld voor het ontwikkelen van software dat PDF bestanden kan produceren, verwerken en interpreteren. PDF wordt wereldwijd veel gebruikt en wordt breed ondersteund. Een PDF/A-1a is een op zichzelf staand bestand en mag niet afhankelijk zijn van informatie van externe bronnen om het document te kunnen weergeven. Het heeft ingesloten informatie, o.a. lettertypen en kleurprofielen, om elke keer het document op exact de zelfde manier weer te geven. Tussen PDF/A-1a en OOXML neemt ODF een middenscore in. Het is een internationale standaard en is ontwikkeld binnen een wereldwijde community. ODF is daarom het meest open: kennis van het format ligt niet bij één commerciële partij. Het wijdverspreid gebruik is een stuk minder in vergelijking met PDF, maar er zijn viewers verkrijgbaar zoals o.a. Open Office, KOffice (beiden vrij verkrijgbaar) en Microsoft Office (vanaf SP2). De geschiktheid van ODF als opslagformaat is twijfelachtig omdat het bestand een ZIP-formaat is en hierdoor mogelijk foutgevoelig wordt. Een ODF bestand is niet op zich zelf staand, maar is afhankelijk van externe bronnen voor informatie om het document te kunnen weergeven van 26

16 De lage score van OOXML, die nochtans een internationale standaard is, is te wijten aan de complexiteit van het bestandsformaat. OOXML is niet ontwikkeld met als doel interoperabiliteit. De specificatie verwijst bij een aantal onderdelen ondermeer naar oudere legacy formaten van Microsoft. Dit gegeven, samen met het feit dat OOXML vanwege de complexiteit een specificatie van 6000 pagina s telt, hindert en maakt het moeilijker voor andere partijen om producten te ontwikkelen die OOXML kunnen interpreteren. Het gebruik van OOXML is niet wijdverspreid, viewers zijn niet alom aanwezig buiten Microsoft Office. De geschiktheid van OOXML als opslagformaat is twijfelachtig omdat het bestand een ZIP-formaat is en hierdoor mogelijk foutgevoelig wordt. Een OOXML bestand is niet op zich zelf staand, maar is afhankelijk van externe bronnen voor informatie om het document te kunnen weergeven Behoud van essentiële kenmerken in de vijf experimenten Wat betreft de tak het behoud van essentiële kenmerken scoort experiment 1. PDF/A-1a het hoogst op de voet gevolgd door experiment 7. OOXML. Een stuk minder goed komt experiment 5. XENA ODF uit de bus gevolgd door 4. ODF. De slechtste score op dit onderdeel is voor experiment 9.OOXML> ODF, Doc omgezet naar ODF via OOXML. In volgorde de score van hoog naar laag: 1. Doc>PDF/A-1a Kenmerkend voor migratie naar de PDF/A-1a is het goede behoud van de structuur en opmaak van het document. Opmerkelijk is het verlies van actieve links, zowel in- als externe links worden inactief (de URL blijft in de vorm van metadata behouden). Dit is opmerkelijk maar een pré omdat het de duurzaamheid vergroot. Dit is daarom ook een bewust gekozen eigenschap van PDF/A-1a om gedrag te verliezen met vergrootte duurzaamheid als winst. Hetzelfde geldt voor afbeeldingen met transparantie: bij een enkel testbestand verdwijnt deze transparantie in een logo in de koptekst. PDF/A-1a ondersteunt geen transparantie, maar dit wordt aangepast bij de opvolger van PDF/A-1a. 7. Doc>OOXML Verliest bij enkele bestanden informatie-elementen, de reden is onduidelijk. Scoort voor de rest voor dit onderdeel hetzelfde als PDF/A-1a. Geeft actieve links en transparante afbeeldingen onveranderd weer. 5. XENA ODF Bij migratie naar ODF is de grootste moeilijkheid de opmaak: tekst schuift door en de lay-out wordt aangepast, wat kan leiden tot verandering van de structuur. De oorzaak is vaak verkeerd gebruik 20 van de tekstverwerker die deze lay-out problemen opleveren, maar dit is een gegeven bij MS Worddocumenten. Inhoudsopgaven zijn lastig omdat ze automatisch worden bijgewerkt en links naar de hoofdstukken kunnen bevatten die verkeerd kunnen (gaan) verwijzen. Dit resulteerde in sommige gevallen tot aanpassing van hoofdstuknummering. Omdat inhoudsopgaven eigenlijk een soort links zijn hebben ze de neiging om bij conversie naar ODF een andere kleur aan te nemen. Verschil in resultaat met experiment 4. ODF is dat XENA opsommingen netter mee-converteert. 4. Doc>ODF 1.0 Dezelfde bevindingen als experiment 5. XENA ODF met als extra nadelige bevinding dat opsommingen wel worden mee geconverteerd, maar dat dit niet netjes gebeurt waardoor de lay-out 20 Het komt regelmatig voor dat auteurs tekstverwerkers zoals MS Word verkeerd gebruiken, ze gebruiken bijvoorbeeld geen gedefinieerde koppen om structuur in de tekst aan te brengen maar alleen vet en lettergrootte waardoor de structuur alleen visueel aanwezig is. Een ander voorbeeld zijn enters i.p.v. pagina-eindes, waardoor tekst doorschuift en de lay-out wordt aangepast. 16 van 26

Software Archivering met Emulatie. Michiel van Dam - 1224239 Jeff van Egmond - 1308041 4 augustus 2010

Software Archivering met Emulatie. Michiel van Dam - 1224239 Jeff van Egmond - 1308041 4 augustus 2010 Software Archivering met Emulatie Michiel van Dam - 1224239 Jeff van Egmond - 1308041 4 augustus 2010 Executive Summary Veel culturele en onderzoeksdata wordt tegenwoordig gearchiveerd. Bij zo n archief

Nadere informatie

D2: Kwaliteitsraamwerk voor standaarden

D2: Kwaliteitsraamwerk voor standaarden Nederlandse Organisatie voor toegepast-natuurwetenschappelijk onderzoek / Netherlands Organisation for Applied Scientific Research Colosseum 27 7521 PV Enschede TNO-rapport www.tno.nl T +31 53 483 52 00

Nadere informatie

Handreiking open documentstandaarden voor de overheid

Handreiking open documentstandaarden voor de overheid Handreiking open documentstandaarden voor de overheid Voorwoord De vanzelfsprekendheid waarmee we een vrijwel onophoudelijke stroom documenten vanaf onze computers digitaal de wereld inschieten, heeft

Nadere informatie

De Oracle Customer Data Hub als Customer Knowledge Management-applicatie?

De Oracle Customer Data Hub als Customer Knowledge Management-applicatie? De Oracle Customer Data Hub als Customer Knowledge Management-applicatie? Een vergelijkend onderzoek tussen de Customer Data Hub en de eisen en wensen die een organisatie stelt met betrekking tot de functionele

Nadere informatie

Het succesvol implementeren van een standaard softwaresysteem

Het succesvol implementeren van een standaard softwaresysteem Het succesvol implementeren van een standaard softwaresysteem Bachelorthesis J.N. Zwikstra - 265948 Economie & Bedrijfseconomie Erasmus Universiteit Rotterdam Begeleider: prof. dr. G.J. van der Pijl Meelezer:

Nadere informatie

IT Control framework voor dataconversies

IT Control framework voor dataconversies IT Control framework voor dataconversies Studenten: Estelle Korff, estelle.korff@achmea.nl Sophie Verberne, sverberne@deloitte.nl Begeleiders: Bart van staveren, bart.vanstaveren@uwv.nl (VU) Luc van Peer,

Nadere informatie

Beleidsplan Open Standaarden en Open Source Software

Beleidsplan Open Standaarden en Open Source Software Beleidsplan Open Standaarden en Open Source Software Inhoudsopgave 1. Inleiding... 3 2. Open standaarden, open source software en ODF... 4 2.1. Doel... 4 2.2. Open source software... 4 2.3. Open standaarden...

Nadere informatie

Onderzoek Open Source Ondersteuning SGA. Onderzoek Open Source Ondersteuning Service Gerichte Architectuur

Onderzoek Open Source Ondersteuning SGA. Onderzoek Open Source Ondersteuning Service Gerichte Architectuur Onderzoek Open Source Ondersteuning SGA Onderzoek Open Source Ondersteuning Service Gerichte Architectuur Opdrachtgever : Bestuursdienst Gemeente Rotterdam Projectleider : Folkert-Jan de Groot ( 06 51

Nadere informatie

E D 3. Eisen Duurzaam Digitaal Depot. toetsingskader voor de beheersomgeving van blijvend te bewaren digitale informatie. Versie 1

E D 3. Eisen Duurzaam Digitaal Depot. toetsingskader voor de beheersomgeving van blijvend te bewaren digitale informatie. Versie 1 E D 3 Eisen Duurzaam Digitaal Depot toetsingskader voor de beheersomgeving van blijvend te bewaren digitale informatie Versie 1 Landelijk Overleg Provinciale Archief Inspecteurs mei 2008 foto omslag: Koninklijke

Nadere informatie

Wat te doen met een digitaal bestand. Onderzoek naar duurzame toegankelijkheid van digitale informatie bij overheden in Noord-Nederland

Wat te doen met een digitaal bestand. Onderzoek naar duurzame toegankelijkheid van digitale informatie bij overheden in Noord-Nederland Wat te doen met een digitaal bestand Onderzoek naar duurzame toegankelijkheid van digitale informatie bij overheden in Noord-Nederland Assen, Groningen, Leeuwarden, november 2013 Afbeelding voorpagina

Nadere informatie

Open Standaarden & Open Source Software in de zorg. Een verkennend onderzoek

Open Standaarden & Open Source Software in de zorg. Een verkennend onderzoek Open Standaarden & Open Source Software in de zorg Een verkennend onderzoek Oktober 2009 Auteurs : S. Seyffert H. Bakker R. Stegwee A. Blokhuis Datum: Oktober 2009 Inhoudsopgave MANAGEMENT SAMENVATTING...

Nadere informatie

Effectiviteit van GRC -Tools

Effectiviteit van GRC -Tools - Ali Çolak & Hasib Haq Post Graduate IT-Audit Opleiding VU Team 945 VU Coach: Rob Christiaanse Bedrijfscoach Guillaume Speear RE CISA Alex van Doorn RE RA Auteurs: Ali Çolak Hasib Haq Student Nr: 1689908

Nadere informatie

Aan de slag met open standaarden - een handreiking voor overheidsorganisaties

Aan de slag met open standaarden - een handreiking voor overheidsorganisaties Aan de slag met open standaarden - een handreiking voor overheidsorganisaties ir. L.M. Punter, dr. ir. J.P.C. Verhoosel, ir. E.J.A. Folmer dr. ir. P.H.W.M. Oude Luttighuis Datum 18 augustus 2010 Colofon

Nadere informatie

De kosten van duurzame digitale toegankelijkheid. Een scriptie over besparen op de kosten van het permanent bewaren van digitaal archief

De kosten van duurzame digitale toegankelijkheid. Een scriptie over besparen op de kosten van het permanent bewaren van digitaal archief De kosten van duurzame digitale toegankelijkheid Een scriptie over besparen op de kosten van het permanent bewaren van digitaal archief Thijs Hessling Amsterdam, april 2010 2 Hogeschool van Amsterdam,

Nadere informatie

Master Software Engineering

Master Software Engineering Scriptie Master Software Engineering Datatransformaties door middel van Model Driven Architecture. Student: Opleiding: Docent: Stagebegeleider: Opdrachtgever: Bart Vreeken Master Software Engineering Universiteit

Nadere informatie

Newyse CMS. Afstudeerscriptie. Naam: Elwin Vreeke. Werkgever: Maxxton. Begeleider Maxxton: Dhr. Jean-Pierre Mampaey

Newyse CMS. Afstudeerscriptie. Naam: Elwin Vreeke. Werkgever: Maxxton. Begeleider Maxxton: Dhr. Jean-Pierre Mampaey Newyse CMS Afstudeerscriptie Naam: Elwin Vreeke Werkgever: Maxxton Begeleider Maxxton: Dhr. Jean-Pierre Mampaey Universiteit: Technische Universiteit Delft Begeleider TU Delft: Dr. Kees van der Meer Inhoud

Nadere informatie

Onderzoek Functionaliteit e-depot Decentrale Overheden. Versie 1.0

Onderzoek Functionaliteit e-depot Decentrale Overheden. Versie 1.0 Onderzoek Functionaliteit e-depot Decentrale Overheden Versie 1.0 Auteur KING Versie 1.0 Datum maandag 2 februari 2015 2 Inhoud Managementsamenvatting 4 1 Inleiding 6 1.1 Aanleiding 6 1.2 Achtergrond ontwikkeling

Nadere informatie

Business Intelligence ontwikkelproces: de kritische succesfactoren voor een succesvol project

Business Intelligence ontwikkelproces: de kritische succesfactoren voor een succesvol project Business Intelligence ontwikkelproces: de kritische succesfactoren voor een succesvol project Een onderzoek naar de inrichting van kwaliteitsmanagement: de kansen van kritische succesfactoren in het software

Nadere informatie

Bachelor eindproject

Bachelor eindproject Technische Universiteit Delft Bachelor eindproject Faculteit: Electrotechniek, Wiskunde en Informatica Sectie: Web Information Systems DENC Docs Studenten: Martijn Berger (1123076) Michael Croes (1265180)

Nadere informatie

Leren vernieuwen. Zo! Open standaarden en open source software in het mbo. Hoe? Open standaarden en open source software in het mbo, Hoe? Zo!

Leren vernieuwen. Zo! Open standaarden en open source software in het mbo. Hoe? Open standaarden en open source software in het mbo, Hoe? Zo! Leren vernieuwen Hoe? Zo! Open standaarden en open source software in het mbo A Hoe? 1 Waarom een boekje over open standaarden en open source software in het mbo? 3 2 Wat zijn open standaarden, en waarom

Nadere informatie

CLOUD COMPUTING MINOR EAD 15/1/2010. Versie: 1.0. Opdrachtgever: Rody Middelkoop

CLOUD COMPUTING MINOR EAD 15/1/2010. Versie: 1.0. Opdrachtgever: Rody Middelkoop 15/1/2010 Versie: 1.0 Opdrachtgever: Rody Middelkoop MINOR EAD CLOUD COMPUTING Cloud Computing en Enterprise Application Development Studenten: Thijs Smeenk Joris Peters Matthijs Bloemendal Student nr.:

Nadere informatie

Mislukte IT projecten: een kwestie van beter plannen? T. Stamper

Mislukte IT projecten: een kwestie van beter plannen? T. Stamper Mislukte IT projecten: een kwestie van beter plannen? T. Stamper June 22, 2009 Abstract In deze scriptie wordt bestudeerd of het mogelijk is om, met behulp van de planning, de kwaliteit en het nut van

Nadere informatie

Re-engineering Legacy in een veranderende software-architectuur

Re-engineering Legacy in een veranderende software-architectuur Re-engineering Legacy in een veranderende software-architectuur Universiteit van Amsterdam Master Software Engineering Masterproject Marinus Geuze Afstudeerdocent: Drs. H. Dekkers Stagebegeleider: ing.

Nadere informatie

Aanbevelingen migratie van tekstdocumenten naar PDF/A ten behoeve concern Amsterdam

Aanbevelingen migratie van tekstdocumenten naar PDF/A ten behoeve concern Amsterdam Aanbevelingen migratie van tekstdocumenten naar PDF/A ten behoeve concern Amsterdam Datum: 8 december 2008 Versie: 0.2 Status: Concept Inhoudsopgave Inhoudsopgave...1 Versiegeschiedenis...2 Inleiding...3

Nadere informatie

SLIm SAmeNWerKeN AAN ICT. Applicatiesanering en contract management: De basis op orde

SLIm SAmeNWerKeN AAN ICT. Applicatiesanering en contract management: De basis op orde SLIm SAmeNWerKeN AAN ICT Applicatiesanering en contract management: De basis op orde Slim Samenwerken aan ICT Applicatiesanering en contractmanagement: De basis op orde Colofon Samenstelling Uitgebracht

Nadere informatie

Digitaal en gebruikersperspectief

Digitaal en gebruikersperspectief Digitaal en gebruikersperspectief In opdracht van: Ministerie van Binnenlandse Zaken en Koninkrijksrelaties Publicatienummer: 2013.127-1404 Datum: Utrecht, februari 2014 Auteurs: Robbin te Velde Jaap Veldkamp

Nadere informatie

Site Management Handleiding voor Smartsite 4.5

Site Management Handleiding voor Smartsite 4.5 Site Management Handleiding voor Smartsite 4.5 Versie 2, juli 2002. 1997-2002 Smartsite Software B.V. Smartsite Dynamic Web System Disclaimer Hoewel deze handleiding met de grootste zorgvuldigheid tot

Nadere informatie

Model Programma van Eisen. Document Management Systeem. voor een geïntegreerd. Over dit document

Model Programma van Eisen. Document Management Systeem. voor een geïntegreerd. Over dit document Model Programma van Eisen voor een geïntegreerd Document Management Systeem Over dit document Dit document is een hulpmiddel bij het opstellen van een Programma van Eisen (PvE). Zoals ieder model, moet

Nadere informatie

Governance en IT-projecten

Governance en IT-projecten Vrije Universiteit Amsterdam IT Audit opleiding Governance en IT-projecten Normatief kader voor het opzetten, uitvoeren en monitoren van IT-projecten Naam: drs. J. (Jasper) de Vries Adres: Barwerd 12 9746

Nadere informatie

OPEN STANDAARDEN EN OPEN SOURCE. Onderzoek ter ondersteuning van gewenste beleidsintensivering

OPEN STANDAARDEN EN OPEN SOURCE. Onderzoek ter ondersteuning van gewenste beleidsintensivering OPEN STANDAARDEN EN OPEN SOURCE Onderzoek ter ondersteuning van gewenste beleidsintensivering OPEN STANDAARDEN EN OPEN SOURCE Onderzoek ter ondersteuning van gewenste beleidsintensivering René van den

Nadere informatie