de totstandkoming van het Depot van Nederlandse Elektronische Publicaties presentatie Genootschap van Informatie Beveiligers, 18 december 2002
Even voorstellen p Jan Ploeg p projectmanager DNEP-i Koninklijke Bibliotheek p werkzaam bij onafhankelijk adviesbureau Expanding Visions BV p naast KB-project o.a. 2 informatiebeveiligingsprojecten bij RWS p tot 2001 werkzaam bij Algemene Rekenkamer als hoofd afdeling informatievoorziening en automatisering
Agenda p missie KB en waarom depot en electronisch depot p digitale duurzaamheid: de uitdaging p voorbereiding electronisch depot p realisatie electronisch depot p studie Lange Termijn Opslag p verdere ontwikkeling p overeenkomst met Elsevier
Missie KB toegang bieden tot kennis en cultuur van heden en verleden aan iedereen door levering hoogwaardige diensten voor onderzoek studie en cultuurbeleving p taak p cultureel erfgoed en collectievorming p ontsluiting (bibliografie, kennisbank, internetwegwijzer) p dienstverlening ondersteuning, beschikbaarstelling, informatiebemiddeling, tentoonstellen p landelijke taken R&D wetenschappelijke informatievoorziening kenniscentrum digitalisering, conservering, restauratie bevordering/ondersteuning (internationale) samenwerking
Depot van Nederlandse Publicaties p sinds 1974 p taak p verzamelen van alle in het Nederlandse taalgebied en elders over Nederland verschenen publicaties p behouden voor de eeuwigheid p overeenkomst met uitgevers p geen wettelijke regeling, wel hoge dekkingsgraad (90%) p omvang p per jaar 40.000 boeken en 100.000 afleveringen van tijdschriften (nu ca. 70 km aan boekenplanken!) p aanpak p bewaren in goed geconditioneerde en gecontroleerde ruimten p opnemen in catalogus p éénmaal in depot dan niet meer buiten de muren van KB
Depot-functie KB: en nu digitaal! p sinds 1996 ook Elektronische publicaties: Depot van Nederlandse Elektronische publicaties p vraagstelling p hoe gaan we de elektronische publicaties opslaan? p hoe zorgen we ervoor dat ze leesbaar blijven? wie kan er nog een floppy van 5¼ inch lezen?
Duurzaamheid Hebban olla vogala nestas hagunnan hinase hic enda thu wat unbidan we nu
Duurzaamheid p gemaakt: ca. 1100 p gevonden: 1922 p nu nog leesbaar p hildebrandslied p 1200 jaar oud! p 3000 jaar oud
Hebban olla..: waarom leesbaar? p gegevensdrager in tact p fysieke lezer kan afbeelding scannen p hardware in tact p besturingssysteem & software herkennen beeld ondanks p updates dankzij p updates: lerend vermogen alle vogels zijn begonnen met het bouwen van hun nesten behalve jij en ik, wat wachten we nu
Digitale Duurzaamheid: uitdaging!
Twee stellingnames 90-er jaren p stelling 1: het papierloze tijdperk staat voor de deur! p stelling 2: het papierloze tijdperk zal er nooit komen! p beide stellingnames zijn voor een deel waar gebleken! p papieren productie is gebleven/zal blijven (neemt bijv. alleen nog maar toe!) p zeker in wetenschappelijke wereld heeft de omslag naar digitale publicaties plaatsgehad p vanaf 1995 werkt de KB aan voorbereidingen depot nederlandse elektronische publicaties
Voorbereidende projecten p 1995: DNEP Workflow p afbakening elektronisch depot p voorbereiding inrichting depot p 1996-2000 BIBLINK p project van de Europese Commissie p doel: relatie leggen tussen nationale bibliotheken en uitgevers van elektronische publicaties p 1998: Cerberus p authenticiteit en integriteit van elektronische publicaties p 1999: Uitgeversregeling opgesteld p off-line elektronische publicaties p ontstaan in overleg met Nederlandse Uitgeversbond
Voorbereidende projecten p Pilot-project DNEP-p p start 1998 p elektronische publicaties & gedigitaliseerde documenten p koppeling met KB-catalogus p omvang november 2001: 830 Gb p overeenkomst met elsevier: levering publicaties voor experimentele doeleinden p Nedlib p Europese nationale bibliotheken p hoe kunnen we elektronische publicaties bewaren en ter beschikking stellen, nu en in de toekomst
Aanbesteding&bouw p 1999: Marktverkenning p doel: zijn systemen beschikbaar die geschikt zijn? p methode: request for information p uitkomst: ja systemen zijn beschikbaar p Call for tender p 4 aanbiedingen p overeenkomst najaar 2000 ondertekend p 2001-2002: Realisatie p requirement verification p design-fase p realisatie laad-functionaliteit p realisatie opvraag- en beheerfunctionaliteit p parallel: studie naar lange termijn opslag
LTP p Studie naar Lange Termijn Opslag p parallel aan project dnep-i p bij ontwerp rekening gehouden met bevindingen studie p samenwerking tussen KB, IBM, Jeff Rothenberg (Rand) en British Library p British Library p start implementatie 2003 p Doel: onderzoek de benodigde functionaliteit om de lange termijn duurzaamheid (in deze context: honderden jaren) van digitaal opgeslagen informatie te waarborgen binnen het e-depot
Implementatie DNEP p Implementatieproject p met alleen een succesvol tot stand gekomen opslagsysteem zijn we er niet p januari 2002: start implementatie-traject, o.a. p proefgebruik p automatisch laden p nbn-nummering p digitale postkamer p migratie gegevens uit pilot-project p operationeel sinds 12 december 2002
Wat hebben we nu? p Apparatuur p nu 12 Tb aan geheugen 4 Tb harddisk 4 Tb optische schijven 4 Tb tape p inschatting: over 5 jaar 340 Tb p backup faciliteit: 12 Tb in aparte ruimte elders in gebouw p Programmatuur p IBM Content Manager versie 7 p AIX, DB2, Tivoli Storage Management p Maatwerkprogrammatuur voor laden, opvragen en beheer p Business Objects (beheer/administratie) p Ontwerp op basis van OAIS
Wat hebben we nu? optical library p3 units p18 drives p3 x 3,1 TB hard disk storage server p3,4 TB praid-5 server p5 produktie-nodes p2 test-nodes tape library p4 TB back-up tape library p12 TB
De interfaces elektronische postkamer catalogus nbn generator identificatie, authenticatie& autorisatie
Wat kunnen we? laden p losse files opslaan p aantal standaardformaten (avi, bmp, css, exe, gif 87a, gif 89a, htm 2.0, htm 3.2, htm 4.0/4.01, html 2.0, html 3.2, html 4.0/4.01, jpe, jpeg, jpg, mpe, mpeg, mpg, pdf 1.2/1.3, png, pqi, ps, tar, tif, tiff, txt, zip) p originele files & metadata worden opgeslagen p zowel handmatig als automatisch (start met pdf) p geïnstalleerde publicaties opslaan p files die alleen gelezen kunnen worden na installatie van specifieke programmatuur p referentie werkstation p programmatuur wordt geïnstalleerd op referentie werkstation p na installatie wordt image gemaakt van harde schijf p opgeslagen wordt: metadata originele files kopie van de harde schijf
Wat kunnen we? Opvragen p zoeken via catalogus-systeem p opvragen losse bestanden p opvragen geïnstalleerde publicaties p kopie van harde schijf van referentie werkstation wordt uit het depot gehaald en geïnstalleerd op een referentie werkstation (duur: ca kwartier).
Lange Termijn opslag p We hebben nu het opslagsysteem; p We hebben een workflow ontwikkeld om publicaties te laden en op te vragen; p Integratie binnen kb-organisatie en kbinfrastructuur heeft plaatsgevonden; p We hebben via het werken met referentie werkstations tijd gekocht (ca. 5 jaar); p We hebben afspraken met uitgevers; p Nu de resultaten van de LTP (Long Term Preservation)- studie verder uitwerken en implementeren
Conclusie uit voorbereidingen p digitaal depot-beleid ontwikkeld; p voorbereiden projecten & studies p pilot p project Europese Commissie NEDLIB p Vereisten voor digitale duurzaamheid p een gecontroleerde, hoogwaardige, schaalbare opslag en beheer-omgeving: het depot-systeem; p de originele applicatie-functionaliteit, in de toekomst gebruiken via emulatie-technologie; p Een digitaal depot vereist (nedlib-richtlijnen) p een gecontroleerde omgeving waarnaar de electronische publicaties wordt getransporteerd p opbouw volgens het OAIS-model p een afgescheiden deel binnen de ict-infrastructuur
OAIS p Internationale standaard p Ontwikkeld door NASA p Geadopteerd door NEDLIB p Generiek model voor digitale depots query sip preservation dip data delivery & capture sip ingest data management access dip packaging & delivery data aip aip archival storage administration monitoring & logging
Preservation Subsystem p identificeren van digitale objecten die het gevaar lopen niet meer toegankelijk te zijn door veranderingen in technologie p implementeren van migratie-activiteiten en emulatie strategieën
Media migratie p levenscyclus van technologische componenten vaak maar 5 jaar p gevolgen voor lange termijn opslag p gegevens moeten zo nu en dan gekopieerd worden op hetzelfde medium (verversing); op een ander medium (migratie) p uitdaging p grote hoeveelheden p voorbeeld: 100 Terabytes op tape migreren naar optische disks (schrijfsnelheid 4 MegaBytes/sec.) duurt 290 dagen (excl. verwerkingstijd)! p storage performance model p monitoren via indicatoren p rekening houden bij design (infrastructuur)
Preservation Layer Model (PLM) File type Viewer application Operating System Reference platform
PLM en Viewpaths viewpath200 viewpath290 viewpath300
Preservation Subsystem Tiff grp IV image Win Tiff viewer AIX Tiff viewer Win 95 Win 98 Win 2000 AIX 4.2 AIX 4.3 Pentium II Pentium III RS/6000 RS/6000 SP p met behulp van PLMs en View Paths kan het subsystem preservation de impact monitoren van technologie-veranderingen. p de registratie van de technische metadata door het subsysteem zal het hart / de basis vormen van iedere duurzaamheids-functionaliteit
Van PLM naar actie p via het PLM-model zijn we in staat om o.a. vast te stellen wanneer we in actie moeten komen om bepaalde file-types/programma te redden p migratie p emulatie p...
UVC Documents Format Description Interpreter p uvc p set afspraken over werking van een heel simpele computer p door nu de afspraken hierover te maken en door die simpelheid weet je zeker dat ook met toekomstige technologieën de functionaliteit van de UVC nagebouwd kan worden (interpreter) Universal Virtual Computer Universal Virtual (UVC) Computer (UVC) p format description p decoder die het mogelijk maakt om een document te lezen met uvc p bij ieder nieuw file-format: maak de decoder
Geplande ontwikkeling p technisch p conversies naar nieuwe versies van standaard-software (bijv. Content Manager); p via onderhoudscontract (10 jaar) p functioneel p implementatie eerste versie van subsystem Preservation o.a. plm-model p implementatie operationel uvc voor pdf p verder onderzoek en experimenten met web-archiving p verdere studie naar Lange Termijn Opslag p uvc: program preservation
Overeenkomst met Elsevier p tot nog toe: overeenkomst m.b.t. experimentele doeleinden (dnep-pilot) p nu echt: p backfiles (voor 1995): 3-3,5 miljoen artikelen p 1995 tot 2003: ca. 1,5 miljoen artikelen p vanaf nu: ca. 1.700 tijdschriften p toegang: p bezoekers kb die toegang hebben tot collecties
Conclusie p er ligt een zeer goede basis p gedegen voorbereiding p internationale samenwerking p OAIS referentie-model p design stelt duurzaamheidaspecten centraal p er kan gestart worden met laden van het e-depot p implementatie van Subsystem Preservation van start p o.a. PLM-model en UVC p experimenteren en R&D: webarchiving p maar er is nog een lange weg te gaan p niet blijven studeren maar gaan doen! p internationale samenwerking (draagvlak vergroten) p openheid bij verdere ontwikkeling: leer van elkaar