Gebruikersinformatie m.b.t. de PSI Unicode oplevering (Bestemd voor Nederlandse klanten)

Gebruikersinformatie m.b.t. de PSI Unicode oplevering (Bestemd voor Nederlandse klanten) De PSI Unicode oplevering is een onderdeel van het OCLC PICA Unicode project. Het Unicode project richt zich op de steun van Unicode als de karakter set in de Pica software. De focus van dit project zal liggen op catalogiseermodules, bibliografische indexen, interbibliothecair leenverkeer, WinIBW en de import en export van software. De technische implementatie zal UTF-8, de feitelijke standaard voor Unicode ondersteuning, gebruiken. De implementatie zal zodanig plaatsvinden dat een in hoge mate transparante migratie van Pica karakter set naar Unicode gegarandeerd wordt. Dit document legt uit wat er zoal verandert voor zowel eindgebruikers als bibliothecarissen na de PSI Unicode oplevering in September van dit jaar. Wat is Unicode? Fundamenteel houden computers zich alleen bezig met nummers. Ze slaan letters en andere karakters op door nummers voor ieder karakter op te slaan. Voordat Unicode ontwikkeld was, waren er honderden verschillende coderingssystemen voor het toekennen van deze nummers. Geen enkel coderingssysteem kon genoeg karakters bevatten. Zelfs voor een enkele taal als Engels was geen enkele codering geschikt voor alle letters, interpunctie en technische symbolen in algemeen gebruik. Verschillende coderingssystemen waren zelfs tegenstrijdig met elkaar. Alle computers dienen veel verschillende coderingen te ondersteunen. Wanneer data circuleren tussen verschillende coderingen of platforms, ontstaat altijd het risico van bederf. Unicode stelt voor ieder karakter een uniek nummer vast, onafhankelijk van het platform, het programma en de taal. Het verenigen van Unicode met applicaties en websites biedt veelbetekenende kosten besparingen ten opzichte van het gebruik van voormalige karakter sets. Unicode maakt mogelijk dat een enkel software product of een enkele website gericht kan worden op een veelvoud aan platformen, talen en landen zonder enige reconstructie. Het laat toe dat data getransporteerd worden door verschillende systemen zonder bederf. 1

Invloed van Unicode in Windows Het plaatsen van diakritische karakters Gebruikers kunnen diakritische karakters doorgaans toevoegen op vier manieren: 1. Diakritische karakters kunnen geplaatst worden door het lokale toetsenbord te gebruiken (bv. in het geval van Duits en Arabisch) en / of door speciale invoegmethoden (bv. in het geval van Japans en Chinees). 2. MicroSoft XP bevat een zogenaamde Character map. Door middel van deze character map kunnen diakritische karakters geselecteerd worden. Men kan dit vinden door het start menu te openen en de volgende mogelijkheden achtereenvolgens te selecteren: All programs > Accessories > System Tools > Character map. Zie schermprint 1 ter verduidelijking. Schermprint 1: De Character map in Windows XP. 3. Een derde manier om diakritische karakters toe te voegen is door het toetsenbord te gebruiken. De gebruiker dient de Num Lock toets aan te zetten en de ALT toets ingedrukt te houden terwijl hij het nummer corresponderend met het karakter dat hij wil toevoegen intoetst. De onderstaande tabel toont de meest gebruikte diakritische karakters. 2

Command Command Command ALT 131 â ALT 139 ï ALT 155 ALT 132 ä ALT 140 î ALT 156 ALT 142 Ä ALT 141 ì ALT 157 ALT 133 à ALT 161 í ALT 168 ALT 160 á ALT 164 ñ ALT 173 ALT 143 Å ALT 165 Ñ ALT 174 «ALT 134 å ALT 147 ô ALT 175» ALT 166 ª ALT 148 ö ALT 171 ½ ALT 145 æ ALT 149 ò ALT 172 ¼ ALT 146 Æ ALT 153 Ö ALT 170 ALT 129 ü ALT 162 ó ALT 159 ƒ ALT 130 é ALT 167 º ALT 169 ALT 138 è ALT 158 ALT 126 ~ ALT 136 ê ALT 150 û ALT 190 ALT 137 ë ALT 151 ù ALT 0193 Á ALT 144 É ALT 154 Ü ALT 0205 Í ALT 128 Ç ALT 163 ú ALT 0211 Ó ALT 135 ç ALT 152 ÿ ALT 0218 Ú 4. Een gebruiker kan ook het Insert menu boven in het scherm openen. De Symbol optie dient gekozen te worden. Belangrijk is dat de gebruiker zorgt dat de lettersoort op Normal text staat. Vervolgens zal een tabel verschijnen. De gebruiker kan het gewenste symbool / karakter aanklikken. Bij het aanklikken van de Insert knop aan de onderkant van het venster zal het gekozen symbool / karakter in het document geplaatst worden op de locatie van de cursor. 3

Invloed van Unicode in PiCarta Zoeken en weergave Het tonen van records in Unicode heeft een voordeel voor de PiCarta database aangezien de Pica3 karakter set meer karakters behelst dan getoond kunnen worden in een Iso-Latin 1 set. Sinds een half jaar worden records in PiCarta al getoond in Unicode. Op dit moment voldoet de index ook aan de Unicode voorschriften. De schermprintjes 2 en 3 laten de resultaten van de zoekactie cote zien als een algemeen voorbeeld. Het systeem toont ook gerelateerde woorden zoals côte en côté als resultaten. Het schermprintje van de index op de volgende pagina laat gedetailleerd zien welke woorden gerelateerd zijn aan de zoekactie cote. Schermprint 2: Resultaten van de zoekactie cote. 4

Schermprint 3: De gescande index in het geval van de zoekactie cote. Voorheen diende een zoekactie met bv. ä (zoals Matthäus ) ingegeven te worden als ae ( Matthaeus ). Echter, na invoering van Unicode, dient het ingegeven te worden met of zonder diakritische tekens, dus ä of a ( Matthäus of Matthaus ). Het ingeven van ae zal geen goede resultaten opleveren. Zie schermprint 4 op de volgende pagina ter verduidelijking. Als een gebruiker zoekt naar de term dani, vond hij voorheen zowel Ðani als Dani. Echter, volgens de standaard Unicode sortering wordt de Ð (Servische D) gesorteerd achter ASCII D. Dit betekent dat zoeken naar dani geen resultaten oplevert zoals Ðani en zoeken naar ðani geen resultaten oplevert zoals Dani. Gebruikers kunnen beslissen welke resultaten ze getoond krijgen door te scannen in de index. Aangezien de index laat zien welke soort resultaten gerelateerd zijn aan een zoekactie, kan de gebruiker makkelijk zijn voorkeur selecteren. Een gebruiker kan bijvoorbeeld bij zoeken op cote selecteren dat hij alleen de exacte resultaten gepresenteerd wil hebben door cote in de index aan te klikken. 5

Schermprint 4: De resultaten van de zoekactie matthaus. Unicode karakters Er is nu geen verschil meer tussen a-umlaut en a-diaeresis (dit geldt voor alle umlaut combinaties). Het kan zijn dat dit in de toekomst verandert. Er is nu geen verschil meer tussen a-ångström en een a gevolgd door een losse Ångström. Index structuur Indexes worden opgeslagen in UTF-8. UTF-8 is genormaliseerd tot kleine letters. Verder wordt de volledige Unicode inclusief diakritische karakters gehandhaafd in de index. The index wordt gesorteerd volgens de standaard Unicode collatie reeks. Op het moment bevat het GGC alleen nog Romaanse records. Vandaar dat het enige tijd zal duren voordat de gebruiker niet-romaanse records zal zien in de index. Wanneer een gebruiker records terug haalt, kan hij diakritische karakters specificeren. In dit geval zal de software zoeken voor exacte matches. Indien de gebruiker geen diakritische karakters specificeert, zal de software ze negeren. Uiteraard geldt ook hier dat de index gesorteerd wordt volgens de standaard Unicode collatie reeks. 6

Markeren Wanneer een index ingang gekozen is, zal het corresponderende record getoond worden. De gebruikte zoekterm zal worden gemarkeerd in het record. De software zal Unicode reeksen markeren zoals Romaanse woorden. Wildcards Een veelvoud van wildcards is toegestaan. Echter, het gedrag van deze wildcards kan soms verrassend zijn. Bijvoorbeeld, in het Spaans wordt ch als een karakter beschouwd. Indien de Spaanse collatie gebruikt wordt, zal de software ch ook als een karakter beschouwen. Indien de collatie voorschrijft dat A Ångström beschouwd dient te worden als een apart karakter, zal het ook als zodanig behandeld worden. In deze situatie zal A Ångström niet overeenkomstig zijn met A. Hetzelfde geldt voor de Vietnamese D. The index beschouwt de Vietnamese D als en apart karakter en zal het sorteren tussen d en e. De bovengenoemde problemen zullen zo veel mogelijk voorkomen worden aangezien OCLC PICA besloten heeft de standaard Unicode collatie reeks te volgen. Incidentele problemen In enkele sporadische gevallen zullen incorrect gecatalogiseerde titels verschijnen. Aangezien sommige titels verkeerd gecatalogiseerd zijn in het verleden (bv. incorrect gepositioneerde diakritische karakters), kunnen problemen ontstaan. Vragen en / of opmerkingen? In geval van vragen en / of opmerkingen kunt u contact opnemen met de OCLC PICA Servicedesk (telefoonnummer: +31 71 524 66 00). 7