Menasseh Ben Israel: eindverslag. 8.4 OCR op Zecher raw (Bibl.Ros.20D3) Kenmerken:



Vergelijkbare documenten
6. OCR met prolector 1.20 D

10. Pagina-instellingen

READER OEFENINGEN TIJDSCHRIFT

Gebruikershandleiding voor de persoonlijke verpakking.

Game Maker 6.1. Sprite up your life with Gamemaker. Hoofdstuk 1.2

Afloop & Marges Hoe zit dat nu precies?

Dick Grooters Raadhuisstraat GM Best tel: Printen en Scannen

In dit document worden de stappen behandeld, die gemaakt moeten worden om de basis voor de webkrant op te zetten.

Adobe Lightroom Classic CC

Excel afdrukken Afdrukken in Excel. Afdrukbereik, afbeeldingen, kantlijnen e.d.

Zoekblokje. Om snel een beetje leesbaar beeld te krijgen is het vergrootblokje met de ezelsoren een handig hulpmiddel.

Foto s verkleinen en Foto s in elkaar over laten lopen

Documenten scannen met OCR

HDR- FOTOGRAFIE. Inleiding. Het digitale beeld - Bijlage

Wegwijzer: Je ontwerp opmaken

InDesign CS6. Gereedschappen

Bladspiegelbepaling. Naam student: Tijdsduur: 2 weken. Individueel project opdracht Mediavormgever

één pixel naar onder gekeken of dat vrij is.

Vormgeving Tijdschrift

1. Bestand-> open nieuw transparant 900 pixels breed en 600 pixels hoog 2. Materialen, voorgrondkleur #89a5a8 en achtergrond kleur #183d53

Optische illusies : wat je ziet is niet altijd de werkelijkheid!

Over Bits Pixels Dpi & Extensies

OPDRACHTKAART. Thema: Prepress. InDesign 15. Pagina s PP Voorkennis: De vorige praktijkopdrachten afgerond.

Inhoud Inkopen Status... 2 Snel inkopen registreren... 3 Leverancier toevoegen... 3 Inkopen aanpassen of verwijderen... 4 Rapport: Inzoomen...

Specificaties advertentiemateriaal

Huisstijl Koning Willem 1 College Hieronder staan een aantal richtlijnen geformuleerd in het huisstijlhandboek van KW1C.

RICHTLIJN LOGO HISTORISCH GRAVE

VERSIE BRANDBOOK SPORTBEDRIJF ZAANSTAD. zaans brandbook

Photo: Jeroen Snijders. advertentiemateriaal

Na het inloggen met de gegevens die je hebt gekregen, verschijnt het overzichtsscherm zoals hieronder:

Lettertype: Koppen American Captain -- wordt gebruikt voor koppen ABCDEFGHIJKLMNOPQRSTUVWXYZ abcdefghijklmnopqrstuvwxyz

ZorgSom Gebruikershandleiding

Handleiding Joomla 3.x

Handreiking vervanging archiefbescheiden ELV EO B.V. W W W.ELV EO.N L OOST ER EO.N L

COMMISSIE VAN DE EUROPESE GEMEENSCHAPPEN

Handleiding teksteditor

Kalender. Stap 3 Sla je document direct op in je zojuist aan gemaakte map, zodat je alles van begin af aan goed ordent.

Out of bounds ( Uit het kader)

Rekenen: Getallen groep 5 en hoger. Rekenen en schattingen ontdekken. Algebra groep 5 en hoger. Patronen en relaties ontdekken.

Hippo-handleiding Homepage Inhoudsopgave

Handleiding Mobility Platform

Huisstijl instellingen. Projectleider Marijn van Rensen

Excel 2007 Lijnen en Opvulling. Uitleg Lijnen en Opvulling. Het maken van lijnen en opvulling in Excel 2007

PAGINA BEHEER. Heel belangrijk is dat u niet vergeet op te slaan anders gaan al uw wijzigingen verloren, deze knop vind u bovenin de pagina!!!

Bijlage Inlezen nieuwe tarieven per verzekeraar

Handleiding Japanse puzzels

Wijzigingen Release 1.4 oktober 2010

Afdrukken bestellen via Picasa

Stedebouw & Architectuur. mediakit

Live! i-tv Live! instructieboek

CliniClowns Logo. BASISRICHTLIJN / VERSIE 1.0 April 2015

Les56. Wat hebben we nodig:

Whitepaper. design best practices

Handleiding Wordpress CMS

Stap 1. Bepalen van invoer Het makkelijkst kun je dit vinden uit de zwarte vlakken met voorbeelden:

CURSUS DIGITAAL ATELIER Photoshop/ Illustrator/ Indesign

Een Barcode. Afmetingen

Handleiding Word de graad

BREINBREKERS EN ILLUSIES

Functionele Componenten

4. Plak de gekopieerde tekst op de plaats van de cursor als pure tekst. 5. Plak de gekopieerde tekst op de plaats van de cursor vanuit Word

Brother PE-design Plus.

Hoofdstuk 21: Gegevens samenvatten

Gouden Tekst.

Afdrukken bestellen via Picasa

Plagiocephalometrie (PCM)

Digitaal printen binnen Grafimedia VMBO. Opdracht

1. Bestand-> open nieuw transparant 650 pixels breed en 450 breed 2. Materiaal, kleuren, voorgrond kleur #e3dcf7 en de achtergrondkleur #c5b7ef

Wijzigingen bijhouden

2. Wanneer moet ik een afbeelding verkleinen?

Afdrukken in Calc Module 7

Les 1. Digitale Media - DTP 1

Les 6 Kalender maken. Gerkje Gouweouwe

Je hebt voordat we beginnen de volgende programma s nodig:

een nieuwe publicatie op basis van een vooraf ontworpen publicatie, de verschillende ontwerpelementen herkennen en die ontwerpelementen aan uw stijl

ScanSnap 1. ScanSnap: installatie en instellingen. 1.2 Instellingen van de ScanSnap manager. 1.1 Installatie van de meegeleverde software

Factuur layout Auteur : Reint Endendijk Versie : 1.0 Datum : 1 December 2012

ZorgSom Gebruikershandleiding

ScanSnap S ScanSnap: installatie en instellingen. 1.1 Installatie van de meegeleverde software. 1.2 Instellingen van de ScanSnap manager

Aanmaken boomhut/uit de school geklapt nieuwsbrief bericht op de website (Wordpress):

handleiding teamleiders

MetaData ID Tagging. Digitaal muzieksysteem

Patroon Kip Katrien. Ca. 75 gram Phildar Coton 3 of Catania. Ca. 25 gram voor de snavel en de poten. Ca. 25 gram voor de kam, lellen en vleugels

Vergeet niet achterin deze opdracht de tips voor lay-out te bekijken!

PhotoShop. Les 1 - Werken met lagen, kleuren en transparantie

Trippeltrap Content Management System

StabiCAD V Veiligheid

1. Foto/Beeld invoegen in de zijvakken

Functioneel ontwerp. Navigatie

Fotograferen in RAW. Haal alles uit het RAW-formaat van je digitale camera

VNFE Digitale Workshop. Voorjaar 2006

Handleiding website AZSV 2014

LIBELNET kerstkaarten 2016

Foto s en Videobewerking

OPTICAL CHARACTER RECOGNITION (OCR)

Toegankelijkheid documenten

BASIS TEKSTBEWERKING deel 2

De tekstverwerker. Afb. 1 de tekstverwerker


Transcriptie:

8.4 OCR op Zecher raw (Bibl.Ros.20D3) Kenmerken: Hebreeuws met punten Grote letter, ca 45 pixels hoog, interlinie ca 50 pixels waar de stokken en staarten met ca. 35 pixels insteken. De punten zijn ca 10 pixels hoog en staan in de interlinie, onder elkaar of naast elkaar, vrij van de letters, maar vaak niet los van elkaar. Incidenteel komen nog grotere letters voor, die wel op de regel blijven. Uitvullen van de tekst gebeurt door wit tussen woorden en vaak door oprekken van letters. Regelmatig tekst in de marges in een kleine letter Wisselende bladspiegel, soms scheef, soms is door het binden geen marge meer in het midden. Drie afbeeldingen waren in een kleiner formaat. Resultaat: Omdat de punten goed los van de letters staan onderscheidt ProLector aparte regels voor letters en punten. De letters (medeklinkers) werden goed herkend. De punten varieren te sterk, vooral omdat ze regelmatig in elkaar overgaan. Omdat we (nog) niet in staat zijn Hebreeuws gepunctueerd op het scherm weer te geven en te printen, kunnen de punten in het OCR-resultaat net zo goed weggelaten worden. Men kan prima ongepunctueerd zoeken als men daarna maar over het plaatje met punten kan beschikken. Besloten is dan ook om de punten niet te trainen. Bij dit boek is ook gebleken dat goed instellen van de zones (gebied waarin prolector regels onderscheidt) in prolector heel belangrijk is. Bij de proeven is besloten om de tekst in de kantlijnen weg te laten en de afbeelding in één zone met drie kolommen aan te bieden, de linker en de rechter pagina en daar tussen een kolom voor de zwarte lijn van de binding. Er is niet voor een zone per pagina gekozen omdat de marges in het midden nogal erg varieren, waardoor batchverwerking wel heel slechte resultaten oplevert en men bij handmatige verwerking steeds opnieuw zones moet definiëren. Toch lijken de resultaten slecht, 30-60% van de tekens bestaat uit. Dit wordt echter niet door de punten maar door vervuiling zoals spikkels en vlekken veroorzaakt en door de scheefheid van de pagina's en ten onrecht meenemen van tekst (in ongetrainde kleine letters) uit de marge. Opvallend is ook dat er meer 's worden neergezet dan strikt genomen nodig is. Het drukwerk heeft nogal 'brosse' letters, ze zijn niet volledig zwart. Als een letter niet herkend wordt splitst prolector hem soms op in vele smalle, al naar gelang de 'brosheid'. Deze delen worden alle niet herkend en krijgen een. Ter illustratie: op opening 4 werden door prolector 1056 tekens (excl. punten) gesignaleerd, waarvan 462 en 594 letters; na menselijke telling bleken er slechts 544 echte letters op de pagina's voor te komen. 34 Bibliotheek van de Universiteit van Amsterdam sept.1997

Een resultaat van 006.tif Instelling van prolector: dirt size=5 (maximaal), accuracy=2, trainingsset van 445 patronen Een afbeelding van de originele tekst is te vinden op pagina 36 Het resultaat van automatisch herkennen is te zien op pagina 37. Opvallend zijn de regels met alleen. Hier staan in het origineel de punten. In de andere regels komt 216 keer voor en zijn er 427 andere tekens. Om de pagina helemaal goed te krijgen moeten nog 123 patronen getraind worden (12 minuten werk). Het resultaat is te zien op pagina 38. Ook dan ontstaan aparte regels voor de punten, dit keer met één omdat de rest genegeerd wordt. In totaal zijn er 590 tekens exclusief. De accuracy lijkt voldoende. Als er al foute letters voorkomen zijn die veroorzaakt door verkeerde training. Aan de hand van alle resultaten met dit boek is de schatting dat het volledige boek (39 openingen) in ca. 10 uur in goed leesbare tekst is om te zetten. sept.1997 Bibliotheek van de Universiteit van Amsterdam 35

Afb. 9: GIF image van de tekst uit 20D3 36 Bibliotheek van de Universiteit van Amsterdam sept.1997

Afb. 10: Resultaat van OCR, automatisch, batchverwerking sept.1997 Bibliotheek van de Universiteit van Amsterdam 37

Afb. 11: Resultaat van OCR, interactief 38 Bibliotheek van de Universiteit van Amsterdam sept.1997