OPTICAL CHARACTER RECOGNITION (OCR)



Vergelijkbare documenten
SPYWARE VERWIJDEREN MTSO-INFO-EXTRA 8 VAKGROEP MTSO 2001

WINDOWS-UPDATE MTSO-INFO-EXTRA 5 VAKGROEP MTSO 2001

INSTALLEREN MET SYMANTEC GHOST

NETWERKVERBINDINGEN MAKEN

EEN PC AANSLUITEN MTSO-INFO-EXTRA 1 VAKGROEP MTSO 2001

DE NETWERKPRINTER INSTALLEREN

ScanSnap 1. ScanSnap: installatie en instellingen. 1.2 Instellingen van de ScanSnap manager. 1.1 Installatie van de meegeleverde software

ScanSnap S ScanSnap: installatie en instellingen. 1.1 Installatie van de meegeleverde software. 1.2 Instellingen van de ScanSnap manager

MICROSOFT WORD XP WERKEN MET REVISIES

Documenten scannen met OCR

Dick Grooters Raadhuisstraat GM Best tel: Printen en Scannen

Handleiding muziek spelen van een tablet.

Handleiding DIAS scanning. 1. Opstarten. Start eerst DIAS op en daarna het DIAS scanprogramma.

Gedigitaliseerd archief 125 jaar Het Belang van Limburg

Met deze module heeft u de mogelijkheid om gemakkelijk, snel en efficiënt uw documenten als naslag in Unit 4 Multivers te koppelen.

Om paint te openen volgen we dezelfde weg als bij de rekenmachine:

Scannen met ClaroRead Pro

INLEZEN FACTUURBESTANDEN

Inhoudsopgave. Opmerking: het is aanbevolen de verschillende onderdelen te installeren in de volgorde waarin ze op het scherm verschijnen.

Toegankelijkheid documenten

BASIS TEKSTBEWERKING deel 2

Vaardigheidstraining Scannen met ClaroRead

Doelstellingen: module 3 beeldmateriaal. 3.1 Invoer Scannen Digitale camera Internet en fotocd-roms

PDF XCHANGE EDITOR Waarom PDF XHCANGE Editor?

Korte handleiding GoTalk NOW voor ipad

HANDLEIDING Windows XP Deel 1

Web Presence Builder. Inhoud

Advies- en BegeleidingsCentrum voor het onderwijs in Amsterdam. Beeld en geluid. Onderdelen uit de workshop Werken met multimedia

Er bestaan verschillende manieren om het visitekaartje van Brocom in de standaardbrieven van BRIO in te brengen:

Menu Door op de menuknop te klikken kunt u het hoofdmenu sluiten of openen. De menuknop is het icoon met drie streepjes vlak onder elkaar.

Dynamic Software nv Ring Noorderwijk T 014/ F 014/ info@dynamic.be RPR Turnhout - TVA

Informatie gebruik Digi Bord

Stappenplan Scannen. Hoe te scannen: Start het programma ABBYY Finereader op

GoTalk Now voor ipad. Korte Nederlandstalige handleiding. aangeboden door

Word 2010: rondleiding

Handleiding : Opdrachten vanuit Excel

Deel 5: PowerPoint Scannend

De gegevens kunt u vervolgens downloaden via de website van UPO. Daarna kunt u de gegevens importeren in Intramed.

stappenplannen iregistratie

Hoe maak ik een fotocollage met Pixlr?

196 CEWE *)zie einde les

Kennismaking. Versies. Text. Graph: Word Logo voorbeelden verschillende versies. Werkomgeving

Handleiding: MRJ Online Back-up versie 1.0

Handleiding scanning inkoopfacturen

Hoofdstuk 1 Afbeeldingen scannen via Intramed OnLine

Microsoft Word 365. Kennismaken AAN DE SLAG MET DIGITALE VAARDIGHEDEN TRAINING: MICROSOFT WORD 365

TEKST INVOEREN EN BEWERKEN

VueScan. Swift Publisher Trial Version. "Input" scherm. Scherm 1

Norman Ad-Aware SE Plus versie 1.06 Snelle gebruikersgids

Fotografie Sophie Berten Zeelaan De Panne 058/ Fotogeniek - Creative photos Handleiding

Toelichting bij dyslexie-programma SPRINT

Hoofdstuk 12: Afdrukken en andere output

Stappenplan Movie Maker

Microsoft Word Kennismaken

Gebruik Service Cloud Portaal

Microsoft Word 365. Weergave AAN DE SLAG MET DIGITALE VAARDIGHEDEN TRAINING: MICROSOFT WORD 365

TECHNISCHE HULPBRON Remote Banner Control

Achtergrond en lettertype Opmaak Achtergrond Opmaak Achtergrond Afbeelding in achtergrond

Formulieren o.b.v. Vrije Overzichten

194 Aldi Windows Laatst gewijzigd 15 oktober 2012 Uw keuze voor het maken van een fotoboek is Aldi. Deze cursus bestaat uit 5 delen.

1. Gebruik van de online tekstverwerker op de schoolwebsite.

Deel 3: Impress. Klikoefeningen

TELNET MTSO-INFO 2 NILS NEYT KOEN PEPERMANS 1999

Google Drive. Wat is google drive. Wat heb je nodig en wat krijg je. Je aanmelden aan de cloud

Maak een fotoverhaal

De meeste Garmin routes en/of tracks die op het internet worden aangeboden, kan je downloaden in een bestand met het GPX formaat of het GDB formaat.

Deel 1: PowerPoint Basis

CONFIGURATIE VAN OPENOFFICE.ORG

Handleiding CMS Online Identity Webontwikkeling. Handleiding CMS

WERKEN MET EXCEL. 1 Vooraleer je met de lessen begint

Aanmaken en gebruiken van een PowerPoint-model (Gedeeltelijk overgenomen van de website van Microsoft)

fotofabriek.nl Handleiding software downloaden & installeren

Stap 1 Je eigen website maken Stap 2 Je template invullen Stap 3 Wat kunnen we met de inhoud?... 19

AAN DE SLAG SYMWRITER INSTALLEREN. Aan de slag met Communicate Symwriter.

DURAPRINT ONLINE HELP

OneDrive voor bedrijven en scholen

Gebruiksaanwijzing Book Copier VL 4222 Deze handleiding is geschreven om u te helpen bij het kopiëren van een boek of een gedeelte daarvan.

1. Een nieuw document maken op basis van GO! sjablonen

I. Vorming 4-5 (3&10/05/2012)

Handleiding RemoteScan + VANAD Comvio SBC Windows

IdentySoft BPortal Gebruikers toevoegen EasySecure International B.V.

Inhoudsopgave. Deze verkorte handleiding helpt u om aan de slag te gaan met de IRIScan TM Mouse 2.

Basiscursus PE DESIGN deel 1

INSTALLATIE IN PRINT INSTALLEREN. Aan de slag met Communicate In Print

LearnOSM. Onderzoek met behulp van veldformulieren. Overzicht van veldformulieren

De tekstverwerker. Afb. 1 de tekstverwerker

Internet Explorer 7 (IE7)

Uw persoonlijke voorkeuren aanpassen. Windows 7

Inhoudstafel. 1. Pictoselector installeren en updaten. 2. Een nieuw pictoblad maken. 3. Geef het blad een titel. 4. Zoek picto s

PREZI (

Documenten scannen Documenten scannen en opvragen in CASHWin

Handleiding : Regletten in Pharmawin

ICT Publisher

Ledenlijsten + etiketten maken

Microsoft Word Weergave

Mijn Dreambox Als Multimedia Center

1. CTRL- en SHIFT-knop gebruiken om meerdere variabelen te selecteren

Transcriptie:

OPTICAL CHARACTER RECOGNITION (OCR) MTSO-INFO 21 DIMITRI MORTELMANS 2001 Faculteit PSW Universiteit Antwerpen Contact: prof. dr. Dimitri Mortelmans (dimitri.mortelmans@ua.ac.be) Tel : +32 (03) 820.28.53 - Fax : +32 (03) 820.28.82

MTSO-INFO Documenten in de reeks MTSO-INFO werden geschreven door leden van de vakgroep MTSO (Methoden en Technieken van het Sociaal-Wetenschappelijk Onderzoek) met als doel op een heldere en eenvoudige manier bepaalde thema's van onderzoeksmethoden en computergebruik uit te leggen. De thema s sluiten aan bij analysetechnieken of softwareprogramma s die gebruikt worden aan de Faculteit PSW van de Universiteit Antwerpen. Vermits sommige documenten door andere leden van de Universiteit Antwerpen of daarbuiten nuttig kunnen zijn, worden deze gratis online aangeboden op http://www.ua.ac.be/mtso. Het downloaden en verspreiden van deze documenten is toegestaan mits correcte bronvermelding. WAARSCHUWING: De documenten worden slechts sporadisch bijgewerkt. Dit heeft repercussies voor die documenten die slaan op software. De auteurs hebben niet de bedoeling om bij het uitkomen van nieuwe versies van programma s steeds het hele document te herschrijven. Daarom dient de lezer er rekening mee te houden dat het document steeds slaat op de softwareversie zoals deze bij het uitkomen van het MTSO-INFO document gangbaar was.

OPTICAL CHARACTER RECOGNITION (OCR) Inhoud 1 TEKSTEN SCANNEN... 2 1.1 HET SCAN-PROGRAMMA OPENEN... 2 1.2 DE BLADZIJDE INSCANNEN... 2 2 OPTICAL CHARACTER RECOGNITION (OCR)... 3 2.1 INLEIDING... 3 2.2 OCR-TEKSTEN VERBETEREN... 4 2.3 DE HERKENDE PAGINA S OPSLAAN... 6 3 EXCURSUS: BEELDEN SCANNEN... 7 MTSO INFO / UA - FPSW

2 1 Teksten scannen 1.1 Het scan-programma openen De faculteit PSW beschikt over twee afzonderlijke programma s om te scannen. Enerzijds is er het HP-scan programma HP Picturescan. Hiermee kan je zowel tekst als afbeeldingen inscannen. Dit programma stuurt ook rechtstreeks de scanner bij de PC aan. Om echter tekstherkenning te doen is er een tweede programma Omnipage Pro. Dit is speciaal ontworpen om op ingescande beelden te zoeken naar lettertekens die in een tekstformaat kunnen opgeslagen worden. Dit procédé heet Optical Character Recognition of kortweg OCR. Na het opstarten van het programma krijgt de gebruiker volgend scherm te zien. In principe heeft de gebruiker van het programma slechts twee knoppen nodig om teksten naar behoren in te scannen en te laten herkennen: 1.2 De bladzijde inscannen De eerste stap in het procédé bestaat uit het inscannen van de pagina die op de scanner ligt. Hiervoor volstaat het om de pagina aan de groene pijl op de scanner te leggen en op de knop Scan Image te klikken (Let op dat onder de knop Scan Image staat en niet Load Image). Automatisch wordt nu de HP Picturescan gestart en kan de gebruiker kiezen welke soort beeld er ingescand moet worden. In principe is het mogelijk om het

3 programma op Beelden te laten staan. Beter is echter om de optie te veranderen in OCR / Tekst om het scannen te optimaliseren. Om het scannen te starten druk je rechts op de knop Scannen. Het programma geeft nu aan dat het scannen begonnen is. Op de achtergrond is in het programma Omnipage Pro een vorderingsklok te zien. Als het hele blad ingescand is, volstaat het om opnieuw op Omnipage te klikken (of even te wachten) om het gescande blad te zien in het programma. 2 Optical Character Recognition (OCR) 2.1 Inleiding Voor men aan de tekstherkenning van de eerste pagina kan beginnen, dient eerst en vooral de juiste taal ingesteld te worden. OCR werkt aan de hand van een taalpatroon. Als je een Engelse tekst tegenkomt dan is het voorkomingspatroon van bepaalde tekens anders dan bij een Nederlandse tekst (bv. accenten op letters). Je selecteert de juiste taal in het Menu Settings waar je de optie Select languages neemt.

4 Het programma geeft een grote groep mogelijke talen aan de hand waarvan de tekstherkenning zal gebeuren. Als de juiste taal ingesteld is (best Engels ook laten aanstaan), volstaat het om op de knop Perform OCR te klikken om de tekstherkenning te laten gebeuren. Omnipage volgt daarbij een vast patroon. Vooreerst gaat het na in welke richting de tekst zich bevindt en draait desgewenst de pagina 90. Vervolgens verdeelt het programma het ingescande beeld automatisch in zones waarna het in laatste instantie zone per zone tekst zal proberen te ontwaren. Na dit proces zie je links het ingescande beeld en rechts de tekstpagina van dit beeld in een apart deelvenster. 2.2 OCR-teksten verbeteren Scannen is een vér gevorderde techniek maar het is en blijft een mechanisch proces. Dat wil zeggen dat niet alle tekens uit de teksten herkend zullen worden. Daarom is het noodzakelijk om de teksten die je laat herkennen nadien ook te verbeteren. Het is natuurlijk mogelijk om de teksten over te brengen naar Word en daar de spellingscontrole te laten lopen. Het programma Omnipage zelf laat echter ook toe om teksten te verbeteren.

5 In het tekstvenster van Omnipage Pro (rechts) staat de herkende tekst. In de tekst zullen echter rode en groene fragmenten aangeduid zijn. Dat zijn tekstfragmenten waar het OCR-programma zelf geen raad mee wist en die verbeterd dienen te worden. Je kan nu op twee manieren de tekst gaan verbeteren: manueel en met behulp van het programma. 1. MANUELE VERBETERING: Dit is een langdurige operatie. Je dient alle groene en rode woorden aan te klikken en te verbeteren. Als je op een groene of een rode aanduiding dubbel klikt dan zal Omnipage Pro jou het fragment aangeven waar dit woord vandaan komt. 2. AUTOMATISCHE GECONTROLEERDE VERBETERING: Deze verbetering verdient de aanbeveling. Het programma zal jou nu zelf stuk voor stuk de groene of rode fragmenten aanreiken en je vragen deze te verbeteren. Bovendien leert het programma een heleboel nieuwe ingescande woorden bij die de volgende keer niet meer aangegeven zullen worden. Je start de automatische verbeteringmodule door op de Check Recognition knop te klikken: Er opent een nieuw scherm dat gelijkenissen vertoont met de spellingscontrole van Word: Omnipage Pro zal twee soorten suggesties doen. Ofwel meent het programma dat het woord perfect herkend is maar bestaat het woord nog niet in de spellingsbibliotheek van deze taal. Dan geeft het programma bovenstaande mededeling: Not in dictionary. Als het woord dat er achter verschijnt inderdaad het correcte woord is kan je op ADD klikken om het woord in de bibliotheek toe te voegen. Is het woord niet helemaal correct dan kan je het links onderaan wijzigen en op change klikken.

6 De tweede mogelijke situatie die voorkomt is dat Omnipage zelf al weet dat het bepaalde woorden niet helemaal heeft kunnen herkennen. Op dat moment geeft het programma de boodschap Suspect word. Meestal zal dit woord niet kloppen en dien je onderaan opnieuw de juiste schrijfwijze in te tikken en op Change te klikken. Deze procedure gaat voort tot het einde van het blad bereikt is. Je kan dan naar de volgende pagina gaan of gewoon een nieuwe pagina inscannen en laten herkennen. 2.3 De herkende pagina s opslaan Je kan in Omnipage al je pagina s na elkaar inscannen. Dat wil zeggen dat je niet elke pagina opnieuw zult moeten opslaan voor je aan een andere begint. Je hoeft ook niet elke pagina opnieuw na te kijken voor je een andere opent. Je kan gewoon eerst al je bladen inscannen, dan al je pagina s laten herkennen en tot slot al die pagina s verbeteren voor je ze in een document opslaat. Met de volgende knop kan je bladeren doorheen de verschillende pagina s die je hebt ingescand: Als je klaar bent met inscannen, herkennen én verbeteren dien je je document nog op te slaan. Omnipage kent een heleboel formaten waarin je teksten kan opslaan. Normaal gezien zal je je document in Word 6.0 willen opslaan om er voor te zorgen dat je je tekst nadien kan layouten in de tekstverwerker. Voor sommige gevallen (bv. om Primary Texts voor ATLAS/ti te maken) kan het nodig zijn om ASCII Standard (*.txt) als formaat te kiezen. Onderaan dit scherm kan je ok kiezen hoe je je teksten wenst op te slaan. Standaard kies je ervoor om alle ingescande pagina s in één document onder te brengen.

7 Als je vervolgens het programma wil afsluiten zal Omnipage nog het volgende venster geven: Het Caere Document waarvan sprake is het beeld dat je oorspronkelijk hebt ingescand. Je hebt de mogelijkheid om ook dat te bewaren. Indien je tekstherkenning goed afgelopen is, heeft dit echter geen enkele zin meer en kan je gerust nee antwoorden. 3 Excursus: Beelden scannen Om beelden te scannen gebruik je niet het programma Omnipage Pro maar klik je het scan programma van HP aan: HP Picturescan. Je krijgt dan het volgende beeld te zien:

8 Als je een beeld (kleur of zwart-wit) wil inscannen volstaat het om op Scannen te klikken om de scanner in werking te stellen. Er opent zich dan een nieuw venster: In eerste instantie zal het programma een voorscan van je afbeelding maken. Aan de hand daarvan kan je dan fijner bepalen wat er daadwerkelijk ingescand moet worden. De volgende stap die je moet nemen, is het afbakenen van het gebied dat de scanner daadwerkelijk in je figuur moet opnemen. Je kan ook de voorscan onmiddellijk accepteren maar dan bevat de tekening waarschijnlijk vervelende randen. Volgende knop laat je toe om een bepaald gebied te selecteren:

9 Als je het gewenste gebied hebt aangeduid dan doe je er best aan om tussentijds nog eens in te zoomen op het geselecteerde gebied (het programma is niet steeds heel accuraat als je een gebied selecteert). Inzoomen gebeurt door op de zoomknop te klikken: Het beeld dat ingescand moet worden, komt nu duidelijker in zicht en je kan evalueren of het gebied nu exact overeenkomt met wat je wil inscannen. Als de scherpte te wensen overlaat, kan je met behulp van het kompas je beeld verscherpen. Als je helemaal tevreden bent met het resultaat op scherm kan je de tekening Accepteren. Het programma vraagt dan om een bestandsnaam en een grafisch formaat om naar toe te scannen.

10 Als het programma opnieuw overschakelt naar het oorspronkelijk scherm (met de papegaai) is het scannen afgelopen en kan je met een grafisch programma de afbeelding bijwerken of rechtstreeks invoegen in je tekstverwerking of DTPprogramma.