Documenten scannen met OCR Wat betekent OCR eigenlijk? OCR staat voor: "Optical Character Recognition" in het Nederlands optische tekenherkenning. Je kunt er papieren documenten mee scannen, die dan niet als afbeelding, maar als tekst worden gescand. De tekst kun je bewerken of gebruiken in andere programma's. Anders gezegd, dit soort scans kan je heel wat typewerk besparen! Dat klinkt goed hè, maar, zoals altijd, niets is perfect... Zo zal je ervaren dat de tekst niet altijd foutloos wordt overgenomen, het woord vóór kan gemakkelijk als v66r worden aangezien en hé zal er als h6 uit kunnen zien. Met de ennetjes (n) en emmetjes (m) gaat het ook nogal eens mis, zeker als er van onduidelijke, oude papieren een scan wordt gemaakt. Maar de spellingscontrole van een behoorlijke tekstverwerker zal de foutjes wel voor je onderstrepen en de overgebleven onvolkomenheden kun je zelf even corrigeren, dus op zich hoeft dat niet zo'n probleem te zijn. Je hebt er een speciaal programma voor nodig? Dat wel, maar vaak wordt er door de fabrikanten al zo'n programma meegeleverd bij de aankoop van een scanner. Als dat niet het geval is dan zou de aanschaf van een OCR programma je wel eens lelijk tegen kunnen vallen, want er worden meestal nogal forse prijzen voor gevraagd! Documenten scannen met Simple OCR Gelukkig kan het freeware programma SimpleOCR ook prima dienst doen, ook als is dat dan misschien wat minder uitgebreid dan de betaalde versies. Een OCR-pakket interpreteert lettertekens aan de hand van woordenlijsten. Deze software maakt gebruik van Engelse, Franse en Nederlandse woordenboeken. Eerst kiest u taal van de tekst die het pakket moet interpreteren, daarna klikt u op de knop Add Page. SimpleOCR ondersteunt vier verschillende soorten input. Het kan gaan om tekst die u rechtstreeks scant, of om een afbeelding die al op de computer is opgeslagen waarop tekst staat. De optie Batch gebruikt u wanneer u meerdere bestanden na elkaar wilt verwerken en tenslotte is deze tekstherkenner zelfs in staat handschrift te lezen. Tekstherkenning van handschrift is echter een functie waarvoor u moet betalen, toch kunt u bij wijze van proef SimpleOCR gedurende veertien dagen handschrift laten lezen. Omdat wij gaan voor freeware, hebben we het gehouden bij het herkennen van gedrukte tekst. Zonder poespas aan de slag SimpleOCR herkent meteen onze scanner. Het programma bevat een tool om blokjes tekst te markeren die u niet wilt laten interpreteren en een tool om afbeeldingen te selecteren. Via de Merge-knop is het trouwens mogelijk om teksten die het programma op verschillende pagina s heeft ingelezen, samen te brengen tot één geheel. Opvallend is de bijzonder 1
gebruiksvriendelijke interface. De precisie van de tekstherkenning ligt beslist lager dan van de commerciële OCR-toepassingen, vooral wanneer het gaat om een document met speciale opmaakkenmerken. In het slechtste geval telden we bij een ingescande loepzuivere afdruk toch twee à drie fouten per regel. Het programma markeert zelf met welke woorden het moeite heeft en laat de gebruiker alternatieven kiezen aan de hand van het ingebouwde woordenboek. Wanneer het bedoelde woord niet bij de suggesties is opgenomen, kunt u het juiste woord gewoon intikken. SimpleOCR vertrekt van vier mogelijke bronnen. Altijd een goed rapport Tijdens het corrigeren merken we dat de Nederlandse woordenlijst van SimpleOCR behoorlijk beperkt is. Bovendien leest het programma documenten met meerdere kolommen vaak gewoon van links naar rechts over de hele pagina uit, waardoor het resultaat onbruikbaar is. Kortom, u moet geen al te sterke verwachtingen koesteren op het vlak van doeltreffendheid. Op het einde van zijn taak presenteert het programma de statistieken. Het percentage herkende woorden ligt daar altijd erg hoog om de eenvoudige reden dat het aantal door de gebruiker gecorrigeerde woorden gewoon bij de herkende woorden optelt. Als laatste stap kunt u de herkende tekst wegschrijven als doc- of txt-bestand. 2
Bij niet-herkende woorden volgen suggesties. In hoeverre mogen we een gegeven paard in de bek kijken? In de betaalde versie kunt u niet alleen handschrift laten inlezen, het is tevens mogelijk om uw correctieprofiel op te slaan. Op die manier wordt het programma alsmaar doeltreffender. In de freeware versie leert het programma helaas niet van zijn fouten. Dat is waarschijnlijk de verklaring voor het feit dat SimpleOCR bij ons steevast en in ieder lettertype het woord u niet herkende. Kortom, als u sporadisch Nederlands, Franse of Engelse teksten wilt laten inlezen, is SimpleOCR een prima oplossing. Moet u regelmatig beroep doen op OCR, dan gaat u beter voor concurrent die minder problemen met herkenning heeft. SimpleOCR 3.1 Freeware Taal : Engels Download : 9,3 MB OS : Windows 9x/2000/2003/XP/Vista/7 Systeemeisen : Onbekend Oordeel : 7/10 Pluspunten Bijzonder gemakkelijk in gebruik Minpunten Het programma leert niet van zijn fouten Relatief veel fouten 3
Documenten scannen met Microsoft Office Document Imaging Als Microsoft Office 2003 of 2007 is geïnstalleerd dan heb je, vaak zonder dat je het weet, ook een OCR programma! Je kunt het vinden onder de snelkoppelingen van Microsoft Office. Klik Start, Alle Programma's, Microsoft Office, Microsoft Office-hulpprogramma's, daar vind je een optie Microsoft Office Document Imaging. De OCR onderdelen zijn vaak niet vooraf geïnstalleerd, maar als je op de snelkoppeling drukt wordt het installeren automatisch gestart, zorg ervoor dat je de Office cd bij de hand hebt! Start Document Imaging en klik op Bestand, Nieuw document scannen, er verschijnt een nieuw venster met een aantal definities. Selecteer er een: Grijswaarden, Kleur, of een van de anderen en plaats een vinkje bij Bestand na scannen weergeven. Druk op de knop Scanner... om aan te geven dat je het stuurprogramma van de scanner wil gebruiken. Dat is wel handig, want je kunt dan een selectie maken en alle andere extra's van dat menu gebruiken. Druk op Scannen om het scanproces te starten. Als het scannen klaar is verschijnt er een ander venster, klik op Gereed of op Doorgaan om nog een document te scannen. Als je op Gereed klikt wordt het resultaat van de scan in een venster getoond en is het klaar om te bewerken. 4
Selecteer de tekst, of het gedeelte wat jij nodig hebt en kopieer die naar je kladblok of tekstverwerker, om het daarmee te bewerken. Dat doe je door met de linkse muistoets een begin aan te geven en met de toets ingedrukt naar een eindpunt te gaan. Laat de muistoets los en druk Ctrl+c of kies Kopiëren in het rolmenu Bestand. Open je tekstverwerker of kladblok en druk Ctrl+v of kies uit het rolmenu Bestand of Bewerken (afhankelijk van het programma dat je gebruikt) de optie Plakken. De afbeeldingen in de scan kun je niet op deze manier kopiëren (dat kan vaak wel met een commercieel programma) maar ook daar zijn oplossingen voor. Zie hierover de les Afbeeldingen scannen. Documenten online scannen met Free-OCR Via de website Free-OCR is het mogelijk om afbeeldingen met tekst (ingescande documenten) om te zetten naar tekst. De computer zoekt de woorden in de afbeelding. OCR is een redelijk bewezen techniek, maar dat het direct online kan én in het Nederlands is aardig nieuw. Upload eerst een PDF, JPG, GIF, TIFF of BMP bestand, selecteer de taal van het document en de site doet de rest! De enige beperking is dat de bestanden niet groter zijn dan 2 MB, niet breder of hoger zijn dan 5000 pixels en er geldt een limiet van 10 bestanden per uur. http://www.free-ocr.com/ Zoals eerder gezegd OCR maakt wel eens een foutje, maar kan desondanks toch nuttig zijn en wie weet kun jij er ook je voordeel mee doen, succes alvast! De tekst over SimpleOCR komt uit Computer Totaal - Dirk Schoofs - 12 oktober 2010 5