Wat is OCR?

OCR is een afkorting voor Optical Character Recognition. Maar waarom wil je die karakters dan herkennen? Je hebt in ieder geval Scansoftware en OCR software nodig. BIQE is zulke Scan- en OCR software.

Als je bijvoorbeeld voor je studie een dik boek moet lezen en leren van 500 bladzijden, dan kun je dit boek op verschillende manieren bestuderen. Je kunt alles wat belangrijk is geel, groen of blauw arceren. Het nadeel is dat je iedere keer het hele boek weer door moet bladeren.

Als je het boek onder een scanner legt en OCR software gebruikt, dan heb je na één uur scannen het hele boek van 500 bladzijden klaar.

Dan open je het boek met bijvoorbeeld een PDF Reader en kun je woorden en begrippen intypen in de zoekbalk van de Reader. En die woorden worden dan gevonden en lichten dan op (highlight). Zo kun je allerlei zoekacties doen die binnen 1 seconde worden gevonden.

Dat zal je studieduur absoluut verbeteren en je houdt het boek schoon. Geen strepen in je boek. Als die er wel hadden gestaan voordat je was begonnen met scannen, dan waren de zoekwoorden / zoekletters in het OCR proces slechter herkend (recognized) en dan zouden bepaalde woorden niet of slechter worden gevonden. De staat van het boek is voor het OCR proces enorm belangrijk.

Deze OCR techniek kun je natuurlijk op allerlei documenten, formulieren, brieven, contracten of rekeningen enz. toepassen. En omdat OCR letters/woorden herkend en doorzoekbaar maakt, kun je in heel die berg papieren heel snel iets terugvinden.

OCR begint met het maken van een scan, dan heb je een plaatje (image), bijvoorbeeld een TIF, JPG, PNG of ander formaat. En in dit scanproces heb je software nodig die de OCR uitvoert en exporteert in bijvoorbeeld een doorzoekbare PDF of in een bewerkbaar tekstbestand als Word.

 

Hoe werkt OCR?

Daarop kun je in ieder geval twee verschillende antwoorden geven.

Antwoord 1:

OCR is wat wij doen met onze ogen als we lezen. Dan scannen we als het ware de letters en herkennen we de verschillende letters aan hun patronen.

Het begon allemaal met het scannen ven een bladzijde, boek, brief, rekening enz., met als resultaat een afbeelding, maar het nadeel van een afbeelding is, dat je die niet kunt doorzoeken. Dat doe je met OCR.

Iedere letter bestaat uit heel veel pixels en als die heel dicht tegen elkaar aan staan en je zet ze in een bepaald patroon tegen elkaar aan dan krijg je een letter. Die letter is op het oog zwart. Maar als je de pixels heel sterk vergroot, dan zie je dat er openingen tussen zitten.

OCR ziet al die pixels in een bepaalt patroon en ziet deze als een letter, cijfer, leesteken et cetera. Dat pixelpatroon hebben wij hem aangeleerd, bijvoorbeeld doordat hij tijdens het scannen in het woordenboek kijkt. Zo heeft iedere OCR ook zijn eigen woordenboek. Soms zijn er heel ingewikkelde patronen die niet in z’n woordenboek staan.

Als je bijvoorbeeld oude boeken in de kast hebt staan met gotische letters. Als je die wilt OCR-en, dan heb je nog betere en andere technieken nodig.

Daarvoor moet de OCR naar de universiteit, want dan is wetenschappelijk niveau vereist en heel veel training. Dat brengt ons bij het tweede antwoord.

Antwoord 2:

Nog niet zo heel lang geleden ontstond er een OCR methode, die LSTM heet. Het is een methode die anders te werk gaat dan de ‘traditionele OCR’. Bij de traditionele OCR wordt om elk willekeurig symbool een kadertje gezet. Vervolgens wordt de corresponderende uni code waarde ingetypt. Deze methode werkt prima voor de huidige handschriften maar is niet nauwkeurig genoeg voor de oude gotische letter of incunabelen (letters voor 1500).

LSTM neemt een hele regel van symbolen tegelijk en verdeelt de regel verticaal in zeg maar 25000 dunne reepjes van 1 pixel breed. Er ontstaat dan een soort curve zoals in de muziek. Zie figuur.

Wat is OCR

De training die hier moet plaatsvinden is het intypen van uni code waarden die corresponderen met de symbolen. Zie figuur.

LSTM gaat nu in een herhaaldelijk proces (iteraties) vaste patronen ontdekken in de reeksen en volgorden aan tekens. Bij een bepaalde herhaling (dat kan bijvoorbeeld de duizendste herhaling zijn) duikt het foutpercentage onder de 1%. Zie figuur.

Na herhaling duizend wordt dit taalmodel opgeslagen. Vervolgens voert dit taalmodel een voorspelling (predictie) uit op een willekeurige tekst met dat bepaalde type font. Met name voor oude handschriften is deze methode ideaal want het foutpercentage is minimaal.

Wat zijn de voordelen van OCR?

  1. Er gaat geen tijd verloren aan het intypen van allerlei gegevens.
  2. Eenvoudig scannen met BIQE scan -en OCR software en de ge-OCR-de tekst exporteren naar uw tekstverwerker.
  3. U kunt d.m.v. een zoekactie al uw gegevens eenvoudig terugvinden.
  4. Door de OCR zijn uw opgeslagen bestanden kleiner dan het oorspronkelijke plaatje.
  5. U en allen met wie u het document deelt kunt de tekst aanpassen.
  6. U bent de baas (houdt de regie) over de tekst en niet uw plaatje op het scherm.
  7. U kunt de lay-out van de tekst aanpassen, cursief, vet gedrukt etc.

Wij als BIQE lopen voorop met de ontwikkelingen op OCR-gebied. Ons Scan- en softwareproduct werkt met Tesseracct 4 LSTM. Dit zorgt voor de beste OCR-herkenning van  uw gescande image. En als uw gescande image van slechte kwaliteit is dat kunt u met de ruim 30 Imagefilters eerst uw image bewerken voor het beste OCR-resultaat. BIQE is de meest betaalbare oplossing en uw partner voor alle scan- OCR-software activiteiten.

BIQE OCR SCAN SOFTWARE

BIQE OCR SCANSOFTWARE

Heeft u vragen over onze BIQE OCR Scansoftware?
U kunt geheel vrijblijvend contact met ons opnemen. We helpen u graag de juiste keuzes te maken.