Koncept i definition ABC
Miscellanea / / July 04, 2021
Af Francisco Cano i maj. 2014
Vi kan se, at ikke kun en scanner er i stand til at genkende bogstaver og type.
Det OCR eller optisk tegngenkendelse, oversat til spansk, er en teknologi, der sigter mod at efterligne det menneskelige øje, denne teknologi forsøger at opnå, at tegnene og typen af skrifttype (skrifttype) hvad et dokument er lavet af. Vi taler om en almindelig scanner og ret kraftig software. Når vi refererer til kraftfuld software, mener vi en stor og bred database at kunne genkende de forskellige bogstaver og deres tilsvarende typer.
Bortset fra softwaren er scanneren vigtig. En meget følsom scanner vil bedre læse pixelerne i dokumentet, da dette følsomhed det gør det muligt for softwaren at lave færre fejl. Det er ret vanskeligt for softwaren ikke Vær forkert. Ethvert dokument placeres i scanneren, og det kommer ud Format Word eller i det format, som programmet lader dig vælge. Herefter skal du rette dokumentet. Når det er rettet, kan vi sætte det i pdf for at dele eller arkivere.
En af de store anvendelser af OCR er til bogscanning. Som for eksempel indsamlingen af det nationale bibliotek. Ligeledes den berømte e.book, der kan læses overalt på ipad og android tablets og på læsere e-bog.
Et eksempel på, hvordan en bog scannes.
OCR-teknologi har en begrænsning. Det fungerer ikke for gamle tekster eller for nogle grund har lidt fysisk forringelse. Denne forringelse er meget normal, når det kommer til historiske dokumenter, der kan være op til tusind år gamle. Disse typer dokumenter, for hvilke årene har taget deres vejafgift, er ret uigenkendelige for den pågældende OCR-teknologi. Disse typer dokumenter arkiveres normalt med scanninger i høj opløsning i Fotografering så offentligheden kan beundre alle detaljer i et dokument uden at forringe det.
Opløsningen i OCR fortæller os, hvor meget detaljer selve systemet registrerer. For klare og definerede tekster er det normale at bruge 300 dpi (prikker pr. Tomme). Dette konfigureres fra scanneren. En tomme svarer til 25.400 millimeter, så 300 pixels til et så lille område er tilstrækkelige. I tilfælde af aviser eller lignende. hvor udskriften er lille, og papiret altid er lidt voldsomt, ville den optimale opløsning være 600 dpi. Hvis vi scanner med denne sidste opløsning, er det bedre for os at have en god scanner, da det koster meget for en fælles scanner at gennemføre handlingen i denne opløsning.
Det udvikling OCR gennemgår en bliver bedre af dette system. Bliver bedre som allerede er i gang i et udkast kaldes IMPACT. Dette projekt sigter mod at dele information mellem forskellige institutioner stat og en eller anden virksomhed til at udvikle OCR-software, der opfylder alle kravene til massedigitalisering.
Emner i OCR