Konsept i definisjon ABC
Miscellanea / / July 04, 2021
Av Francisco Cano, i mai. 2014
![Vi kan se at ikke bare en skanner er i stand til å gjenkjenne bokstaver og type.](/f/40408db9d05adab1f2c14520983f9202.jpg)
Vi kan se at ikke bare en skanner er i stand til å gjenkjenne bokstaver og type.
De OCR eller optisk karaktergjenkjenning, oversatt til spansk, er en teknologi som tar sikte på å etterligne det menneskelige øye, denne teknologien prøver å oppnå at tegnene og typen font (skrift) hva et dokument er laget av. Vi snakker om en vanlig skanner og ganske kraftig programvare. Når vi refererer til kraftig programvare, mener vi en stor og bred database å kunne gjenkjenne de forskjellige bokstavene og deres tilhørende typer.
Bortsett fra programvaren er skanneren viktig. En veldig sensitiv skanner vil bedre lese pikslene i dokumentet siden dette følsomhet det vil tillate programvaren å gjøre mindre feil. Det er ganske vanskelig for programvaren ikke ta feil. Ethvert dokument plasseres i skanneren, og det kommer ut Format Word eller i formatet som programmet lar deg velge. Etter dette må du korrigere dokumentet. Når det er rettet, kan vi legge det i pdf for å dele eller arkivere.
En av de store bruksområdene for OCR er bokskanning. Som for eksempel samlingen av det nasjonale biblioteket. Likeledes den berømte e.booken som kan leses overalt på iPad og Android-nettbrett og i lesere ebok.
![Et eksempel på hvordan en bok blir skannet.](/f/7566a528b32539eabac06d0d96cd8c40.jpg)
Et eksempel på hvordan en bok blir skannet.
OCR-teknologi har en begrensning. Det fungerer ikke for gamle tekster eller for noen grunnen til har fått fysisk forverring. Denne forverringen er veldig normal når det gjelder historiske dokumenter som kan være opptil tusen år gamle. Denne typen dokumenter, som årene har tatt sin toll, er ganske ukjennelig for den aktuelle OCR-teknologien. Disse typer dokumenter arkiveres vanligvis med høyoppløselige skanninger i Fotografering slik at publikum kan beundre alle detaljene i et dokument uten å forverre det.
Oppløsningen i OCR forteller oss hvor mye detaljer selve systemet oppdager. For klare og definerte tekster er det vanlige å bruke 300 dpi (prikker per tomme). Dette konfigureres fra skanneren. En tomme tilsvarer 25.400 millimeter, så 300 piksler for et så lite område er tilstrekkelig. Når det gjelder aviser eller lignende. der utskriften er liten og papiret alltid er litt voldsomt, vil den optimale oppløsningen være 600 ppt. Hvis vi skanner med denne siste oppløsningen, er det bedre for oss å ha en god skanner siden det koster mye for en vanlig skanner å fullføre handlingen i denne oppløsningen.
De utvikling OCR går gjennom en blir bedre av dette systemet. Blir bedre som allerede er i gang i et utkast kalt IMPACT. Dette prosjektet har som mål å dele informasjon mellom forskjellige institusjoner staten og noe selskap for å utvikle OCR-programvare som oppfyller alle kravene for massedigitalisering.
Temaer i OCR