Koncept i definition ABC
Miscellanea / / July 04, 2021
Av Francisco Cano, i maj. 2014
Vi kan se att inte bara en skanner kan känna igen bokstäver och typ.
De OCR eller optisk teckenigenkänning, översatt till spanska, är en teknik som syftar till att efterlikna det mänskliga ögat, den här tekniken försöker uppnå att karaktärerna och typen av typsnitt (typsnitt) vad ett dokument består av. Vi pratar om en vanlig skanner och ganska kraftfull programvara. När vi hänvisar till kraftfull programvara menar vi en stor och bred databas för att kunna känna igen de olika bokstäverna och deras motsvarande typer.
Förutom programvaran är skannern viktig. En mycket känslig skanner läser bättre pixlarna i dokumentet eftersom detta känslighet det gör att programvaran kan göra mindre misstag. Det är ganska svårt för programvaran inte ha fel. Alla dokument placeras i skannern och det kommer ut Formatera Word eller i det format som programmet låter dig välja. Efter detta måste du korrigera dokumentet. När vi har rättat till kan vi lägga det i pdf för att dela eller arkivera.
En av de stora användningsområdena för OCR är boksökning. Som till exempel samlingen av det nationella biblioteket. Likaså den berömda e.book som kan läsas överallt på iPad och Android-surfplattor och i läsare e-bok.
Ett exempel på hur en bok skannas.
OCR-teknik har en begränsning. Det fungerar inte för antika texter eller för vissa anledning har fått fysisk försämring. Denna försämring är mycket normal när det gäller historiska dokument som kan vara upp till tusen år gamla. Dessa typer av dokument, för vilka åren har tagit vägen, är ganska oigenkännliga för OCR-tekniken i fråga. Dessa typer av dokument arkiveras vanligtvis med högupplösta genomsökningar i Fotografi så att allmänheten kan beundra alla detaljer i ett dokument utan att försämra det.
Upplösningen i OCR berättar hur mycket detaljer själva systemet upptäcker. För tydliga och definierade texter är det normalt att använda 300 dpi (punkter per tum). Detta konfigureras från skannern. En tum motsvarar 25.400 millimeter, så 300 pixlar för ett så litet område är tillräckliga. När det gäller tidningar eller liknande. där utskriften är liten och papperet alltid är lite misshandlat, skulle den optimala upplösningen vara 600 dpi. Om vi skannar med den här senaste upplösningen är det bättre för oss att ha en bra skanner eftersom det kostar mycket för en vanlig skanner att slutföra åtgärden med denna upplösning.
De Evolution OCR går igenom en blir bättre av detta system. Blir bättre som redan pågår i en förslag kallas IMPACT. Detta projekt syftar till att dela information mellan olika institutioner staten och något företag att utveckla OCR-programvara som uppfyller alla krav för massdigitalisering.
Ämnen i OCR