Concept in definitie ABC
Diversen / / July 04, 2021
Door Francisco Cano, in mei. 2014
We zien dat niet alleen een scanner letters en typen kan herkennen.
De OCR of optische tekenherkenning, vertaald in het Spaans, is een technologie die tot doel heeft het menselijk oog na te bootsen, deze technologie probeert te bereiken dat de karakters en het type lettertype (lettertype) waar een document van is gemaakt. We hebben het over een gewone scanner en vrij krachtige software. Als we het hebben over krachtige software, bedoelen we een groot en breed database om de verschillende letters en de bijbehorende typen te kunnen herkennen.
Naast de software is de scanner belangrijk. Een zeer gevoelige scanner zal de pixels van het document beter lezen omdat dit gevoeligheid hierdoor kan de software minder fouten maken. Het is best moeilijk voor de software niet Wees fout. Elk document wordt in de scanner geplaatst en komt er in and Formaat Word of in het formaat dat het programma je laat kiezen. Hierna moet u het document corrigeren. Eenmaal gecorrigeerd, kunnen we het in pdf plaatsen om te delen of te archiveren.
Een van de geweldige toepassingen van OCR is het scannen van boeken. Zoals bijvoorbeeld de collectie van de nationale bibliotheek. Evenzo het beroemde e.book dat overal kan worden gelezen op ipad- en Android-tablets en in readers ebook.
Een voorbeeld van hoe een boek wordt gescand.
OCR-technologie heeft een beperking. Het werkt niet voor oude teksten of dat voor sommigen reden lichamelijke achteruitgang hebben geleden. Deze verslechtering is heel normaal als het gaat om historische documenten die wel duizend jaar oud kunnen zijn. Dit soort documenten, waarvoor de jaren hun tol hebben geëist, zijn vrij onherkenbaar voor de betreffende OCR-technologie. Dit soort documenten wordt meestal gearchiveerd met scans met hoge resolutie in de Fotografie zodat het publiek alle details van een document kan bewonderen zonder het te verslechteren.
De resolutie in OCR vertelt ons hoeveel details het systeem zelf detecteert. Voor duidelijke en afgebakende teksten is het normaal om 300 dpi (dots per inch) te gebruiken. Dit wordt geconfigureerd vanuit de scanner. Eén inch is gelijk aan 25.400 millimeter, dus 300 pixels voor zo'n klein gebied is voldoende. In het geval van kranten of iets dergelijks. waar de afdruk klein is en het papier altijd een beetje gehavend is, zou de optimale resolutie 600 dpi zijn. Als we met deze laatste resolutie scannen, is het voor ons beter om een goede scanner te hebben, aangezien het veel kost voor een gewone scanner om de actie met deze resolutie te voltooien.
De evolutie OCR gaat door een wordt beter van dit systeem. Wordt beter die al aan de gang is in een droogte IMPACT genoemd. Dit project heeft tot doel informatie te delen tussen verschillende instellingen staat en een bedrijf om OCR-software te ontwikkelen die aan alle vereisten voor massadigitalisering voldoet.
Onderwerpen in OCR