Conceito em Definição ABC
Miscelânea / / July 04, 2021
Por Francisco Cano, em maio. 2014
Podemos ver que não apenas um scanner é capaz de reconhecer letras e tipos.
O OCR ou reconhecimento óptico de caracteres, traduzido para o espanhol, é uma tecnologia que visa emular o olho humano, esta tecnologia tenta alcançar que os personagens e o tipo de fonte (tipo de letra) do que um documento é feito. Estamos falando de um scanner comum e de um software bastante poderoso. Quando nos referimos a software poderoso, queremos dizer uma grande e ampla base de dados ser capaz de reconhecer as diferentes letras e seus tipos correspondentes.
Além do software, o scanner é importante. Um scanner muito sensível lerá melhor os pixels do documento, uma vez que este sensibilidade isso permitirá que o software cometa menos erros. É bastante difícil para o software não estar errado. Qualquer documento é colocado no scanner e sai em Formato Word ou no formato que o programa permitir. Depois disso, você deve corrigir o documento. Uma vez corrigido, podemos colocá-lo em pdf para compartilhar ou arquivar.
Um dos grandes usos do OCR é na digitalização de livros. Como por exemplo, o acervo da biblioteca nacional. Da mesma forma, o famoso e.book que pode ser lido em qualquer lugar em tablets do tipo ipad e android e em leitores livro eletrônico.
Um exemplo de como um livro é digitalizado.
A tecnologia OCR tem uma limitação. Não funciona para textos antigos ou para alguns razão sofreram deterioração física. Essa deterioração é muito normal quando se trata de documentos históricos que podem ter até mil anos. Esses tipos de documentos, para os quais os anos têm cobrado seu preço, são totalmente irreconhecíveis para a tecnologia OCR em questão. Esses tipos de documentos são geralmente arquivados com digitalizações de alta resolução no Fotografia para que o público possa admirar todos os detalhes de um documento sem deteriorá-lo.
A resolução no OCR nos diz quantos detalhes o próprio sistema detecta. Para textos claros e definidos, é normal usar 300 dpi (pontos por polegada). Isso é configurado no scanner. Uma polegada equivale a 25.400 milímetros, então 300 pixels para uma área tão pequena são suficientes. No caso de jornais ou similares. onde a impressão é pequena e o papel está sempre um pouco amassado, a resolução ideal seria 600 dpi. Se digitalizarmos nesta última resolução, é melhor para nós ter um bom scanner, pois custa muito para um scanner comum completar a ação nesta resolução.
O evolução OCR passa por um fica melhor deste sistema. Fica melhor que já está em andamento em um rascunho chamado IMPACTO. Este projeto visa compartilhar informações entre vários instituições estado e alguma empresa para desenvolver software OCR que atenda a todos os requisitos para digitalização em massa.
Tópicos em OCR