定義ABCの概念
その他 / / July 04, 2021
フランシスコ・カノ著、5月。 2014

スキャナーだけが文字とタイプを認識できるわけではないことがわかります。
ザ・ OCRまたは光学式文字認識スペイン語に翻訳された、は人間の目をエミュレートすることを目的とした技術であり、この技術は文字とタイプのピクセルごとの認識を達成しようとします フォント(書体) ドキュメントが何でできているか。 私たちは普通のスキャナーと非常に強力なソフトウェアについて話している。 私たちが強力なソフトウェアに言及するとき、私たちは大きくて広いことを意味します データベース さまざまな文字とそれに対応するタイプを認識できるようにします。
ソフトウェアとは別に、スキャナーは重要です。 非常に感度の高いスキャナーは、これ以降、ドキュメントのピクセルをより適切に読み取ることができます 感度 それはソフトウェアがより少ない間違いをすることを可能にするでしょう。 ソフトウェアにとってはかなり難しいです ない 間違っている。 すべてのドキュメントがスキャナーに配置され、 フォーマット 単語またはプログラムで選択できる形式。 この後、ドキュメントを修正する必要があります。 修正したら、PDFに入れて共有またはアーカイブできます。
OCRの優れた用途の1つは、本のスキャンです。 たとえば、国立図書館のコレクション。 同様に、iPadやAndroidタブレット、およびリーダーでどこでも読むことができる有名な電子書籍。 電子ブック.

本をスキャンする方法の例。
OCRテクノロジーには制限があります。 古代のテキストや一部のテキストでは機能しません 理由 物理的な劣化に苦しんでいます。 この劣化は、1000年前までの歴史的文書に関してはごく普通のことです。 何年にもわたって犠牲を払ってきたこれらのタイプの文書は、問題のOCR技術にはまったく認識できません。 これらのタイプのドキュメントは通常、高解像度スキャンでアーカイブされます。 写真撮影 公衆が文書を劣化させることなくすべての詳細を賞賛できるようにするためです。
OCRの解像度は、システム自体が検出する詳細度を示します。 明確で定義されたテキストの場合、通常は300 dpi(1インチあたりのドット数)を使用します。 これはスキャナーから構成されます。 1インチは25,400ミリメートルに相当します、したがって、このような小さな領域には300ピクセルで十分です。 新聞などの場合。 印刷が小さく、用紙が常に少しボロボロになっている場合、最適な解像度は600dpiになります。 この最後の解像度でスキャンする場合、一般的なスキャナーがこの解像度でアクションを完了するには多くの費用がかかるため、優れたスキャナーを使用することをお勧めします。
ザ・ 進化 OCRは よくなります このシステムの。 よくなります すでに進行中です ドラフト IMPACTと呼ばれます。 このプロジェクトは、さまざまな人々の間で情報を共有することを目的としています 機関 州および一部の企業は、大量デジタル化のすべての要件を満たすOCRソフトウェアを開発しています。
OCRのトピック