Käsite määritelmässä ABC
Sekalaista / / July 04, 2021
Francisco Cano, toukokuussa. 2014
Voimme nähdä, että paitsi skanneri pystyy tunnistamaan kirjaimet ja tyypin.
OCR tai optinen merkintunnistus, käännettynä espanjaksi, on tekniikka, jonka tarkoituksena on jäljitellä ihmissilmää, tällä tekniikalla yritetään saavuttaa, että hahmot ja tyypit fontti (kirjasinlaji) mistä asiakirja on tehty. Puhumme tavallisesta skannerista ja melko tehokkaasta ohjelmistosta. Kun viitataan tehokkaaseen ohjelmistoon, tarkoitamme suurta ja laajaa tietokanta pystyä tunnistamaan eri kirjaimet ja niitä vastaavat tyypit.
Ohjelmiston lisäksi skanneri on tärkeä. Erittäin herkkä skanneri lukee paremmin asiakirjan pikselit tämän jälkeen herkkyys se antaa ohjelmiston tehdä vähemmän virheitä. Ohjelmistolle on melko vaikeaa ei olla väärässä. Mikä tahansa asiakirja asetetaan skanneriin ja se tulee ulos Muoto Word tai siinä muodossa, jonka ohjelman avulla voit valita. Tämän jälkeen sinun on korjattava asiakirja. Korjattuamme voimme laittaa sen pdf-tiedostoon jakamista tai arkistointia varten.
Yksi OCR: n suurimmista käyttötavoista on kirjojen skannaus. Esimerkiksi kansalliskirjaston kokoelma. Samoin kuuluisa e-kirja, joka voidaan lukea kaikkialla iPadissa ja Android-tableteissa sekä lukijoilla. e-kirja.
Esimerkki kirjan skannaamisesta.
OCR-tekniikalla on rajoituksia. Se ei toimi muinaisille tai joillekin teksteille syy ovat kärsineet fyysisestä heikkenemisestä. Tämä huonontuminen on hyvin normaalia, kun on kyse historiallisista asiakirjoista, jotka voivat olla jopa tuhat vuotta vanhoja. Tämäntyyppiset asiakirjat, joille vuodet ovat antaneet veronsa, eivät ole täysin tunnistettavissa kyseiselle OCR-tekniikalle. Tämäntyyppiset asiakirjat arkistoidaan yleensä korkean resoluution skannauksilla Valokuvaus jotta yleisö voi ihailla asiakirjan kaikkia yksityiskohtia pilaamatta sitä.
OCR: n tarkkuus kertoo kuinka paljon yksityiskohtia järjestelmä itse havaitsee. Selkeille ja tarkoille teksteille on normaalia käyttää 300 dpi (pistettä tuumassa). Tämä määritetään skannerista. Yksi tuuma on 25 400 millimetriä, joten 300 pikseliä niin pienelle alueelle riittää. Sanomalehtien tai vastaavien tapauksessa. Jos tulosteen paino on pieni ja paperi on aina hiukan repeytynyt, optimaalinen tarkkuus olisi 600 dpi. Jos skannataan tällä viimeisellä tarkkuudella, on parempi, että meillä on hyvä skanneri, koska tavallinen skanneri maksaa paljon, kun toiminto suoritetaan tällä tarkkuudella.
evoluutio OCR käy läpi a paranee tämän järjestelmän. Paranee joka on jo käynnissä a luonnos kutsutaan IMPACT. Tämän projektin tarkoituksena on jakaa tietoa eri tahojen kesken laitokset valtion ja jonkin yrityksen kehittää OCR-ohjelmisto, joka täyttää kaikki massadigitaation vaatimukset.
Aiheet OCR: ssä