Έννοια στον ορισμό ABC
Miscellanea / / July 04, 2021
Από τον Francisco Cano, τον Μάιο. 2014
Μπορούμε να δούμε ότι όχι μόνο ένας σαρωτής μπορεί να αναγνωρίζει γράμματα και τύπους.
ο OCR ή οπτική αναγνώριση χαρακτήρων, μεταφρασμένη στα ισπανικά, είναι μια τεχνολογία που στοχεύει να μιμηθεί το ανθρώπινο μάτι, αυτή η τεχνολογία προσπαθεί να επιτύχει ότι οι χαρακτήρες και ο τύπος γραμματοσειρά (γραμματοσειρά) από τι αποτελείται ένα έγγραφο. Μιλάμε για έναν συνηθισμένο σαρωτή και ένα αρκετά ισχυρό λογισμικό. Όταν αναφερόμαστε σε ισχυρό λογισμικό, εννοούμε ένα μεγάλο και ευρύ βάση δεδομένων να είναι σε θέση να αναγνωρίζουν τα διαφορετικά γράμματα και τους αντίστοιχους τύπους τους.
Εκτός από το λογισμικό, ο σαρωτής είναι σημαντικός. Ένας πολύ ευαίσθητος σαρωτής θα διαβάσει καλύτερα τα pixel του εγγράφου από τότε ευαισθησία θα επιτρέψει στο λογισμικό να κάνει λιγότερα λάθη. Είναι πολύ δύσκολο για το λογισμικό δεν να είναι λάθος. Κάθε έγγραφο τοποθετείται στο σαρωτή και βγαίνει μέσα Μορφή Λέξη ή με τη μορφή που σας επιτρέπει να επιλέξετε το πρόγραμμα. Μετά από αυτό πρέπει να διορθώσετε το έγγραφο. Μόλις διορθωθεί, μπορούμε να το βάλουμε σε pdf για κοινή χρήση ή αρχειοθέτηση.
Μία από τις μεγάλες χρήσεις του OCR είναι στη σάρωση βιβλίων. Για παράδειγμα, η συλλογή της εθνικής βιβλιοθήκης. Ομοίως, το περίφημο e.book που μπορεί να διαβαστεί παντού σε tablet τύπου iPad και Android και σε αναγνώστες ebook.
Ένα παράδειγμα του τρόπου σάρωσης ενός βιβλίου.
Η τεχνολογία OCR έχει περιορισμό. Δεν λειτουργεί για αρχαία κείμενα ή για ορισμένα λόγος έχουν υποστεί φυσική επιδείνωση. Αυτή η επιδείνωση είναι πολύ φυσιολογική όταν πρόκειται για ιστορικά έγγραφα που μπορούν να είναι έως και χίλια χρόνια. Αυτοί οι τύποι εγγράφων, για τους οποίους έχουν περάσει τα χρόνια, δεν είναι γνωστοί στην εν λόγω τεχνολογία OCR. Αυτοί οι τύποι εγγράφων αρχειοθετούνται συνήθως με σαρώσεις υψηλής ανάλυσης στο Φωτογραφία ώστε το κοινό να μπορεί να θαυμάσει όλες τις λεπτομέρειες ενός εγγράφου χωρίς να το αλλοιώσει.
Η ανάλυση στο OCR μας λέει πόσες λεπτομέρειες ανιχνεύει το ίδιο το σύστημα. Για καθαρά και καθορισμένα κείμενα, είναι φυσιολογικό να χρησιμοποιείτε 300 dpi (κουκκίδες ανά ίντσα). Αυτό έχει διαμορφωθεί από το σαρωτή. Μια ίντσα ισούται με 25.400 χιλιοστάαρκεί 300 pixel για μια τόσο μικρή περιοχή. Στην περίπτωση εφημερίδων ή παρόμοιων. όπου η εκτύπωση είναι μικρή και το χαρτί είναι πάντα λίγο χτυπημένο, η βέλτιστη ανάλυση θα ήταν 600 dpi. Εάν πραγματοποιήσουμε σάρωση σε αυτήν την τελευταία ανάλυση, είναι καλύτερο για εμάς να έχουμε έναν καλό σαρωτή, καθώς κοστίζει πολύ για έναν κοινό σαρωτή να ολοκληρώσει την ενέργεια σε αυτήν την ανάλυση.
ο εξέλιξη Το OCR περνάει από ένα γίνεται καλύτερα αυτού του συστήματος. Γίνεται καλύτερα που είναι ήδη σε εξέλιξη σε ένα προσχέδιο ονομάζεται IMPACT. Αυτό το έργο στοχεύει στην ανταλλαγή πληροφοριών μεταξύ διαφόρων ιδρύματα πολιτεία και κάποια εταιρεία να αναπτύξει λογισμικό OCR που πληροί όλες τις απαιτήσεις για μαζική ψηφιοποίηση.
Θέματα στο OCR