კონცეფცია განმარტება ABC
Miscellanea / / July 04, 2021
ფრანცისკო კანოს მიერ, მაისში. 2014
ჩვენ ვხედავთ, რომ არა მხოლოდ სკანერს შეუძლია ასოების და ტიპის ამოცნობა.
OCR ან სიმბოლოების ოპტიკური ამოცნობა, თარგმნილი ესპანურად, არის ტექნოლოგია, რომლის მიზანია ადამიანის თვალის მიბაძვა, ეს ტექნოლოგია ცდილობს მიაღწიოს, რომ პერსონაჟები და ტიპის შრიფტი (ტიპი) რისგან მზადდება დოკუმენტი. ჩვენ ვსაუბრობთ ჩვეულებრივ სკანერზე და საკმაოდ მძლავრ პროგრამულ უზრუნველყოფაზე. როდესაც მძლავრ პროგრამულ უზრუნველყოფას ვგულისხმობთ, ვგულისხმობთ დიდ და ფართო პროგრამას მონაცემთა ბაზა შეძლოს სხვადასხვა ასოების და მათი შესაბამისი ტიპების ამოცნობა.
პროგრამული უზრუნველყოფის გარდა, მნიშვნელოვანია სკანერი. ძალიან მგრძნობიარე სკანერი უკეთ წაიკითხავს დოკუმენტის პიქსელებს ამის შემდეგ მგრძნობელობა ეს საშუალებას მისცემს პროგრამულ უზრუნველყოფას ნაკლებად შეცდეს. პროგრამული უზრუნველყოფისთვის საკმაოდ რთულია არა ცდება ნებისმიერი დოკუმენტი მოთავსებულია სკანერში და ის გამოდის ფორმატი სიტყვა ან იმ ფორმატში, რომელსაც პროგრამა საშუალებას გაძლევთ აირჩიოთ. ამის შემდეგ თქვენ უნდა შეასწოროთ დოკუმენტი. გამოსწორების შემდეგ, ჩვენ შეგვიძლია ჩავდოთ იგი pdf- ში, რომ გააზიაროს ან დაარქივდეს.
OCR– ს ერთ – ერთი დიდი გამოყენებაა წიგნის სკანირება. მაგალითად, ეროვნული ბიბლიოთეკის კოლექცია. ანალოგიურად, ცნობილი e.book, რომლის წაკითხვა შესაძლებელია ყველგან ipad და android დაფებზე და მკითხველებზე წიგნი.
წიგნის სკანირების მაგალითი.
OCR ტექნოლოგიას აქვს შეზღუდვა. ეს არ მუშაობს უძველესი ტექსტებისთვის ან ზოგიერთისთვის მიზეზი განიცადეს ფიზიკური გაუარესება. ეს გაუარესება ძალიან ნორმალურია, როდესაც საქმე ეხება ისტორიულ დოკუმენტებს, რომელთა ათასი წელი შეიძლება იყოს. ამ ტიპის დოკუმენტები, რომლებმაც წლები შეიტანეს, საკმაოდ ამოუცნობია OCR ტექნოლოგიისთვის. ამ ტიპის დოკუმენტები ჩვეულებრივ დაარქივებულია მაღალი გარჩევადობის სკანირებით Ფოტოგრაფია ისე, რომ საზოგადოებას შეუძლია აღწეროს დოკუმენტის ყველა დეტალი გაუარესების გარეშე.
რეზოლუცია OCR- ში გვეუბნება, თუ რამდენად დეტალებს ამოიცნობს სისტემა თავად. მკაფიო და განსაზღვრული ტექსტებისთვის ნორმალურია 300 dpi (წერტილები ინჩზე). ეს არის კონფიგურირებული სკანერისგან. ერთი ინჩი 25,400 მილიმეტრია, ასე რომ 300 პიქსელი ასეთი მცირე ზომისთვის საკმარისია. გაზეთების ან მსგავსი რამის შემთხვევაში. სადაც ბეჭდვა მცირეა და ქაღალდი ყოველთვის ცოტათი არის შელახული, ოპტიმალური გარჩევადობა იქნება 600 dpi. თუ ამ ბოლო რეზოლუციაზე ვამოწმებთ, ჯობია გვქონდეს კარგი სკანერი, რადგან ამ რეზოლუციით მოქმედების დასრულება საერთო სკანერისთვის ძალიან ძვირია.
ევოლუცია OCR გადის ა უკეთესად ხდება ამ სისტემის. უკეთესად ხდება რომელიც უკვე მიმდინარეობს ა პროექტი გავლენას უწოდებენ. ეს პროექტი მიზნად ისახავს ინფორმაციის გაზიარებას სხვადასხვა საკითხებში ინსტიტუტები შტატმა და ზოგიერთმა კომპანიამ უნდა შექმნან OCR პროგრამა, რომელიც აკმაყოფილებს ყველა მოთხოვნას მასობრივი დიგიტალიზაციისთვის.
თემები OCR- ში