מושג בהגדרה ABC
Miscellanea / / July 04, 2021
מאת פרנסיסקו קאנו, במאי. 2014
אנו יכולים לראות שלא רק סורק מסוגל לזהות אותיות והקלדה.
ה זיהוי תווים OCR או אופי אופטי, מתורגמת לספרדית, היא טכנולוגיה שמטרתה לחקות את העין האנושית, טכנולוגיה זו מנסה להשיג את הדמויות ואת סוג גופן (גופן) ממה עשוי מסמך. אנחנו מדברים על סורק רגיל ותוכנה חזקה למדי. כאשר אנו מתייחסים לתוכנה חזקה, אנו מתכוונים לגדולה ורחבה מאגר מידע כדי להיות מסוגלים לזהות את האותיות השונות ואת הסוגים המתאימים להן.
מלבד התוכנה הסורק חשוב. סורק רגיש מאוד יקרא טוב יותר את הפיקסלים של המסמך מכיוון שכך רְגִישׁוּת זה יאפשר לתוכנה לעשות פחות טעויות. זה די קשה עבור התוכנה לֹא לטעות. כל מסמך מונח בסורק והוא יוצא פנימה פוּרמָט Word או בפורמט שהתוכנית מאפשרת לך לבחור. אחרי זה אתה צריך לתקן את המסמך. לאחר התיקון, נוכל להכניס אותו ל- pdf לשיתוף או לארכיון.
אחד השימושים הגדולים ב- OCR הוא בסריקת ספרים. כמו למשל, אוסף הספרייה הלאומית. כמו כן, ספר e.book המפורסם שניתן לקרוא בכל מקום בטאבלטים מסוג ipad ו- android ובקוראים ספר אלקטרוני.
דוגמה לאופן סריקת ספר.
לטכנולוגיית OCR יש מגבלה. זה לא עובד לטקסטים עתיקים או לחלקם
סיבה סבלו מהידרדרות גופנית. ההידרדרות הזו נורמלית מאוד כשמדובר במסמכים היסטוריים שיכולים להיות עד אלף שנה. מסמכים מסוג זה, שהשנים גבו מהם, אינם ניתנים לזיהוי לטכנולוגיית ה- OCR המדוברת. סוגי מסמכים אלה מאוחסנים בדרך כלל עם סריקות ברזולוציה גבוהה צילום כך שהציבור יוכל להתפעל מכל פרטי המסמך מבלי להדרדר אותו.הרזולוציה ב- OCR מספרת לנו כמה פרטים המערכת עצמה מגלה. לטקסטים ברורים ומוגדרים, רגיל להשתמש ב -300 dpi (נקודות לאינץ '). זה מוגדר מהסורק. סנטימטר אחד שווה 25,400 מילימטרים, אז מספיק 300 פיקסלים לאזור כל כך קטן. במקרה של עיתונים וכדומה. כאשר ההדפסה קטנה והנייר תמיד מעט חבוט, הרזולוציה האופטימלית תהיה 600 dpi. אם אנו סורקים ברזולוציה האחרונה הזו, עדיף שיהיה לנו סורק טוב מכיוון שסורק משותף עולה הרבה לסיים את הפעולה ברזולוציה זו.
ה אבולוציה OCR עובר א משתפר של מערכת זו. משתפר שכבר יוצא לדרך בא טְיוּטָה נקרא IMPACT. פרויקט זה נועד לשתף מידע בין שונים מוסדות מדינה וחברה כלשהי לפתח תוכנת OCR העונה על כל הדרישות לדיגיטציה המונית.
נושאים ב- OCR