Τι είναι η οπτική αναγνώριση χαρακτήρων (OCR);

Οπτική αναγνώριση χαρακτήρων (OCR) αναφέρεται σε λογισμικό που δημιουργεί μια ψηφιακή έκδοση ενός τυπωμένου, δακτυλογραφημένου ή χειρόγραφου εγγράφου που μπορούν να διαβάσουν οι υπολογιστές χωρίς να χρειαστεί να πληκτρολογήσετε ή να εισαγάγετε το κείμενο με μη αυτόματο τρόπο. Το OCR χρησιμοποιείται γενικά σε σαρωμένα έγγραφα σε μορφή PDF , αλλά μπορεί επίσης να δημιουργήσει μια έκδοση του κειμένου που μπορεί να διαβαστεί από υπολογιστή μέσα σε ένα αρχείο εικόνας.

Τι είναι το OCR;

Το OCR, επίσης γνωστό ως αναγνώριση κειμένου, είναι τεχνολογία λογισμικού που μετατρέπει χαρακτήρες όπως αριθμούς, γράμματα και σημεία στίξης (που ονομάζονται επίσης glyphs) από έντυπα ή γραπτά έγγραφα σε ηλεκτρονική μορφή που αναγνωρίζεται και διαβάζεται πιο εύκολα από υπολογιστές και άλλα προγράμματα λογισμικού. Ορισμένα προγράμματα OCR κάνουν αυτό καθώς ένα έγγραφο σαρώεται ή φωτογραφίζεται με μια ψηφιακή φωτογραφική μηχανή και άλλα μπορούν να εφαρμόσουν αυτή τη διαδικασία σε έγγραφα που έχουν προηγουμένως σαρωθεί ή φωτογραφηθεί χωρίς OCR. Το OCR επιτρέπει στους χρήστες να αναζητούν σε έγγραφα PDF, να επεξεργάζονται κείμενα και να αναδιαμορφώνουν έγγραφα.

Τι χρησιμοποιείται το OCR για;

Για γρήγορες, καθημερινές ανάγκες σάρωσης, η OCR μπορεί να μην είναι μεγάλη υπόθεση. Εάν κάνετε μια μεγάλη ποσότητα σάρωσης, η δυνατότητα αναζήτησης εντός των PDF για να βρείτε το ακριβές που χρειάζεστε μπορεί να εξοικονομήσει αρκετό χρόνο και καθιστά τη λειτουργικότητα OCR στο πρόγραμμα σαρωτή πιο σημαντική. Εδώ είναι μερικά άλλα πράγματα που βοηθά το OCR με:

Γιατί να χρησιμοποιήσετε το OCR;

Γιατί όχι μόνο να τραβήξεις μια φωτογραφία, σωστά; Επειδή δεν θα μπορούσατε να επεξεργαστείτε τίποτα ή να κάνετε αναζήτηση στο κείμενο επειδή θα ήταν απλώς μια εικόνα. Η σάρωση του εγγράφου και η εκτέλεση του λογισμικού OCR μπορεί να μετατρέψει το αρχείο σε κάτι που μπορείτε να επεξεργαστείτε και να κάνετε αναζήτηση.

Ιστορία του OCR

Ενώ η πολύ πρώιμη χρήση της αναγνώρισης κειμένων χρονολογείται στο 1914, η εκτεταμένη ανάπτυξη και χρήση τεχνολογιών που σχετίζονται με την OCR ξεκίνησε σοβαρά τη δεκαετία του 1950, ειδικά με τη δημιουργία πολύ απλουστευμένων γραμματοσειρών που ήταν ευκολότερο να μετατραπούν σε ψηφιακά αναγνώσιμο κείμενο. Η πρώτη από αυτές τις απλοποιημένες γραμματοσειρές δημιουργήθηκε από τον David Shepard και είναι γνωστή ως OCR-7B. Το OCR-7B εξακολουθεί να χρησιμοποιείται σήμερα στον χρηματοπιστωτικό κλάδο για την τυπική γραμματοσειρά που χρησιμοποιείται στις πιστωτικές κάρτες και στις χρεωστικές κάρτες. Στη δεκαετία του 1960, οι ταχυδρομικές υπηρεσίες σε αρκετές χώρες άρχισαν να χρησιμοποιούν την τεχνολογία OCR για να επιταχύνουν σημαντικά τη διαλογή αλληλογραφίας, συμπεριλαμβανομένων των Ηνωμένων Πολιτειών, της Μεγάλης Βρετανίας, του Καναδά και της Γερμανίας. Το OCR εξακολουθεί να είναι η βασική τεχνολογία που χρησιμοποιείται για την ταξινόμηση ταχυδρομείου για ταχυδρομικές υπηρεσίες σε όλο τον κόσμο. Το 2000, η ​​βασική γνώση των ορίων και των δυνατοτήτων της τεχνολογίας OCR χρησιμοποιήθηκε για την ανάπτυξη των προγραμμάτων CAPTCHA που χρησιμοποιούνται για να σταματήσουν οι bots και οι spammers.

Κατά τη διάρκεια των δεκαετιών, το OCR έχει γίνει πιο ακριβές και πιο εξελιγμένο λόγω των εξελίξεων σε συναφείς τομείς τεχνολογίας, όπως η τεχνητή νοημοσύνη , η μηχανική μάθηση και ο υπολογιστής. Σήμερα, το λογισμικό OCR χρησιμοποιεί αναγνώριση προτύπων, ανίχνευση χαρακτηριστικών και εξόρυξη κειμένου για να μετατρέψει τα έγγραφα πιο γρήγορα και με μεγαλύτερη ακρίβεια από ποτέ.