Τι είναι η Αναγνώριση Ομιλίας;

Χρησιμοποιώντας τη φωνή σας ως μέθοδο εισαγωγής

Η αναγνώριση ομιλίας είναι μια τεχνολογία που επιτρέπει την εισαγωγή ομιλιών σε συστήματα. Μιλάτε στον υπολογιστή, το τηλέφωνο ή τη συσκευή σας και χρησιμοποιεί αυτό που είπατε ως είσοδο για να ενεργοποιήσετε κάποια ενέργεια. Η τεχνολογία χρησιμοποιείται για να αντικαταστήσει άλλες μεθόδους εισαγωγής, όπως την πληκτρολόγηση, κλικ ή επιλογή με άλλους τρόπους. Είναι ένας τρόπος να γίνουν οι συσκευές και το λογισμικό πιο εύχρηστο και να αυξηθεί η παραγωγικότητα.

Υπάρχουν πολλές εφαρμογές και περιοχές στις οποίες χρησιμοποιείται η αναγνώριση ομιλίας, συμπεριλαμβανομένου του στρατού, ως βοήθημα για τα άτομα με μειωμένη ευελιξία (φανταστείτε ένα άτομο με ακρωτηριασμένο ή μη χέρια ή δάκτυλα), στον ιατρικό τομέα, στη ρομποτική κλπ. Στο εγγύς μέλλον, σχεδόν όλοι θα είναι εκτεθειμένοι στην αναγνώριση ομιλίας λόγω της διάδοσής του σε κοινές συσκευές όπως οι υπολογιστές και τα κινητά τηλέφωνα.

Ορισμένα smartphones κάνουν ενδιαφέρουσα χρήση της αναγνώρισης ομιλίας. Οι συσκευές iPhone και Android είναι παραδείγματα αυτού. Μέσα από αυτά, μπορείτε να ξεκινήσετε μια κλήση σε μια επαφή μόλις λάβετε προφορικές οδηγίες όπως το 'Call office'. Άλλες εντολές μπορεί επίσης να διασκεδάσουν, όπως 'Ενεργοποίηση Bluetooth'.

Προβλήματα με την αναγνώριση ομιλίας

Η αναγνώριση ομιλίας, στην έκδοσή της, γνωστή ως ομιλία σε κείμενο (STT), έχει επίσης χρησιμοποιηθεί για μεγάλο χρονικό διάστημα για να μεταφράσει προφορικές λέξεις σε κείμενο. "Μιλάς, γράφει", όπως λέει η ViaVoice στο κουτί της. Αλλά υπάρχει ένα πρόβλημα με το STT όπως το ξέρουμε. Πάνω από 10 χρόνια πίσω, προσπάθησα ViaVoice και δεν κράτησε μια εβδομάδα στον υπολογιστή μου. Γιατί; Ήταν υπερβολικά ανακριβής και κατέληξα να ξοδεύω περισσότερο χρόνο και ενέργεια μιλώντας και διορθώνοντας από ό, τι πληκτρολογώντας τα πάντα. Η ViaVoice είναι μία από τις καλύτερες στον κλάδο, έτσι φανταστείτε τα υπόλοιπα. Η τεχνολογία έχει ωριμάσει και βελτιωθεί, αλλά ο λόγος στο κείμενο εξακολουθεί να κάνει τους ανθρώπους να κάνουν ερωτήσεις. Μία από τις κύριες δυσκολίες της είναι οι τεράστιες διαφορές μεταξύ των ανθρώπων στην προφορά λέξεων.

Δεν είναι όλες οι γλώσσες υποτιθέμενες στην αναγνώριση ομιλίας, και εκείνες που κάνουν συχνά δεν υποστηρίζονται καθώς και τα αγγλικά. Ως αποτέλεσμα, οι περισσότερες συσκευές που εκτελούν λογισμικό αναγνώρισης ομιλίας λειτουργούν λογικά μόνο στα Αγγλικά.

Ένα σύνολο απαιτήσεων υλικού καθιστά την αναγνώριση ομιλίας δύσκολη σε ορισμένες περιπτώσεις. Χρειάζεστε ένα μικρόφωνο που είναι αρκετά έξυπνο για να φιλτράρει τον θόρυβο του περιβάλλοντος αλλά ταυτόχρονα αρκετά ισχυρό ώστε να καταγράφει τη φωνή φυσικά.

Μιλώντας για τον θόρυβο του περιβάλλοντος, μπορεί να προκαλέσει αποτυχία ολόκληρου του συστήματος. Ως αποτέλεσμα, η αναγνώριση ομιλίας αποτυγχάνει σε πολλές περιπτώσεις εξαιτίας θορύβων που είναι εκτός ελέγχου του χρήστη.

Η αναγνώριση ομιλίας αποδεικνύεται καλύτερη ως μέθοδος εισαγωγής για νέα τηλέφωνα και τεχνολογίες επικοινωνίας, όπως VoIP, παρά ως εργαλείο παραγωγικότητας για μαζική εισαγωγή κειμένου.

Εφαρμογές αναγνώρισης ομιλίας

Η τεχνολογία κερδίζει τη δημοτικότητα σε πολλούς τομείς και ήταν επιτυχής στα ακόλουθα:

- Έλεγχος συσκευής. Απλά λέγοντας "OK Google" σε ένα τηλέφωνο Android δημιουργεί ένα σύστημα που είναι όλα τα αυτιά στις φωνητικές σας εντολές.

- Συστήματα Bluetooth αυτοκινήτου. Πολλά αυτοκίνητα είναι εξοπλισμένα με ένα σύστημα που συνδέει τον ασύρματο μηχανισμό με το smartphone σας μέσω Bluetooth. Στη συνέχεια, μπορείτε να πραγματοποιείτε και να λαμβάνετε κλήσεις χωρίς να αγγίζετε το smartphone σας, και μπορείτε να καλέσετε αριθμούς ακόμη και μόνο λέγοντάς τους.

- Μεταγραφή φωνής. Σε περιοχές όπου οι άνθρωποι πρέπει να πληκτρολογούν πολλά, κάποιο έξυπνο λογισμικό καταγράφει τα προφορικά τους λόγια και τα μεταγράφει σε κείμενο. Αυτό ισχύει για ορισμένα λογισμικά επεξεργασίας κειμένου. Η φωνητική μεταγραφή λειτουργεί επίσης με οπτικό φωνητικό ταχυδρομείο .