Αυτόματη αναγνώριση ομιλίας

Κατανόηση της διαδικασίας συλλογής δεδομένων ήχου για αυτόματη αναγνώριση ομιλίας

Τα συστήματα αυτόματης αναγνώρισης ομιλίας και οι εικονικοί βοηθοί όπως οι Siri, Alexa και Cortana έχουν γίνει κοινά μέρη της ζωής μας. Η εξάρτησή μας από αυτούς αυξάνεται σημαντικά καθώς γίνονται εξυπνότεροι. Από το άναμμα των φώτων μας μέχρι την πραγματοποίηση κλήσεων μέχρι την αλλαγή τηλεοπτικών καναλιών, αξιοποιούμε αυτές τις έξυπνες τεχνολογίες για να ολοκληρώσουμε κοσμικές εργασίες.

Ωστόσο, έχετε αναρωτηθεί ποτέ πώς λειτουργούν αυτά τα συστήματα αναγνώρισης ομιλίας;

Λοιπόν, αυτό το ιστολόγιο θα σας εκπαιδεύσει σε ορισμένες από τις βασικές αρχές της Αυτόματης Αναγνώρισης Ομιλίας. Επίσης, θα διερευνήσουμε τη λειτουργία του και πώς κατασκευάζονται λειτουργικοί εικονικοί βοηθοί όπως το Siri.

Τι είναι η αυτόματη αναγνώριση ομιλίας;

Το Automatic Speech Recognition (ASR) είναι λογισμικό που επιτρέπει στο σύστημα υπολογιστή να μετατρέπει την ανθρώπινη ομιλία σε κείμενο, αξιοποιώντας πολλαπλούς αλγόριθμους τεχνητής νοημοσύνης και μηχανικής μάθησης.

Μετά τη μετατροπή και την ανάλυση της δεδομένης εντολής, ο υπολογιστής ανταποκρίνεται με την κατάλληλη έξοδο για τον χρήστη. Το ASR εισήχθη για πρώτη φορά το 1962 και έκτοτε, βελτιώνει συνεχώς τις λειτουργίες του και αποκτά τεράστιο ενδιαφέρον λόγω δημοφιλών εφαρμογών όπως η Alexa και η Siri.

Γνωρίζατε ότι η αυτόματη αναγνώριση ομιλίας είναι επίσης γνωστή ως Αναγνώστης ομιλίας σε κείμενο; Διαβάστε περισσότερα για αυτό σε αυτό το blog! 

Τι είναι η διαδικασία για τη συλλογή ομιλίας για την εκπαίδευση μοντέλων ASR;

Διαδικασία συλλογής λόγου

Η συλλογή ομιλίας στοχεύει στη συγκέντρωση πολλών δειγμάτων εγγραφών από πολλαπλές περιοχές που χρησιμοποιούνται για την τροφοδοσία και την εκπαίδευση μοντέλων ASR. Το σύστημα ASR προσφέρει την υψηλότερη απόδοση όταν συλλέγονται μεγάλα σύνολα δεδομένων ομιλίας και ήχου και παρέχονται στο σύστημά του.

Για να λειτουργούν απρόσκοπτα, τα συλλεγμένα σύνολα δεδομένων ομιλίας πρέπει να περιέχουν όλα τα δημογραφικά στοιχεία, τις γλώσσες, τις προφορές και τις διαλέκτους-στόχους. Η ακόλουθη διαδικασία δείχνει πώς να εκπαιδεύσετε το μοντέλο μηχανικής εκμάθησης σε πολλά βήματα:

  • Ξεκινήστε δημιουργώντας μια δημογραφική μήτρα

    Κυρίως συλλέγει τα δεδομένα για διαφορετικά δημογραφικά στοιχεία, όπως η τοποθεσία, το φύλο, η γλώσσα, η ηλικία και οι προφορές. Επίσης, βεβαιωθείτε ότι καταγράφετε μια ποικιλία περιβαλλοντικών θορύβων, όπως θόρυβο του δρόμου, θόρυβο αίθουσας αναμονής, θόρυβο δημόσιας υπηρεσίας κ.λπ.

  • Συλλέξτε και μεταγράψτε τα δεδομένα ομιλίας

    Το επόμενο βήμα είναι η συλλογή δειγμάτων ανθρώπινου ήχου και ομιλίας με βάση διαφορετικές γεωγραφικές τοποθεσίες για να εκπαιδεύσετε το μοντέλο ASR σας. Είναι ένα σημαντικό βήμα και απαιτεί από ανθρώπους ειδικούς να εκτελούν μεγάλες και σύντομες εκφωνήσεις λέξεων για να αποκτήσουν την αυθεντική αίσθηση της πρότασης και να επαναλάβουν τις ίδιες προτάσεις σε διαφορετικές προφορές και διαλέκτους.

  • Δημιουργήστε ένα ξεχωριστό σετ δοκιμών

    Αφού συγκεντρώσετε το μεταγραμμένο κείμενο, το επόμενο βήμα είναι να το αντιστοιχίσετε με τα αντίστοιχα δεδομένα ήχου. Στη συνέχεια, τμηματοποιήστε περαιτέρω τα δεδομένα και συμπεριλάβετε μία δήλωση από αυτά. Τώρα, από τα τμηματοποιημένα ζεύγη δεδομένων, μπορείτε να αντλήσετε τυχαία δεδομένα από ένα σύνολο για περαιτέρω δοκιμή.

  • Εκπαιδεύστε το μοντέλο γλώσσας ASR

    Όσο περισσότερες πληροφορίες έχουν τα σύνολα δεδομένων σας, τόσο καλύτερη θα είναι η απόδοση του μοντέλου σας που έχει εκπαιδευτεί σε τεχνητή νοημοσύνη. Επομένως, δημιουργήστε πολλές παραλλαγές κειμένου και ομιλιών που ηχογραφήσατε νωρίτερα. Παράφρασε τις ίδιες προτάσεις χρησιμοποιώντας διαφορετικούς συμβολισμούς ομιλίας.

  • Αξιολογήστε την έξοδο και, τέλος, Επαναλάβετε

    Τέλος, μετρά την έξοδο του μοντέλου ASR για να καθορίσει την απόδοσή του. Δοκιμάστε το μοντέλο σε σχέση με ένα σύνολο δοκιμών για να προσδιορίσετε την απόδοσή του. Καταλλήλως, ενεργοποιήστε το μοντέλο ASR σας σε έναν βρόχο ανάδρασης για να δημιουργήσετε την επιθυμητή έξοδο και να διορθώσετε τυχόν κενά.

[Διαβάστε επίσης: Μια ολοκληρωμένη επισκόπηση της αυτόματης αναγνώρισης ομιλίας]

Ποιες είναι οι διαφορετικές περιπτώσεις χρήσης της αναγνώρισης ομιλίας;

Η τεχνολογία αναγνώρισης ομιλίας είναι ιδιαίτερα διαδεδομένη σε πολλές βιομηχανίες σήμερα. Ορισμένες βιομηχανίες που χρησιμοποιούν αυτή την τεράστια τεχνολογία είναι οι εξής:

  • Βιομηχανία τροφίμων Βιομηχανία τροφίμων: Οι γίγαντες τροφίμων όπως η Wendy's και η McDonald's πρόκειται να βελτιώσουν τις εμπειρίες των πελατών τους χρησιμοποιώντας το ASR. Σε πολλά από τα καταστήματα τους, έχουν αναπτύξει πλήρως λειτουργικά μοντέλα ASR για να δέχονται παραγγελίες και να τα μεταβιβάζουν περαιτέρω στο τμήμα μαγειρέματος για να είναι έτοιμη η παραγγελία του πελάτη.

     

  • Τηλεπικοινωνία Τηλεπικοινωνία: Η Vodafone είναι ένας από τους μεγαλύτερους παρόχους τηλεπικοινωνιών στον κόσμο. Έχει σχεδιάσει τις υπηρεσίες εξυπηρέτησης πελατών και τηλεφωνικής αναμετάδοσης αξιοποιώντας μοντέλα ASR που σας καθοδηγούν να λύνετε διαφορετικές απορίες και να δρομολογείτε εκ νέου τις κλήσεις σας προς τα σχετικά τμήματα.

     

  • Ταξίδια και μεταφορές Ταξίδια και Μεταφορές: Το Google Android Auto ή το Apple CarPlay έχουν γίνει κοινά. Οι περισσότεροι άνθρωποι τα χρησιμοποιούν για να ενεργοποιήσουν συστήματα πλοήγησης, να στείλουν μηνύματα ή να αλλάξουν λίστες αναπαραγωγής μουσικής. Ωστόσο, με τις τεχνολογικές εξελίξεις, τέτοια συστήματα γίνονται όλο και πιο εκλεπτυσμένα.
    Το BMW Intelligent Personal Assistant που λανσαρίστηκε στη BMW Σειρά 3 είναι πολύ πιο έξυπνο από τους κανονικούς φωνητικούς βοηθούς. Μπορεί να επιτρέψει στους οδηγούς να βρίσκουν πληροφορίες που σχετίζονται με το αυτοκίνητο και να χειρίζονται το αυτοκίνητο χρησιμοποιώντας φωνητικές εντολές.
  • ΜΜΕ και ψυχαγωγίαΜέσα και Ψυχαγωγία: Η βιομηχανία των μέσων ενημέρωσης, επίσης, χρησιμοποιεί το ASR σε πολλά από τα έργα της. Το Youtube κυκλοφόρησε έναν βοηθό βασισμένο σε AI που δημιουργεί ζωντανούς αυτόματους υπότιτλους. Καθώς μιλάτε στην οθόνη, ο βοηθός θα παρέχει τους υπότιτλους για να κάνει το βίντεο προσβάσιμο σε μια μεγαλύτερη ομάδα χρηστών του Youtube.

 

[Διαβάστε επίσης: Τι είναι η τεχνολογία ομιλίας σε κείμενο και πώς λειτουργεί]

Πώς μπορεί να βοηθήσει το Shaip;

Η Shaip είναι μία από τις κορυφαίες υπηρεσίες εκπαίδευσης τεχνητής νοημοσύνης που διαθέτει τεχνογνωσία σε πολλούς τομείς της τεχνητής νοημοσύνης και της ML. Μπορούν να σας βοηθήσουν να δημιουργήσετε το δικό σας σύνολο δεδομένων που θα μπορούσε να χρησιμοποιηθεί για διαφορετικές εφαρμογές και έργα.

Μερικές από τις υπηρεσίες που παρέχει η Shaip είναι:

  • Αυτοματοποιημένη Αναγνώριση Ομιλίας (ASR)
  • Συλλογή σεναρίου λόγου
  • Μεταμόρφωση
  • Συλλογή αυθόρμητου λόγου
  • Συλλογή Ομιλιών/ Λέξεις αφύπνισης,
  • Μετατροπή κειμένου σε ομιλία (TTS)

Μπορείτε να επωφεληθείτε από αυτές τις υπηρεσίες για να έχετε τα καλύτερα αποτελέσματα για τα έργα σας που βασίζονται σε AI. Μάθετε περισσότερα για αυτές τις υπηρεσίες επικοινωνώντας με την ομάδα ειδικών μας σήμερα!

κοινωνική Share