Δεδομένα Εκπαίδευσης Αναγνώρισης Ομιλίας

Δεδομένα εκπαίδευσης αναγνώρισης ομιλίας – Τύποι, συλλογή δεδομένων και εφαρμογές

Εάν χρησιμοποιείτε τα Siri, Alexa, Cortana, Amazon Echo ή άλλα ως μέρος της καθημερινότητάς σας, θα το αποδεχόσαστε Αναγνώρισης ομιλίας έχει γίνει ένα πανταχού παρόν μέρος της ζωής μας. Αυτά τα με τεχνητή νοημοσύνη Οι βοηθοί φωνής μετατρέπουν τα λεκτικά ερωτήματα των χρηστών σε κείμενο, ερμηνεύουν και κατανοούν τι λέει ο χρήστης για να βρουν μια κατάλληλη απάντηση.

Υπάρχει ανάγκη για ποιοτική συλλογή δεδομένων για την ανάπτυξη αξιόπιστων μοντέλων ομιλίας και αναγνώρισης. Αλλά, αναπτύσσεται λογισμικό αναγνώρισης ομιλίας δεν είναι ένα απλό έργο – ακριβώς επειδή η μεταγραφή του ανθρώπινου λόγου σε όλη του την πολυπλοκότητα, όπως ο ρυθμός, η προφορά, ο τόνος και η σαφήνεια, είναι δύσκολη. Και, όταν προσθέτετε συναισθήματα σε αυτό το περίπλοκο μείγμα, γίνεται πρόκληση.

Τι είναι η Αναγνώριση ομιλίας;

Η αναγνώριση ομιλίας είναι η ικανότητα του λογισμικού να αναγνωρίζει και να επεξεργάζεται ανθρώπινη ομιλία σε κείμενο. Ενώ η διαφορά μεταξύ της αναγνώρισης φωνής και της αναγνώρισης ομιλίας μπορεί να φαίνεται υποκειμενική σε πολλούς, υπάρχουν ορισμένες θεμελιώδεις διαφορές μεταξύ των δύο.

Αν και τόσο η αναγνώριση ομιλίας όσο και η αναγνώριση φωνής αποτελούν μέρος της τεχνολογίας φωνητικού βοηθού, εκτελούν δύο διαφορετικές λειτουργίες. Η αναγνώριση ομιλίας κάνει αυτόματες μεταγραφές της ανθρώπινης ομιλίας και εντολών σε κείμενο, ενώ η αναγνώριση φωνής ασχολείται μόνο με την αναγνώριση της φωνής του ομιλητή.

Τύποι αναγνώρισης ομιλίας

Πριν μπούμε σε τύπους αναγνώρισης ομιλίας, ας ρίξουμε μια σύντομη ματιά στα δεδομένα αναγνώρισης ομιλίας.

Τα δεδομένα αναγνώρισης ομιλίας είναι μια συλλογή ηχογραφήσεων ανθρώπινης ομιλίας και μεταγραφής κειμένου που βοηθούν στην εκπαίδευση των συστημάτων μηχανικής εκμάθησης για αναγνώριση φωνής.

Οι ηχογραφήσεις και οι μεταγραφές εισάγονται στο σύστημα ML, έτσι ώστε ο αλγόριθμος να μπορεί να εκπαιδευτεί ώστε να αναγνωρίζει τις αποχρώσεις της ομιλίας και να κατανοεί το νόημά της.

Αν και υπάρχουν πολλά μέρη όπου μπορείτε να λάβετε δωρεάν προσυσκευασμένα σύνολα δεδομένων, είναι καλύτερο να τα αποκτήσετε προσαρμοσμένα σύνολα δεδομένων για τα έργα σας. Μπορείτε να επιλέξετε το μέγεθος συλλογής, τις απαιτήσεις ήχου και ηχείου και τη γλώσσα, έχοντας ένα προσαρμοσμένο σύνολο δεδομένων.

Φάσμα δεδομένων ομιλίας

Δεδομένα ομιλίας Το φάσμα προσδιορίζει την ποιότητα και τον τόνο του λόγου που κυμαίνεται από φυσικό έως αφύσικο.

  • Δεδομένα σεναρίου αναγνώρισης ομιλίας

    Όπως υποδηλώνει το όνομα, η σεναριακή ομιλία είναι μια ελεγχόμενη μορφή δεδομένων. Οι ομιλητές καταγράφουν συγκεκριμένες φράσεις από ένα έτοιμο κείμενο. Αυτά χρησιμοποιούνται συνήθως για την παράδοση εντολών, δίνοντας έμφαση στο πώς το λέξη ή φράση λέγεται παρά αυτό που λέγεται.

    Η αναγνώριση ομιλίας με σενάριο μπορεί να χρησιμοποιηθεί κατά την ανάπτυξη ενός φωνητικού βοηθού που θα πρέπει να λαμβάνει εντολές που εκδίδονται χρησιμοποιώντας ποικίλες προφορές ηχείων.

  • Αναγνώριση ομιλίας με βάση το σενάριο

    Σε μια ομιλία που βασίζεται σε σενάριο, ο ομιλητής καλείται να φανταστεί ένα συγκεκριμένο σενάριο και να βάλει θέμα α φωνητική εντολή με βάση το σενάριο. Με αυτόν τον τρόπο, το αποτέλεσμα είναι μια συλλογή φωνητικών εντολών που δεν είναι σενάρια αλλά ελέγχονται.

    Τα δεδομένα ομιλίας που βασίζονται σε σενάρια απαιτούνται από προγραμματιστές που θέλουν να αναπτύξουν μια συσκευή που κατανοεί την καθημερινή ομιλία με τις διάφορες αποχρώσεις της. Για παράδειγμα, ζητώντας οδηγίες για να πάτε στο πλησιέστερο Pizza Hut χρησιμοποιώντας διάφορες ερωτήσεις.

  • Φυσική Αναγνώριση Λόγου

    Ακριβώς στο τέλος του φάσματος ομιλίας βρίσκεται ο λόγος που είναι αυθόρμητος, φυσικός και δεν ελέγχεται με κανέναν τρόπο. Ο ομιλητής μιλά ελεύθερα χρησιμοποιώντας τον φυσικό τόνο συνομιλίας, τη γλώσσα, τον τόνο και τον τενόρο του.

    Εάν θέλετε να εκπαιδεύσετε μια εφαρμογή που βασίζεται σε ML για την αναγνώριση ομιλίας πολλών ηχείων, τότε μια μη script ή ομιλία ομιλίας Το σύνολο δεδομένων είναι χρήσιμο.

Στοιχεία συλλογής δεδομένων για έργα ομιλίας

Συλλογή δεδομένων ομιλίας Μια σειρά βημάτων που εμπλέκονται στη συλλογή δεδομένων ομιλίας διασφαλίζουν ότι τα δεδομένα που συλλέγονται είναι ποιοτικά και βοηθούν στην εκπαίδευση μοντέλων υψηλής ποιότητας που βασίζονται σε τεχνητή νοημοσύνη.

Κατανοήστε τις απαιτούμενες απαντήσεις των χρηστών

Ξεκινήστε κατανοώντας τις απαιτούμενες απαντήσεις των χρηστών για το μοντέλο. Για να αναπτύξετε ένα μοντέλο αναγνώρισης ομιλίας, θα πρέπει να συλλέξετε δεδομένα που αντιπροσωπεύουν στενά το περιεχόμενο που χρειάζεστε. Συλλέξτε δεδομένα από αλληλεπιδράσεις στον πραγματικό κόσμο για να κατανοήσετε τις αλληλεπιδράσεις και τις απαντήσεις των χρηστών. Εάν δημιουργείτε έναν βοηθό συνομιλίας που βασίζεται σε τεχνητή νοημοσύνη, κοιτάξτε τα αρχεία καταγραφής συνομιλιών, τις εγγραφές κλήσεων, τις αποκρίσεις του πλαισίου διαλόγου συνομιλίας για να δημιουργήσετε ένα σύνολο δεδομένων.

Εξετάστε τη γλώσσα του τομέα

Απαιτείτε τόσο γενικό περιεχόμενο όσο και περιεχόμενο για συγκεκριμένο τομέα για ένα σύνολο δεδομένων αναγνώρισης ομιλίας. Αφού συλλέξετε γενικά δεδομένα ομιλίας, θα πρέπει να περιηγηθείτε στα δεδομένα και να διαχωρίσετε το γενικό από το συγκεκριμένο.

Για παράδειγμα, οι πελάτες μπορούν να καλέσουν για να ζητήσουν ένα ραντεβού για να ελέγξουν για γλαύκωμα σε ένα κέντρο οφθαλμικής φροντίδας. Το να ζητάτε ένα ραντεβού είναι ένας πολύ γενικός όρος, αλλά το γλαύκωμα είναι συγκεκριμένος τομέας.

Επιπλέον, όταν εκπαιδεύετε ένα μοντέλο ML αναγνώρισης ομιλίας, φροντίστε να το εκπαιδεύετε ώστε να αναγνωρίζει φράσεις αντί για μεμονωμένα αναγνωρισμένες λέξεις.

Καταγραφή ανθρώπινης ομιλίας

Μετά τη συλλογή δεδομένων από τα δύο προηγούμενα βήματα, το επόμενο βήμα θα περιλάμβανε την υποχρέωση των ανθρώπων να καταγράψουν τις συλλεγόμενες δηλώσεις.

Είναι απαραίτητο να διατηρηθεί το ιδανικό μήκος του σεναρίου. Το να ζητάτε από τους ανθρώπους να διαβάσουν περισσότερα από 15 λεπτά κειμένου θα μπορούσε να είναι αντιπαραγωγικό. Διατηρήστε ένα κενό τουλάχιστον 2 – 3 δευτερολέπτων μεταξύ κάθε καταγεγραμμένης δήλωσης.

Αφήστε την εγγραφή να είναι δυναμική

Δημιουργήστε ένα χώρο αποθήκευσης ομιλίας με διάφορα άτομα, προφορές ομιλίας, στυλ που καταγράφονται υπό διαφορετικές συνθήκες, συσκευές και περιβάλλοντα. Εάν η πλειοψηφία των μελλοντικών χρηστών πρόκειται να χρησιμοποιήσει το σταθερό τηλέφωνο, η βάση δεδομένων συλλογής ομιλίας σας θα πρέπει να έχει μια σημαντική αναπαράσταση που να ταιριάζει με αυτήν την απαίτηση.

Προκαλέστε μεταβλητότητα στην εγγραφή ομιλίας

Μόλις ρυθμιστεί το περιβάλλον προορισμού, ζητήστε από τα υποκείμενα της συλλογής δεδομένων σας να διαβάσουν το προετοιμασμένο σενάριο σε παρόμοιο περιβάλλον. Ζητήστε από τα υποκείμενα να μην ανησυχούν για τα λάθη και κρατήστε την απόδοση όσο το δυνατόν πιο φυσική. Η ιδέα είναι να έχουμε μια μεγάλη ομάδα ανθρώπων που ηχογραφούν το σενάριο στο ίδιο περιβάλλον.

Μεταγραφή των Ομιλιών

Αφού ηχογραφήσετε το σενάριο χρησιμοποιώντας πολλά θέματα (με λάθη), θα πρέπει να προχωρήσετε στη μεταγραφή. Διατηρήστε τα λάθη ανέπαφα, καθώς αυτό θα σας βοηθήσει να επιτύχετε δυναμισμό και ποικιλία στα δεδομένα που συλλέγετε.

Αντί να ζητάτε από τους ανθρώπους να μεταγράφουν ολόκληρο το κείμενο λέξη προς λέξη, μπορείτε να χρησιμοποιήσετε μια μηχανή ομιλίας σε κείμενο για να κάνει τη μεταγραφή. Ωστόσο, σας προτείνουμε επίσης να χρησιμοποιήσετε ανθρώπινους μεταγραφείς για τη διόρθωση λαθών.

Αναπτύξτε ένα σετ δοκιμής

Η ανάπτυξη ενός δοκιμαστικού σετ είναι ζωτικής σημασίας, καθώς είναι πρωτοπόρος σε αυτό γλωσσικό μοντέλο.

Φτιάξτε ένα ζευγάρι από τον λόγο και το αντίστοιχο κείμενο και κάντε τα σε τμήματα.

Μετά τη συλλογή των συλλεχθέντων στοιχείων, εξάγετε ένα δείγμα 20%, το οποίο αποτελεί το σετ δοκιμής. Δεν είναι το σετ εκπαίδευσης, αλλά αυτά τα δεδομένα που εξάγονται θα σας ενημερώσουν εάν το εκπαιδευμένο μοντέλο μεταγράφει ήχο στον οποίο δεν έχει εκπαιδευτεί.

Δημιουργήστε ένα μοντέλο γλωσσικής εκπαίδευσης και μετρήστε

Τώρα δημιουργήστε το μοντέλο γλώσσας αναγνώρισης ομιλίας χρησιμοποιώντας τις δηλώσεις του συγκεκριμένου τομέα και πρόσθετες παραλλαγές εάν χρειάζεται. Αφού εκπαιδεύσετε το μοντέλο, θα πρέπει να αρχίσετε να το μετράτε.

Πάρτε το μοντέλο εκπαίδευσης (με 80% επιλεγμένα τμήματα ήχου) και δοκιμάστε το σε σχέση με το δοκιμαστικό σύνολο (εξαγωγή δεδομένων 20%) για να ελέγξετε για προβλέψεις και αξιοπιστία. Ελέγξτε για λάθη, πρότυπα και εστιάστε σε περιβαλλοντικούς παράγοντες που μπορούν να διορθωθούν.

Πιθανές περιπτώσεις χρήσης ή εφαρμογές

Θήκη χρήσης αναγνώρισης ομιλίας

Εφαρμογή φωνής, Έξυπνες συσκευές, Ομιλία σε κείμενο, Υποστήριξη πελατών, Υπαγόρευση περιεχομένου, Εφαρμογή ασφαλείας, Αυτόνομα Οχήματα, Σημειώσεις για την υγειονομική περίθαλψη.

Η αναγνώριση ομιλίας ανοίγει έναν κόσμο δυνατοτήτων και η υιοθέτηση εφαρμογών φωνής από τους χρήστες έχει αυξηθεί με τα χρόνια.

Μερικές από τις κοινές εφαρμογές του τεχνολογία αναγνώρισης ομιλίας συμπεριλαμβάνω:

  1. Εφαρμογή φωνητικής αναζήτησης

    Σύμφωνα με την Google, περίπου 20% των αναζητήσεων που πραγματοποιούνται στην εφαρμογή Google είναι φωνητικές. Οκτώ δισεκατομμύρια άνθρωποι προβλέπεται να χρησιμοποιούν φωνητικούς βοηθούς έως το 2023, μια απότομη αύξηση από τα προβλεπόμενα 6.4 δισεκατομμύρια το 2022.

    Η υιοθέτηση της φωνητικής αναζήτησης έχει αυξηθεί σημαντικά με τα χρόνια και αυτή η τάση προβλέπεται να συνεχιστεί. Οι καταναλωτές βασίζονται στη φωνητική αναζήτηση για να αναζητήσουν ερωτήματα, να αγοράσουν προϊόντα, να εντοπίσουν επιχειρήσεις, να βρουν τοπικές επιχειρήσεις και πολλά άλλα.

  2. Οικιακές Συσκευές/Έξυπνες Συσκευές

    Η τεχνολογία αναγνώρισης φωνής χρησιμοποιείται για την παροχή φωνητικών εντολών σε οικιακές έξυπνες συσκευές, όπως τηλεοράσεις, φώτα και άλλες συσκευές. 66% των καταναλωτών στο Ηνωμένο Βασίλειο, τις ΗΠΑ και τη Γερμανία δήλωσαν ότι χρησιμοποιούσαν βοηθούς φωνής όταν χρησιμοποιούσαν έξυπνες συσκευές και ηχεία.

  3. Ομιλία στο κείμενο

    Οι εφαρμογές ομιλίας σε κείμενο χρησιμοποιούνται για να βοηθήσουν στον ελεύθερο υπολογισμό κατά την πληκτρολόγηση email, εγγράφων, αναφορών και άλλων. Ομιλία στο κείμενο εξαλείφει το χρόνο για να πληκτρολογήσετε έγγραφα, να γράψετε βιβλία και μηνύματα ηλεκτρονικού ταχυδρομείου, να υποτιτλίσετε βίντεο και να μεταφράσετε κείμενο.

  4. Εξυπηρέτηση πελατών

    Οι εφαρμογές αναγνώρισης ομιλίας χρησιμοποιούνται κυρίως στην εξυπηρέτηση και υποστήριξη πελατών. Ένα σύστημα αναγνώρισης ομιλίας βοηθά στην παροχή λύσεων εξυπηρέτησης πελατών 24/7 σε προσιτό κόστος με περιορισμένο αριθμό αντιπροσώπων.

  5. Υπαγόρευση περιεχομένου

    Η υπαγόρευση περιεχομένου είναι ένα άλλο περίπτωση χρήσης αναγνώρισης ομιλίας που βοηθά τους μαθητές και τους ακαδημαϊκούς να γράφουν εκτενές περιεχόμενο σε ένα κλάσμα του χρόνου. Είναι πολύ χρήσιμο για μαθητές που βρίσκονται σε μειονεκτική θέση λόγω τύφλωσης ή προβλημάτων όρασης.

  6. Εφαρμογή ασφαλείας

    Η αναγνώριση φωνής χρησιμοποιείται εκτενώς για λόγους ασφάλειας και ελέγχου ταυτότητας, προσδιορίζοντας μοναδικά χαρακτηριστικά φωνής. Αντί να ζητείται από το άτομο να αναγνωρίζει τον εαυτό του χρησιμοποιώντας προσωπικές πληροφορίες κλοπής ή κακής χρήσης, η βιομετρία φωνής αυξάνει την ασφάλεια.

    Επιπλέον, η αναγνώριση φωνής για λόγους ασφαλείας έχει βελτιώσει τα επίπεδα ικανοποίησης των πελατών καθώς καταργεί την εκτεταμένη διαδικασία σύνδεσης και την αντιγραφή διαπιστευτηρίων.

  7. Φωνητικές εντολές για οχήματα

    Τα οχήματα, κυρίως τα αυτοκίνητα, έχουν πλέον μια κοινή λειτουργία αναγνώρισης φωνής για τη βελτίωση της οδηγικής ασφάλειας. Βοηθά τους οδηγούς να εστιάσουν στην οδήγηση αποδεχόμενοι απλές φωνητικές εντολές όπως η επιλογή ραδιοφωνικών σταθμών, η πραγματοποίηση κλήσεων ή η μείωση της έντασης του ήχου.

  8. Σημειώσεις για την υγειονομική περίθαλψη

    Λογισμικό ιατρικής μεταγραφής που δημιουργήθηκε με χρήση αλγορίθμων αναγνώρισης ομιλίας καταγράφει εύκολα τις φωνητικές σημειώσεις, τις εντολές, τις διαγνώσεις και τα συμπτώματα των γιατρών. Η λήψη ιατρικών σημειώσεων αυξάνει την ποιότητα και την επείγουσα ανάγκη στον κλάδο της υγειονομικής περίθαλψης.

Έχετε στο μυαλό σας ένα έργο αναγνώρισης ομιλίας που μπορεί να μεταμορφώσει την επιχείρησή σας; Το μόνο που μπορεί να χρειαστείτε είναι ένα προσαρμοσμένο σύνολο δεδομένων αναγνώρισης ομιλίας.

Ένα λογισμικό αναγνώρισης ομιλίας που βασίζεται σε AI πρέπει να εκπαιδευτεί σε αξιόπιστα σύνολα δεδομένων σε αλγόριθμους μηχανικής μάθησης για να ενσωματώσει τη σύνταξη, τη γραμματική, τη δομή προτάσεων, τα συναισθήματα και τις αποχρώσεις της ανθρώπινης ομιλίας. Το πιο σημαντικό, το λογισμικό θα πρέπει να μαθαίνει και να ανταποκρίνεται συνεχώς – αυξανόμενο με κάθε αλληλεπίδραση.

Στη Shaip, παρέχουμε εξ ολοκλήρου προσαρμοσμένα σύνολα δεδομένων αναγνώρισης ομιλίας για διάφορα έργα μηχανικής εκμάθησης. Με το Shaip, έχετε πρόσβαση στο υψηλότερης ποιότητας εξατομικευμένα δεδομένα εκπαίδευσης που μπορεί να χρησιμοποιηθεί για την κατασκευή και την εμπορία ενός αξιόπιστου συστήματος αναγνώρισης ομιλίας. Επικοινωνήστε με τους ειδικούς μας για μια ολοκληρωμένη κατανόηση των προσφορών μας.

[Διαβάστε επίσης: Ο πλήρης οδηγός για συνομιλία AI]

κοινωνική Share