Συλλογή ήχου βασικών φράσεων/προτροπών

Μελέτη περίπτωσης: Συλλογή βασικών φράσεων για συστήματα που ενεργοποιούνται με φωνή στο αυτοκίνητο

Συλλογή φράσεων κλειδιών

Υπάρχει μια αυξανόμενη ζήτηση για συστήματα φωνητικής ενεργοποίησης στο αυτοκίνητο στη Βιομηχανία Αυτοκινήτων, που επαναπροσδιορίζουν τον τρόπο με τον οποίο αλληλεπιδρούμε με τα οχήματα κινητικότητας μας.

Η αυτοκινητοβιομηχανία υιοθέτησε γρήγορα συστήματα που ενεργοποιούνται με φωνή, με σημαντικούς παίκτες όπως η Ford, η Tesla και η BMW να ενσωματώνουν προηγμένη αναγνώριση φωνής στα οχήματά τους. Μέχρι το 2022, υπολογίστηκε ότι πάνω από το 50% των νέων αυτοκινήτων διέθεταν δυνατότητες αναγνώρισης φωνής. Αυτές οι ενσωματώσεις στοχεύουν στη βελτίωση της ασφάλειας, επιτρέποντας στους οδηγούς να χειρίζονται τις λειτουργίες πλοήγησης, ψυχαγωγίας και επικοινωνίας χωρίς περισπασμούς.

Η αγοραία αξία για την αναγνώριση φωνής στα αυτοκίνητα προβλεπόταν να ξεπεράσει το 1 δισεκατομμύριο δολάρια έως το 2023, υποδηλώνοντας μια αυξανόμενη ζήτηση για hands-free, έξυπνες αλληλεπιδράσεις στο αυτοκίνητο.

Αυτοκίνητο

Έρευνες δείχνουν ότι έως το 2022, το 73% των οδηγών θα χρησιμοποιεί φωνητικό βοηθό στο αυτοκίνητο.

Η Αγορά Συστήματος Αναγνώρισης Φωνής Αυτοκινήτων αποτιμήθηκε σε 2.01 δισεκατομμύρια δολάρια ΗΠΑ το 2021 και αναμένεται να φτάσει τα 3.51 δισεκατομμύρια δολάρια έως το 2027, καταγράφοντας CAGR περίπου 8.07%.

Λύση πραγματικού κόσμου

Δεδομένα που τροφοδοτούν συστήματα που ενεργοποιούνται με φωνή

Τα συστήματα που ενεργοποιούνται με φωνή στα αυτοκίνητα ενισχύουν την ασφάλεια και την άνεση. Επιτρέπουν στους οδηγούς να έχουν πρόσβαση στην πλοήγηση, να πραγματοποιούν κλήσεις, να στέλνουν μηνύματα και να ελέγχουν τη μουσική χωρίς να παίρνουν τα χέρια από το τιμόνι ή τα μάτια τους από το δρόμο. Ανταποκρινόμενοι σε λεκτικές εντολές, αυτά τα συστήματα μειώνουν την απόσπαση της προσοχής, προωθούν την εκτέλεση πολλαπλών εργασιών και εξασφαλίζουν συνεχή εστίαση στην οδήγηση. 

Ο πελάτης είναι παγκόσμιος ηγέτης στη νοημοσύνη συνομιλίας που προσφέρει λύσεις φωνητικής τεχνητής νοημοσύνης που επιτρέπουν στις επιχειρήσεις να προσφέρουν απίστευτες εμπειρίες συνομιλίας στους πελάτες τους. Συνεργάζονταν με κορυφαίες αυτοκινητοβιομηχανίες για να εκπαιδεύσουν τα φωνητικά τους συστήματα με επώνυμες φράσεις κλειδιά και χρειάζονταν την τεχνογνωσία της Shaip στη συλλογή δεδομένων ήχου.

Λύση πραγματικού κόσμου
Προκλήσεις

Προκλήσεις

  • Crowd Sourcing: Προσλάβετε 2800+ μητρικούς ομιλητές ανά γλώσσα παγκοσμίως.
  • Συλλογή δεδομένων: Ασφαλίστε 200+ προτροπές σε 12 γλώσσες εντός καθορισμένου χρονικού πλαισίου.
  • Αναγνώριση πλαισίου και πρόθεσης: Για να κατανοηθούν σωστά τα αιτήματα των χρηστών, τα συστήματα έπρεπε να εκπαιδευτούν σε διαφορετικές παραλλαγές για την ίδια φράση-κλειδί.
  • Χειρισμός θορύβου παρασκηνίου: Αντιμετωπίστε τον πραγματικό θόρυβο φόντου για ακρίβεια μοντέλου ML.
  • Μείωση της προκατάληψης: Αποκτήστε δείγματα φωνής από διάφορα δημογραφικά στοιχεία για να εξασφαλίσετε τη συμμετοχή.
  • Προδιαγραφές ήχου: 16khz 16bit PCM, μονοφωνικό, μονοκάναλο, WAV; καμία επεξεργασία.
  • Περιβάλλον εγγραφής: Οι ηχογραφήσεις πρέπει να έχουν καθαρό ήχο χωρίς θόρυβο φόντου ή ενοχλήσεις. Φράσεις κλειδιά που πρέπει να καταγραφούν χρησιμοποιώντας κανονική ομιλία.
  • Ελεγχος ΠΟΙΟΤΗΤΑΣ:  Όλες οι εγγραφές ομιλίας θα υποβληθούν σε ποιοτική αξιολόγηση και επικύρωση, θα παραδοθούν μόνο επικυρωμένες εγγραφές ομιλίας. Εάν η Shaip δεν πληροί τα συμφωνηθέντα Πρότυπα Ποιότητας, η Shaip θα παραδώσει εκ νέου δεδομένα χωρίς επιπλέον κόστος

Λύση

Η Shaip με την τεχνογνωσία της στον χώρο Conversational AI επέτρεψε στον πελάτη:

  • Συλλογή δεδομένων: 208 φράσεις-κλειδιά/προτροπές επωνυμίας συλλέχθηκαν σε 12 παγκόσμιες γλώσσες από 2800 ομιλητές στο καθορισμένο χρονικό πλαίσιο
  • Διαφορετικές προφορές και διάλεκτοι: Επιστρατεύονται ειδικοί από όλο τον κόσμο, ικανοί στις επιθυμητές προφορές και διαλέκτους.
  • Αναγνώριση πλαισίου και πρόθεσης: Κάθε ομιλητής είχε την αποστολή να καταγράφει τις φράσεις-κλειδιά σε 20 διαφορετικές παραλλαγές, επιτρέποντας στα μοντέλα ML να κατανοούν με ακρίβεια τα αιτήματα των χρηστών όσον αφορά το πλαίσιο και την πρόθεση.
  • Χειρισμός θορύβου παρασκηνίου: Για να διασφαλίσουμε άψογη ποιότητα ήχου, βεβαιωθήκαμε ότι οι φράσεις κλειδιά καταγράφηκαν σε ένα γαλήνιο περιβάλλον με επίπεδα θορύβου κάτω από 40 dB, χωρίς διαταραχές φόντου όπως τηλεόραση, ραδιόφωνο, μουσική, ομιλία ή ήχους δρόμου.
  • Μείωση της προκατάληψης: Για να ελαχιστοποιήσουμε την προκατάληψη, προσλάβαμε άτομα από διαφορετικές περιοχές και διατηρήσαμε μια ισορροπημένη δημογραφική εκπροσώπηση με 50% άνδρες και 50% γυναίκες, σε ηλικιακές ομάδες από 18 έως 60 ετών.
  • Οδηγίες εγγραφής: Οι φράσεις κλειδιά καταγράφηκαν σε ένα σταθερό, κανονικό μοτίβο ομιλίας, χωρίς οποιεσδήποτε παραλλαγές, όπως γρήγορο ή αργό ρυθμό. 2 δευτερόλεπτα σιωπή στην αρχή και στο τέλος για να διασφαλιστεί ότι κανένα μέρος της ομιλίας δεν κόπηκε ακούσια.
  • Μορφή εγγραφής: Ο ήχος εγγράφηκε στα 16 kHz, PCM 16 bit σε μονοφωνική μορφή, χρησιμοποιώντας ένα μόνο κανάλι και αποθηκεύτηκε σε μορφή αρχείου WAV. Ο ήχος παραμένει μη επεξεργασμένος, που σημαίνει ότι δεν υπήρχε εφαρμογή συμπίεσης, αντήχησης ή EQ.
  • Ποιότητα: Κάθε ηχογράφηση ομιλίας υποβλήθηκε σε αυστηρούς ποιοτικούς ελέγχους και επικύρωση. Παραδόθηκαν μόνο οι ηχογραφήσεις που πέρασαν από αυτήν την αξιολόγηση. Τυχόν αρχεία που δεν πληρούσαν τα συμφωνηθέντα πρότυπα ποιότητας καταγράφηκαν εκ νέου και παρασχέθηκαν χωρίς καμία επιπλέον χρέωση
Λύση
Αποτέλεσμα

Αποτέλεσμα

Τα υψηλής ποιότητας ηχητικά δεδομένα ή φωνητικές εντολές φράσης κλειδιού επωνυμίας θα επιτρέψουν στις αυτοκινητοβιομηχανίες και στους πελάτες τους:

  1. Επωνυμία και ταυτότητα: Τα φωνητικά μηνύματα με συγκεκριμένη φράση επωνυμίας βοηθούν τις εταιρείες να δημιουργήσουν μια άμεση και αξέχαστη σύνδεση μεταξύ του χρήστη και της επωνυμίας που ενισχύει την ανάκληση της επωνυμίας.
  2. Ευκολία στη χρήση: Οι φωνητικές εντολές διευκολύνουν τους οδηγούς να αλληλεπιδρούν με τα οχήματα χωρίς να παίρνουν τα χέρια τους από το τιμόνι ή τα μάτια τους από το δρόμο, ενισχύοντας έτσι την οδική ασφάλεια.
  3. λειτουργικότητα: Οι φωνητικές εντολές κάνουν την πρόσβαση και τον έλεγχο των χαρακτηριστικών του αυτοκινήτου πιο διαισθητική. Είτε η πλοήγηση, η αναπαραγωγή πολυμέσων ή ο έλεγχος του κλίματος.
  4. Ενοποίηση με άλλα συστήματα: Πολλά συστήματα που ενεργοποιούνται με φωνή είναι ενσωματωμένα με smartphone, έξυπνες οικιακές συσκευές και άλλες συσκευές IoT. Για παράδειγμα, ένας χρήστης μπορεί να μπορεί να ζητήσει από το αυτοκίνητό του να ανάψει τα φώτα στο σπίτι καθώς πλησιάζει στο σπίτι.
  5. Ανταγωνιστικό Πλεονέκτημα: Η προσφορά προηγμένων συστημάτων με φωνητική ενεργοποίηση μπορεί να αποτελέσει σημείο πώλησης και διαφοροποίηση. Οι αγοραστές αναζητούν την πιο πρόσφατη τεχνολογία όταν σκέφτονται να αγοράσουν νέο αυτοκίνητο.
  6. Προστασία του μέλλοντος: Καθώς η τεχνολογία εξελίσσεται και το IoT ενσωματώνεται περισσότερο στην καθημερινή ζωή, η ύπαρξη ενός ισχυρού συστήματος που ενεργοποιείται με φωνή καθιστά τις αυτοκινητοβιομηχανίες πιο προσαρμοστικές στη μελλοντική τεχνολογία.
  7. Ευκαιρίες εσόδων: Πρόσθετες ευκαιρίες δημιουργίας εσόδων, π.χ., τα φωνητικά συστήματα προσφέρουν συστάσεις ή ενσωματωμένες εμπειρίες ηλεκτρονικού εμπορίου (όπως η παραγγελία φαγητού ή η εύρεση κοντινών υπηρεσιών) που θα μπορούσαν να προσφέρουν έσοδα συνεργατών.
Golden-5-αστέρων

Όταν ξεκινήσαμε να παρέχουμε φωνητικές προτροπές για τον τομέα της αυτοκινητοβιομηχανίας, οι προκλήσεις ήταν πολλές. Η αποτύπωση της διαφορετικότητας στην ομιλία, τις προφορές και τους τόνους ήταν ζωτικής σημασίας για την αντιπροσώπευση του παγκόσμιου πελατολογίου του πελάτη μας. Ο Shaip ξεχώρισε όχι μόνο ως πωλητής, αλλά ως πραγματικός συνεργάτης. Η δέσμευσή τους να εξασφαλίσουν μια ποικιλία φωνών από διαφορετικές περιοχές ήταν αξιέπαινη. Πήγαν πέρα ​​από το να συγκεντρώνουν απλώς φωνές. αντιλήφθηκαν τις αποχρώσεις των αναγκών του έργου μας, εξασφαλίζοντας κορυφαίες ηχογραφήσεις. Η άψογη συμμόρφωσή τους στα πρότυπα συλλογής ήχου ανέδειξε τον επαγγελματισμό και την αφοσίωσή τους στο έργο.

Επιταχύνετε το Conversational AI σας
ανάπτυξη εφαρμογών κατά 100%