Conversational AI: Αυτόματη αναγνώριση ομιλίας

Συλλογή άνω των 8k ωρών ήχου, 800 ώρες μεταγραφής για τεχνολογία πολύγλωσσης φωνής

Συνομιλητικός αι

Εισαγωγή

Η Ινδία χρειαζόταν μια πλατφόρμα που θα επικεντρωνόταν στη δημιουργία πολύγλωσσων συνόλων δεδομένων και τεχνολογικών λύσεων γλώσσας που βασίζονται σε τεχνητή νοημοσύνη, προκειμένου να παρέχει ψηφιακές υπηρεσίες στις ινδικές γλώσσες. Για να ξεκινήσει αυτή η πρωτοβουλία, ο Πελάτης συνεργάστηκε με τη Shaip για τη συλλογή και τη μεταγραφή της ινδικής γλώσσας για τη δημιουργία πολυγλωσσικών μοντέλων ομιλίας.

Τόμος

Ώρες συλλογής δεδομένων
10
Αριθμός σελίδων με σχολιασμό
10 +
Διάρκεια έργου
< 1 μήνες

Προκλήσεις

Για να βοηθήσει τον πελάτη με τον οδικό χάρτη ομιλίας τεχνολογίας ομιλίας για τις ινδικές γλώσσες, η ομάδα χρειάστηκε να αποκτήσει, να τμηματοποιήσει και να μεταγράψει μεγάλους όγκους δεδομένων εκπαίδευσης για να δημιουργήσει μοντέλο τεχνητής νοημοσύνης. Οι κρίσιμες απαιτήσεις του πελάτη ήταν:

Συλλογή δεδομένων

  • Αποκτήστε 8000 ώρες δεδομένων εκπαίδευσης από απομακρυσμένες τοποθεσίες της Ινδίας
  • Ο προμηθευτής συλλογής Αυθόρμητης ομιλίας από Ηλικιακές Ομάδες 20-70 ετών
  • Εξασφαλίστε ένα διαφορετικό συνδυασμό ομιλητών ανά ηλικία, φύλο, εκπαίδευση και διαλέκτους
  • Κάθε εγγραφή ήχου πρέπει να είναι τουλάχιστον 16 kHz με 16 bit/δείγμα.
Συλλογή δεδομένων

Μεταγραφή δεδομένων

Ακολουθήστε τις οδηγίες μεταγραφής λεπτομερειών σχετικά με χαρακτήρες και ειδικά σύμβολα, ορθογραφία και γραμματική, κεφαλαία, συντομογραφίες, συσπάσεις, μεμονωμένα προφορικά γράμματα, αριθμούς, σημεία στίξης, ακρωνύμια και αρχικότητες, ακατάλληλη ομιλία, ακατάληπτη ομιλία, μη στοχευμένες γλώσσες, μη

Μεταγραφή δεδομένων

Έλεγχος ποιότητας και σχόλια

Όλες οι εγγραφές πρέπει να υποβάλλονται σε ποιοτική αξιολόγηση και επικύρωση, να παραδίδονται μόνο επικυρωμένες εγγραφές ομιλίας

Λύση

Με τη βαθιά κατανόηση της τεχνητής νοημοσύνης συνομιλίας, βοηθήσαμε τον πελάτη να συλλέξει, να μεταγράψει τα ηχητικά δεδομένα με μια ομάδα ειδικών συλλεκτών, γλωσσολόγων και σχολιαστών για τη δημιουργία μεγάλου όγκου δεδομένων ήχου από απομακρυσμένες περιοχές της Ινδίας.

Το εύρος εργασίας για το Shaip περιελάμβανε, αλλά δεν περιοριζόταν στην απόκτηση μεγάλου όγκου δεδομένων εκπαίδευσης ήχου, τη μεταγραφή των δεδομένων και την παράδοση αντίστοιχων αρχείων JSON που περιέχουν τα μεταδεδομένα [τόσο για ομιλητές όσο και για μεταγραφείς. Για κάθε ομιλητή, τα μεταδεδομένα περιλαμβάνουν ένα ανώνυμο αναγνωριστικό ομιλητή, λεπτομέρειες συσκευής, δημογραφικές πληροφορίες όπως φύλο, ηλικία και εκπαίδευση, μαζί με τον κωδικό PIN, την κοινωνικοοικονομική κατάσταση, τις γλώσσες που μιλούν και ένα αρχείο της διάρκειας παραμονής τους. Για κάθε μεταγραφέα, τα δεδομένα ενσωματώνουν ένα ανώνυμο αναγνωριστικό μεταγραφέα, δημογραφικά στοιχεία παρόμοια με αυτά των ομιλητών, τη διάρκεια της εμπειρίας μεταγραφής τους και μια λεπτομερή ανάλυση των γλωσσών που μπορούν να διαβάσουν, να γράψουν και να μιλήσουν.

Σαΐπ μαζεύτηκε 8000 ώρες δεδομένων ήχου / Αυθόρμητη ομιλία σε κλίμακα και μεταγραφή 800 ωρών διατηρώντας τα επιθυμητά επίπεδα ποιότητας που απαιτούνται για την εκπαίδευση της τεχνολογίας ομιλίας για πολύπλοκα έργα. Έγινε ρητή φόρμα συγκατάθεσης από κάθε έναν από τους συμμετέχοντες. Η / Αυθόρμητη ομιλία που συλλέχτηκε βασίστηκε σε εικόνες που παρέχονται από το Πανεπιστήμιο. Του 3500 εικόνων, 1000 είναι γενικά και 2500 σχετίζονται με την κουλτούρα της περιοχής, τα φεστιβάλ κ.λπ. Οι εικόνες απεικονίζουν διάφορους τομείς όπως σιδηροδρομικούς σταθμούς, αγορές, καιρός και άλλα.

Συλλογή δεδομένων

ΚατάστασηΠεριοχέςΉχος ΏρεςΜεταγραφή
(Ώρες)
ΜπιχάρSaran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaarpur, Jamui2000200
ΟυτάρπραντςDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
Δυτική ΒεγγάληPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur80080
ΤζαρκάντSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
ΓκόαΒόρεια + Νότια Γκόα10010
ΚαρνατάκαDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
ΜαχαράστραSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Σύνολο8000800

Γενικές οδηγίες

Μορφή

    • Ήχος στα 16 kHz, 16 bit/δείγμα.
    • Ενιαίο κανάλι.
    • Ακατέργαστος ήχος χωρίς διακωδικοποίηση.

Στυλ

    • Αυθόρμητος λόγος.
    • Προτάσεις βασισμένες σε εικόνες που παρέχονται από το Πανεπιστήμιο. Από τις 3500 εικόνες, οι 1000 είναι γενικές και οι 2500 σχετίζονται με τον πολιτισμό της περιοχής, τα φεστιβάλ κ.λπ. Οι εικόνες απεικονίζουν διάφορους τομείς όπως σιδηροδρομικούς σταθμούς, αγορές, καιρικές συνθήκες και άλλα.

Φόντο εγγραφής

    • Ηχογραφήθηκε σε ένα ήσυχο περιβάλλον χωρίς ηχώ.
    • Δεν υπάρχουν ενοχλήσεις στο smartphone (δόνηση ή ειδοποιήσεις) κατά την εγγραφή.
    • Χωρίς παραμορφώσεις όπως αποκοπή ή εφέ σε μακρινό πεδίο.
    • Απαράδεκτοι κραδασμοί από το τηλέφωνο. Οι εξωτερικοί κραδασμοί είναι ανεκτοί εάν ο ήχος είναι καθαρός.

Προδιαγραφή ηχείου

    • Εύρος ηλικιών από 20-70 ετών με ισορροπημένη κατανομή φύλου ανά περιφέρεια.
    • Τουλάχιστον 400 φυσικοί ομιλητές σε κάθε περιοχή.
    • Οι ομιλητές θα πρέπει να χρησιμοποιούν τη μητρική τους γλώσσα/διάλεκτο.
    • Τα έντυπα συγκατάθεσης είναι υποχρεωτικά για όλους τους συμμετέχοντες.


Ποιοτικός Έλεγχος & Κρίσιμη Διασφάλιση Ποιότητας

Η διαδικασία QA δίνει προτεραιότητα στη διασφάλιση ποιότητας για ηχογραφήσεις και μεταγραφές. Τα πρότυπα ήχου επικεντρώνονται σε ακριβείς σιωπές, διάρκεια τμήματος, σαφήνεια ενός ηχείου και λεπτομερή μεταδεδομένα, συμπεριλαμβανομένης της ηλικίας και της κοινωνικοοικονομικής κατάστασης. Τα κριτήρια μεταγραφής δίνουν έμφαση στην ακρίβεια της ετικέτας, στην ακρίβεια της λέξης και στις σωστές λεπτομέρειες τμήματος. Το σημείο αναφοράς αποδοχής υπαγορεύει ότι εάν περισσότερο από το 20% μιας παρτίδας ήχου δεν πληροί αυτά τα πρότυπα, απορρίπτεται. Για αποκλίσεις μικρότερες του 20%, απαιτούνται αντικαταστάσεις εγγραφών με παρόμοια προφίλ.

Μεταγραφή δεδομένων

Οι οδηγίες μεταγραφής δίνουν έμφαση στην ακρίβεια και στην κατά λέξη μεταγραφή μόνο όταν οι λέξεις είναι σαφείς και κατανοητές. Οι ασαφείς λέξεις επισημαίνονται ως [ακατάληπτα] ή [μη ακουστά] με βάση το ζήτημα. Τα όρια προτάσεων σε μεγάλο ήχο επισημαίνονται με , και δεν επιτρέπεται η παράφραση ή η διόρθωση γραμματικών λαθών. Η κατά λέξη μεταγραφή καλύπτει λάθη, αργκό και επαναλήψεις, αλλά παραλείπει λανθασμένες εκκινήσεις, ήχους πλήρωσης και τραυλισμό. Οι θόρυβοι παρασκηνίου και προσκηνίου μεταγράφονται με περιγραφικές ετικέτες, ενώ τα σωστά ονόματα, τίτλοι και αριθμοί ακολουθούν συγκεκριμένους κανόνες μεταγραφής. Οι ετικέτες των ηχείων χρησιμοποιούνται για κάθε πρόταση και οι ημιτελείς προτάσεις υποδεικνύονται με.

Ροή εργασιών έργου

Η ροή εργασίας περιγράφει τη διαδικασία μεταγραφής ήχου. Ξεκινά με την επιβίβαση και την εκπαίδευση των συμμετεχόντων. Καταγράφουν ήχο χρησιμοποιώντας μια εφαρμογή, η οποία μεταφορτώνεται σε μια πλατφόρμα QA. Αυτός ο ήχος υφίσταται ποιοτικούς ελέγχους και αυτόματη τμηματοποίηση. Στη συνέχεια, η ομάδα τεχνολογίας προετοιμάζει τμήματα για μεταγραφή. Μετά τη μη αυτόματη μεταγραφή, υπάρχει ένα βήμα διασφάλισης ποιότητας. Οι μεταγραφές παραδίδονται στον πελάτη και εάν γίνουν αποδεκτές, η παράδοση θεωρείται ολοκληρωμένη. Εάν όχι, γίνονται αναθεωρήσεις με βάση τα σχόλια των πελατών.

Αποτέλεσμα

Τα δεδομένα ήχου υψηλής ποιότητας από ειδικούς γλωσσολόγους θα επιτρέψουν στον πελάτη μας να εκπαιδεύσει με ακρίβεια και να δημιουργήσει πολύγλωσσα μοντέλα αναγνώρισης ομιλίας σε διάφορες ινδικές γλώσσες με διαφορετικές διαλέκτους στον καθορισμένο χρόνο. Τα μοντέλα αναγνώρισης ομιλίας μπορούν να χρησιμοποιηθούν για:

  • Ξεπεραστεί το γλωσσικό εμπόδιο για την ψηφιακή ένταξη συνδέοντας τους πολίτες με τις πρωτοβουλίες στη μητρική τους γλώσσα.
  • Προωθεί την Ψηφιακή Διακυβέρνηση
  • Καταλύτης για τη διαμόρφωση ενός οικοσυστήματος για υπηρεσίες και προϊόντα στις ινδικές γλώσσες
  • Περισσότερο τοπικό ψηφιακό περιεχόμενο στους τομείς δημοσίου ενδιαφέροντος, ιδιαίτερα, διακυβέρνηση και πολιτική

Αισθανόμαστε δέος για την τεχνογνωσία του Shaip στον τομέα της συνομιλητικής τεχνητής νοημοσύνης. Το έργο του χειρισμού 8000 ωρών δεδομένων ήχου μαζί με 800 ώρες μεταγραφής σε 80 διαφορετικές περιοχές ήταν, τουλάχιστον, μνημειώδες. Ήταν η βαθιά κατανόηση του Shaip των περίπλοκων λεπτομερειών και αποχρώσεων αυτού του τομέα που κατέστησε δυνατή την επιτυχή εκτέλεση ενός τόσο απαιτητικού έργου. Η ικανότητά τους να διαχειρίζονται απρόσκοπτα και να περιηγούνται στην πολυπλοκότητα αυτού του τεράστιου όγκου δεδομένων, διασφαλίζοντας ταυτόχρονα κορυφαία ποιότητα είναι πραγματικά αξιέπαινη.

Golden-5-αστέρων

Επιταχύνετε το Conversational AI σας
ανάπτυξη εφαρμογών κατά 100%