Μελέτη περίπτωσης: Conversational AI

Πάνω από 3 χιλιάδες ώρες δεδομένων που συλλέγονται, τμηματοποιούνται και μεταγράφονται για τη δημιουργία ASR σε 8 ινδικές γλώσσες

Συλλογή εκφώνησης
Η κυβέρνηση στοχεύει να δώσει στους πολίτες της εύκολη πρόσβαση στο Διαδίκτυο και τις ψηφιακές υπηρεσίες στη μητρική τους γλώσσα μέσω του Προγράμματος Bhashini.

Το BHASHINI, η πλατφόρμα μετάφρασης γλώσσας της Ινδίας που βασίζεται στην τεχνητή νοημοσύνη, αποτελεί ζωτικό μέρος της πρωτοβουλίας Digital India.

Σχεδιασμένη για να παρέχει εργαλεία Τεχνητής Νοημοσύνης (AI) και Επεξεργασίας Φυσικής Γλώσσας (NLP) σε ΜΜΕ, νεοφυείς επιχειρήσεις και ανεξάρτητους καινοτόμους, η πλατφόρμα Bhashini χρησιμεύει ως δημόσιος πόρος. Στόχος του είναι να προωθήσει την ψηφιακή ένταξη δίνοντας τη δυνατότητα στους Ινδούς πολίτες να αλληλεπιδρούν με τις ψηφιακές πρωτοβουλίες της χώρας στη μητρική τους γλώσσα.

Επιπλέον, στοχεύει να επεκτείνει σημαντικά τη διαθεσιμότητα περιεχομένου στο Διαδίκτυο στις ινδικές γλώσσες. Αυτό στοχεύει ιδιαίτερα σε τομείς δημόσιου ενδιαφέροντος όπως η διακυβέρνηση και η πολιτική, η επιστήμη και η τεχνολογία κ.λπ. Κατά συνέπεια, αυτό θα δώσει κίνητρα στους πολίτες να χρησιμοποιούν το διαδίκτυο στη γλώσσα τους, προωθώντας την ενεργό συμμετοχή τους.

Αξιοποιήστε το NLP για να ενεργοποιήσετε ένα ποικίλο οικοσύστημα συνεισφερόντων, συνεργαζόμενων οντοτήτων και πολιτών με σκοπό την υπέρβαση των γλωσσικών φραγμών, διασφαλίζοντας έτσι την ψηφιακή ένταξη και ενδυνάμωση

Λύση πραγματικού κόσμου

Απελευθερώνοντας τη δύναμη της τοπικής προσαρμογής με δεδομένα

Η Ινδία χρειαζόταν μια πλατφόρμα που θα επικεντρωνόταν στη δημιουργία πολύγλωσσων συνόλων δεδομένων και τεχνολογικών λύσεων γλωσσών που βασίζονται σε τεχνητή νοημοσύνη, προκειμένου να παρέχει ψηφιακές υπηρεσίες στις ινδικές γλώσσες. Για να ξεκινήσει αυτή η πρωτοβουλία, το Indian Institute of Technology, Madras (IIT Madras) συνεργάστηκε με τη Shaip για τη συλλογή, τμηματοποίηση και μεταγραφή συνόλων δεδομένων ινδικής γλώσσας για τη δημιουργία πολυγλωσσικών μοντέλων ομιλίας.

Προκλήσεις

Για να βοηθήσει τον πελάτη με τον οδικό χάρτη ομιλίας τεχνολογίας ομιλίας για τις ινδικές γλώσσες, η ομάδα χρειάστηκε να αποκτήσει, να τμηματοποιήσει και να μεταγράψει μεγάλους όγκους δεδομένων εκπαίδευσης για να δημιουργήσει μοντέλο τεχνητής νοημοσύνης. Οι κρίσιμες απαιτήσεις του πελάτη ήταν:

Συλλογή δεδομένων

  • Αποκτήστε 3000 ώρες δεδομένων εκπαίδευσης σε 8 ινδικές γλώσσες με 4 διαλέκτους ανά γλώσσα.
  • Για κάθε γλώσσα, ο προμηθευτής θα συλλέγει Extempore Speech και
    Συνομιλητική Ομιλία Ηλικιακών Ομάδων 18-60 ετών
  • Εξασφαλίστε έναν ποικίλο συνδυασμό ομιλητών ανά ηλικία, φύλο, εκπαίδευση και διαλέκτους
  • Εξασφαλίστε έναν ποικίλο συνδυασμό περιβαλλόντων εγγραφής σύμφωνα με τις Προδιαγραφές.
  • Κάθε εγγραφή ήχου πρέπει να είναι τουλάχιστον 16 kHz αλλά κατά προτίμηση 44 kHz

Τμηματοποίηση Δεδομένων

  • Δημιουργήστε τμήματα ομιλίας 15 δευτερολέπτων και σφραγίστε τον ήχο στα χιλιοστά του δευτερολέπτου για κάθε δεδομένο ηχείο, τύπο ήχου (ομιλία, φλυαρία, μουσική, θόρυβος), στροφές, εκφωνήσεις και φράσεις σε μια συνομιλία
  • Δημιουργήστε κάθε τμήμα για το στοχευμένο ηχητικό σήμα με μια επένδυση 200-400 χιλιοστών του δευτερολέπτου στην αρχή και στο τέλος.
  • Για όλα τα τμήματα, πρέπει να συμπληρωθούν τα ακόλουθα αντικείμενα, π.χ., Ώρα έναρξης, Ώρα λήξης, Αναγνωριστικό τμήματος, Επίπεδο έντασης, Τύπος ήχου, Κωδικός γλώσσας, Αναγνωριστικό ομιλητή κ.λπ.

Μεταγραφή δεδομένων

  • Ακολουθήστε τις οδηγίες μεταγραφής λεπτομερειών σχετικά με χαρακτήρες και ειδικά σύμβολα, ορθογραφία και γραμματική, κεφαλαία, συντομογραφίες, συσπάσεις, μεμονωμένα προφορικά γράμματα, αριθμούς, σημεία στίξης, ακρωνύμια, αδιάλλακτα, ομιλία, ακατάληπτη ομιλία, μη στοχευμένες γλώσσες, μη ομιλία κ.λπ.

Έλεγχος ποιότητας και σχόλια

  • Όλες οι ηχογραφήσεις πρέπει να υποβάλλονται σε αξιολόγηση και επικύρωση ποιότητας, να εκδίδεται μόνο επικυρωμένη ομιλία

Λύση

Με τη βαθιά κατανόηση της τεχνητής νοημοσύνης συνομιλίας, βοηθήσαμε τον πελάτη να συλλέξει, να τμηματοποιήσει και να μεταγράψει τα δεδομένα με μια ομάδα ειδικών συλλεκτών, γλωσσολόγων και σχολιαστών για τη δημιουργία μεγάλου όγκου δεδομένων ήχου σε 8 ινδικές γλώσσες

Το εύρος της εργασίας για το Shaip περιελάμβανε, αλλά δεν περιοριζόταν στην απόκτηση μεγάλου όγκου δεδομένων εκπαίδευσης ήχου, τμηματοποίηση των ηχογραφήσεων σε πολλαπλές, μεταγραφή των δεδομένων και παράδοση αντίστοιχων αρχείων JSON που περιέχουν τα μεταδεδομένα [SpeakerID, Age, Gender, Language, Dialect,
Μητρική γλώσσα, Προσόντα, Επάγγελμα, Τομέας, Μορφή αρχείου, Συχνότητα, Κανάλι, Τύπος ήχου, Αριθμός ηχείων, Αριθμός ξένων γλωσσών, Ρύθμιση που χρησιμοποιείται, Ήχος στενής ζώνης ή ευρείας ζώνης, κ.λπ.]. 

Ο Shaip συνέλεξε 3000 ώρες δεδομένων ήχου σε κλίμακα, ενώ διατήρησε τα επιθυμητά επίπεδα ποιότητας που απαιτούνται για την εκπαίδευση της τεχνολογίας ομιλίας για πολύπλοκα έργα. Έγινε ρητή φόρμα συγκατάθεσης από κάθε έναν από τους συμμετέχοντες.

1. Συλλογή δεδομένων

2. Τμηματοποίηση δεδομένων

  • Τα δεδομένα ήχου που συλλέχθηκαν διαχωρίστηκαν περαιτέρω σε τμήματα ομιλίας των 15 δευτερολέπτων το καθένα και σημείωσαν χρονική σήμανση στα χιλιοστά του δευτερολέπτου για κάθε δεδομένο ηχείο, τύπο ήχου, στροφές, εκφωνήσεις και φράσεις σε μια συνομιλία
  • Δημιούργησε κάθε τμήμα για το στοχευμένο ηχητικό σήμα με μια επένδυση 200-400 χιλιοστών του δευτερολέπτου στην αρχή και στο τέλος ενός ηχητικού σήματος.
  • Για όλα τα τμήματα, υπήρχαν και συμπληρώθηκαν τα ακόλουθα αντικείμενα, π.χ., Ώρα έναρξης, Ώρα λήξης, Αναγνωριστικό τμήματος, Επίπεδο έντασης (δυνατό, κανονικό, ήσυχο), κύριος τύπος ήχου (ομιλία, φλυαρία, μουσική, θόρυβος, επικάλυψη), ηχείο κώδικα γλώσσας Ταυτότητα, Μεταγραφή κ.λπ.

3. Ποιοτικός έλεγχος και ανατροφοδότηση

  • Όλες οι εγγραφές αξιολογήθηκαν ως προς την ποιότητα και παραδόθηκαν μόνο επικυρωμένες εγγραφές ομιλίας με WER 90% και TER 90%
  • Ακολουθήθηκε λίστα ελέγχου ποιότητας:
       » Μέγιστο μήκος τμήματος 15 δευτερολέπτων
       » Μεταγραφή από συγκεκριμένους τομείς, συγκεκριμένα: Καιρός, διαφορετικοί τύποι ειδήσεων, υγεία, γεωργία, εκπαίδευση, θέσεις εργασίας ή οικονομικά
       » Χαμηλός θόρυβος φόντου
       » Χωρίς απενεργοποίηση αποσπάσματος ήχου – Χωρίς παραμόρφωση
       » Σωστή τμηματοποίηση ήχου για μεταγραφή

4. Μεταγραφή Δεδομένων
Όλες οι προφορικές λέξεις, συμπεριλαμβανομένων των δισταγμών, των πλήρων λέξεων, των λανθασμένων εκκινήσεων και άλλων λεκτικών τικ, αποτυπώθηκαν με ακρίβεια στη μεταγραφή. Ακολουθήσαμε επίσης λεπτομερείς οδηγίες μεταγραφής σχετικά με κεφαλαία και πεζά γράμματα, ορθογραφία, κεφαλαία, συντμήσεις, συσπάσεις, αριθμούς,
σημεία στίξης, Ακρωνύμια, Disfluent Speech, non-speech noises κ.λπ. Επιπλέον, η ροή εργασίας που ακολουθείται για τη συλλογή και τη μεταγραφή είναι η παρακάτω:

Αποτέλεσμα

Τα δεδομένα ήχου υψηλής ποιότητας από ειδικούς γλωσσολόγους θα επιτρέψουν στο Ινδικό Τεχνολογικό Ινστιτούτο - Μαντράς, να εκπαιδεύσει με ακρίβεια και να δημιουργήσει πολύγλωσσα μοντέλα αναγνώρισης ομιλίας σε 8 ινδικές γλώσσες με διαφορετικές διαλέκτους στον καθορισμένο χρόνο. Τα μοντέλα αναγνώρισης ομιλίας μπορούν να χρησιμοποιηθούν για:

  • Ξεπεραστεί το γλωσσικό εμπόδιο για την ψηφιακή ένταξη συνδέοντας τους πολίτες με τις πρωτοβουλίες στη μητρική τους γλώσσα.
  • Προωθεί την Ψηφιακή Διακυβέρνηση
  • Καταλύτης για τη διαμόρφωση ενός οικοσυστήματος για υπηρεσίες και προϊόντα στις ινδικές γλώσσες
  • Περισσότερο τοπικό ψηφιακό περιεχόμενο στους τομείς δημοσίου ενδιαφέροντος, ιδιαίτερα, διακυβέρνηση και πολιτική
Golden-5-αστέρων

Ήμασταν εντυπωσιασμένοι με την τεχνογνωσία του Shaip στον χώρο συνομιλίας AI. Η συνολική τους ικανότητα εκτέλεσης έργου από την προμήθεια, την τμηματοποίηση, τη μεταγραφή και την παροχή των απαιτούμενων δεδομένων κατάρτισης από ειδικούς γλωσσολόγους σε 8 γλώσσες εντός αυστηρών χρονοδιαγραμμάτων και κατευθυντήριων γραμμών. διατηρώντας παράλληλα το αποδεκτό πρότυπο ποιότητας.»

Επιταχύνετε το Conversational AI σας
ανάπτυξη εφαρμογών κατά 100%

Επιλεγμένοι πελάτες

Ενδυνάμωση των ομάδων για τη δημιουργία κορυφαίων παγκοσμίως προϊόντων AI.