Συλλογή δεδομένων για Conversational AI

Πώς να προσεγγίσετε τη συλλογή δεδομένων για συνομιλία AI

Σήμερα, έχουμε μερικά ρομπότ που μιλάνε ως chatbots, εικονικούς βοηθούς και πολλά άλλα στα σπίτια μας, συστήματα αυτοκινήτου, φορητές συσκευές, λύσεις οικιακού αυτοματισμού κ.λπ. Αυτές οι συσκευές ακούνε με ακρίβεια τι λέμε και πώς λέμε και ανακτούν αποτελέσματα ή εκτελούν συγκεκριμένες εργασίες .

Και αν έχετε χρησιμοποιήσει έναν βοηθό όπως Siri ή Alexa, θα καταλάβατε επίσης ότι γίνονται πιο ιδιόμορφα μέρα με τη μέρα. Οι απαντήσεις τους είναι πνευματώδεις, απαντούν, σνομπάρουν, ανταποδίδουν κομπλιμέντα και συμπεριφέρονται πιο ανθρώπινα από κάποιους συναδέλφους που ίσως γνωρίζετε. Δεν αστειευόμαστε. Σύμφωνα με την PwC, το 27% των χρηστών που αλληλεπιδρούσαν με τον πρόσφατο συνεργάτη εξυπηρέτησης πελατών τους δεν γνώριζαν αν μιλούσαν σε άνθρωπο ή σε chatbot.

Η ανάπτυξη τέτοιων περίπλοκων συστημάτων και συσκευών συνομιλίας είναι εξαιρετικά περίπλοκη και τρομακτική. Είναι ένα διαφορετικό παιχνίδι με μπάλα με ξεχωριστές προσεγγίσεις ανάπτυξης. Γι' αυτό σκεφτήκαμε ότι πρέπει να σας το αναλύσουμε για ευκολότερη κατανόηση. Έτσι, εάν θέλετε να αναπτύξετε μια μηχανή συνομιλίας AI ή έναν εικονικό βοηθό, αυτός ο οδηγός θα σας βοηθήσει να αποκτήσετε σαφήνεια.

Σημασία του Conversational AI

Καθώς η τεχνολογία γίνεται μια πιο αναπόσπαστη πτυχή της ζωής μας με τη μορφή νεότερων συσκευών και συστημάτων, προκύπτει η ανάγκη να πιέσουμε εμπόδια, να σπάσουμε τις συμβάσεις και να βρούμε νέους τρόπους αλληλεπίδρασης μαζί τους. Από την απλή χρήση συνδεδεμένων περιφερειακών όπως το ποντίκι και το πληκτρολόγιο, αλλάξαμε σε mouse pad που πρόσφεραν μεγαλύτερη άνεση. Στη συνέχεια, μεταφερθήκαμε σε οθόνες αφής που πρόσφεραν περαιτέρω ευκολία στην τροφοδοσία εισόδων και στην εκτέλεση εργασιών.

Με τις συσκευές να γίνονται προεκτάσεις του εαυτού μας, ξεκλειδώνουμε τώρα ένα νέο μέσο διαταγής μέσω φωνής. Δεν χρειάζεται καν να είμαστε κοντά σε μια συσκευή για να τη λειτουργήσουμε. Το μόνο που έχουμε να κάνουμε είναι να χρησιμοποιήσουμε τη φωνή μας για να το ξεκλειδώσουμε και να δώσουμε εντολή στις εισόδους μας. Από ένα κοντινό δωμάτιο, όταν οδηγείτε, ενώ χρησιμοποιείτε άλλη συσκευή ταυτόχρονα, η τεχνητή νοημοσύνη συνομιλίας εκτελεί απρόσκοπτα τις προβλεπόμενες εργασίες μας. Από πού να ξεκινήσουμε λοιπόν – όλα ξεκινούν με δεδομένα ομιλίας υψηλής ποιότητας για την εκπαίδευση μοντέλων ML.

Τα βασικά της συλλογής δεδομένων εκπαίδευσης λόγου

Η συλλογή και ο σχολιασμός δεδομένων εκπαίδευσης AI για συνομιλητική τεχνητή νοημοσύνη είναι πολύ διαφορετική. Υπάρχουν πολλές περιπλοκές που εμπλέκονται στις ανθρώπινες εντολές και πρέπει να εφαρμοστούν διάφορα μέτρα για να διασφαλιστεί ότι κάθε πτυχή προσαρμόζεται για εντυπωσιακά αποτελέσματα. Ας δούμε ποιες είναι μερικές από τις βασικές αρχές των δεδομένων ομιλίας.

Κατανόηση φυσικής γλώσσας (NLU)

Για να κατανοήσουν τα chatbot και οι εικονικοί βοηθοί και να ανταποκριθούν σε αυτό που στέλνουμε μήνυμα ή εντολές, μια διαδικασία που ονομάζεται NLU υλοποιείται. Αντιπροσωπεύει Φυσική κατανόηση της γλώσσας και περιλαμβάνει τρεις τεχνολογικές έννοιες για την ερμηνεία και την επεξεργασία διαφορετικών τύπων εισροών.

  • Πρόθεση

    Όλα ξεκινούν με πρόθεση. Τι προσπαθεί ένας συγκεκριμένος χρήστης να μεταφέρει, να επικοινωνήσει ή να επιτύχει μέσω μιας εντολής; Ψάχνει ο χρήστης πληροφορίες; Περιμένουν ενημερώσεις για κάποια ενέργεια; Δίνουν εντολή να εκτελέσει το σύστημα; Πώς το διοικούν; Είναι μέσω ερώτησης ή αιτήματος; Όλες αυτές οι πτυχές βοηθούν τις μηχανές να κατανοήσουν και να ταξινομήσουν τις προθέσεις και τους σκοπούς για να καταλήξουν σε αεροστεγείς απαντήσεις αντίστοιχα.

  • Συλλογή Ομιλιών

    Υπάρχει διαφορά μεταξύ της εντολής "Πού είναι το πλησιέστερο ΑΤΜ;" και την εντολή "Βρες μου ένα κοντινό ΑΤΜ." Τώρα οι άνθρωποι θα αναγνώριζαν ότι και οι δύο σημαίνουν το ίδιο πράγμα, αλλά οι μηχανές πρέπει να εξηγηθούν με αυτή τη διαφορά. Είναι τα ίδια όσον αφορά την πρόθεση, αλλά το πώς έχει διαμορφωθεί η πρόθεση είναι εντελώς διαφορετικό.

    Η συλλογή εκφωνήσεων έχει να κάνει με τον ορισμό και τη χαρτογράφηση διαφορετικών εκφράσεων και φράσεων προς συγκεκριμένους στόχους για την ακριβή εκτέλεση εργασιών και απαντήσεων. Τεχνικά, οι ειδικοί σχολιασμού δεδομένων εργάζονται σε δεδομένα ομιλίας ή κειμένου για να βοηθήσουν τις μηχανές να το διαφοροποιήσουν.

  • Εξαγωγή οντοτήτων

    Κάθε πρόταση έχει συγκεκριμένες λέξεις ή φράσεις που δίνουν έμφαση και είναι αυτή η έμφαση που οδηγεί σε μια ερμηνεία του πλαισίου και του σκοπού. Οι μηχανές, όπως και τα άκαμπτα συστήματα που είναι, πρέπει να τροφοδοτούνται με κουτάλι τέτοιες οντότητες. Για παράδειγμα, "Πού μπορώ να βρω χορδές από την κιθάρα μου κοντά στην 6η Λεωφόρο;"

    Εάν κάνετε πιο συγκεκριμένη την πρόταση, το find είναι η οντότητα ένα, οι χορδές είναι δύο, η κιθάρα είναι τρεις και η 6η λεωφόρος είναι 4. Αυτές οι οντότητες συγκεντρώνονται μεταξύ τους από μηχανές για να ανακτήσουν τα κατάλληλα αποτελέσματα και για να συμβεί αυτό, οι ειδικοί εργάζονται στο backend.

Σύνολο δεδομένων φωνής / ομιλίας / ήχου εκτός ραφιού για να εκπαιδεύσετε το μοντέλο τεχνητής νοημοσύνης συνομιλίας πιο γρήγορα

Σχεδιασμός διαλόγων για συνομιλία AI

Ο στόχος της τεχνητής νοημοσύνης ήταν κυρίως η αναπαραγωγή της ανθρώπινης συμπεριφοράς μέσω χειρονομιών, ενεργειών και απαντήσεων. Ο συνειδητός ανθρώπινος νους έχει την έμφυτη ικανότητα να κατανοεί το πλαίσιο, την πρόθεση, τον τόνο, τα συναισθήματα και άλλους παράγοντες και να ανταποκρίνεται ανάλογα. Πώς όμως μπορούν οι μηχανές να διαφοροποιήσουν αυτές τις πτυχές; 

Σχεδιάζοντας διαλόγους για συνομιλία AI είναι πολύ περίπλοκο και το πιο σημαντικό, αρκετά αδύνατο να αναπτυχθεί ένα καθολικό μοντέλο. Κάθε άτομο έχει διαφορετικό τρόπο σκέψης, ομιλίας και ανταπόκρισης. Ακόμη και στις απαντήσεις, όλοι εκφράζουμε τις σκέψεις μας μοναδικά. Έτσι, οι μηχανές πρέπει να ακούν και να ανταποκρίνονται ανάλογα. 

Ωστόσο, αυτό δεν είναι επίσης ομαλό. Όταν οι άνθρωποι μιλούν, παράγοντες όπως η προφορά, η προφορά, η εθνικότητα, η γλώσσα και άλλα έρχονται και δεν είναι εύκολο για τις μηχανές να παρεξηγήσουν και να παρερμηνεύσουν λέξεις και να απαντήσουν. Μια συγκεκριμένη λέξη μπορεί να γίνει κατανοητή από τις μηχανές με μυριάδες τρόπους όταν υπαγορεύεται από έναν Ινδό, έναν Βρετανό, έναν Αμερικανό και έναν Μεξικανό. Υπάρχουν πολλοί γλωσσικοί φραγμοί που μπαίνουν στο παιχνίδι και ο πιο πρακτικός τρόπος για να δημιουργήσετε ένα σύστημα απόκρισης είναι μέσω οπτικού προγραμματισμού που βασίζεται σε διαγράμματα ροής. 

Μέσω αποκλειστικών μπλοκ για χειρονομίες, απαντήσεις και ενεργοποιήσεις, οι συγγραφείς και οι ειδικοί μπορούν να βοηθήσουν τις μηχανές να αναπτύξουν έναν χαρακτήρα. Αυτό μοιάζει περισσότερο με μια μηχανή αλγορίθμου που μπορεί να χρησιμοποιήσει για να βρει τις σωστές απαντήσεις. Όταν τροφοδοτείται μια είσοδος, οι πληροφορίες ρέουν μέσω των αντίστοιχων παραγόντων, οδηγώντας στη σωστή απόκριση για την παράδοση των μηχανών. 

Dial D For Diversity

Όπως αναφέραμε, οι ανθρώπινες αλληλεπιδράσεις είναι πολύ μοναδικές. Οι άνθρωποι σε όλο τον κόσμο προέρχονται από διαφορετικά κοινωνικά στρώματα, υπόβαθρα, εθνικότητες, δημογραφικά στοιχεία, εθνότητες, προφορές, προφορά, προφορά και πολλά άλλα. 

Προκειμένου ένα συνομιλητικό ρομπότ ή ένα σύστημα να είναι καθολικά λειτουργικό, πρέπει να εκπαιδεύεται με όσο το δυνατόν πιο διαφορετικά δεδομένα εκπαίδευσης. Εάν, για παράδειγμα, ένα μοντέλο έχει εκπαιδευτεί μόνο με τα δεδομένα ομιλίας μιας συγκεκριμένης γλώσσας ή εθνότητας, μια νέα προφορά θα προκαλούσε σύγχυση στο σύστημα και θα το αναγκάσει να δώσει λάθος αποτελέσματα. Αυτό δεν είναι μόνο ενοχλητικό για τους ιδιοκτήτες επιχειρήσεων, αλλά και προσβλητικό για τους χρήστες. 

Αυτός είναι ο λόγος για τον οποίο η φάση ανάπτυξης θα πρέπει να περιλαμβάνει δεδομένα εκπαίδευσης τεχνητής νοημοσύνης από μια πλούσια δεξαμενή διαφορετικών συνόλων δεδομένων που αποτελούνται από άτομα από όλα τα πιθανά υπόβαθρα. Όσο περισσότερες προφορές και εθνότητες κατανοεί το σύστημά σας, τόσο πιο καθολικό θα ήταν. Εξάλλου, αυτό που θα ενοχλούσε περισσότερο τους χρήστες δεν είναι η εσφαλμένη ανάκτηση πληροφοριών αλλά η αδυναμία κατανόησης των εισροών τους. 

Η εξάλειψη της μεροληψίας θα πρέπει να αποτελεί βασική προτεραιότητα και ένας τρόπος με τον οποίο οι εταιρείες θα μπορούσαν να το κάνουν αυτό είναι να επιλέξουν δεδομένα που προέρχονται από το crowdsource. Όταν συγκεντρώνετε τα δεδομένα ομιλίας ή κειμένου σας, επιτρέπετε σε άτομα από όλο τον κόσμο να συνεισφέρουν στις απαιτήσεις σας, καθιστώντας τη συγκέντρωση δεδομένων σας μόνο υγιεινή (Διαβάστε το blog για να κατανοήσουν τα οφέλη και τις παγίδες της εξωτερικής ανάθεσης δεδομένων σε εργαζομένους στο crowdsource). Τώρα, το μοντέλο σας θα κατανοήσει διαφορετικούς τόνους και προφορές και θα ανταποκριθεί ανάλογα. 

Ο δρόμος μπροστά

Η ανάπτυξη συνομιλητικής τεχνητής νοημοσύνης είναι τόσο δύσκολη όσο η ανατροφή ενός βρέφους. Η μόνη διαφορά είναι ότι το βρέφος θα μπορούσε τελικά να κατανοήσει τα πράγματα και να γίνει καλύτερο στην αυτόνομη επικοινωνία. Είναι οι μηχανές που πρέπει να ωθούνται με συνέπεια. Υπάρχουν αρκετές προκλήσεις σε αυτόν τον χώρο αυτήν τη στιγμή και θα πρέπει να αναγνωρίσουμε το γεγονός ότι έχουμε μερικά από τα πιο επαναστατικά συστήματα τεχνητής νοημοσύνης που προέρχονται από συνομιλία παρά αυτές τις προκλήσεις. Ας περιμένουμε να δούμε τι επιφυλάσσει το μέλλον για τα φιλικά chatbot της γειτονιάς και τους εικονικούς βοηθούς μας. Εν τω μεταξύ, εάν σκοπεύετε να αναπτύξετε τεχνητή νοημοσύνη συνομιλίας όπως το Google Home για την επιχείρησή σας, επικοινωνήστε μαζί μας για τις ανάγκες εκπαίδευσης και σχολιασμού σας σε τεχνητή νοημοσύνη.

κοινωνική Share