Now Get 50% OFF* on Conversational AI Off-the-Shelf Datasets
Speech & Audio dataset for chatbots, voice assistants, speech-enabled devices.
*Limited Period Offer
Εμπιστευμένοι από τους ηγέτες του κλάδου
Περιγραφή | Λέξη-κλειδί | Off-the-shelf Language Dataset | Call Center Conversations 8khz* | Generic Conversations 8khz* | Media & Podcasts 16khz* | Utterance/ Scripted Monologue 16khz* | Total Volume in Hours | Dialects covered | Μορφή ήχου | Text Transcription Format | Χρήση θήκης | Πηγή | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Αφρικανικά | Afrikaans Audio Dataset | 600 | 900 | 1500 | Afrikaans spoken in Africa | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
αραβικός | Arabic Audio Dataset | 800 | 1500 | 2300 | Arabic from Gulf countries | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
κινέζικο | Chinese Audio Dataset | 2000 | 2000 | Chinese from China | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||||
Δανέζικα | Danish Audio Dataset | 400 | 600 | 2000 | 3000 | Danish from Denmark | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||
Ολλανδικά | Dutch Audio Dataset | 2000 | 2000 | Dutch from Netherland | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||||
English - AAVE Accent | English - AAVE (African American Vernacular English) Audio Dataset | 500 | 500 | 1000 | The vernacular variety (sometimes known as AAVE, typically spoken by the vast majority of working- and middle-class African Americans) and the more standard variety (typically spoken by middle-class African Americans in formal and public situations) but with a stronger emphasis on the vernacular. | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
English - Boston/New York Accent | English - Boston/New York Audio Dataset | 225 | 225 | 350 | 800 | This is a collection of several regional accents spoken in and around the cities of Boston, New York, and Philadelphia. These accents might sound similar to non-locals, but distinct from other American accents. Despite some local vocabulary that is different from other parts of the English-speaking world, these accents are mutually intelligible with English spoken elsewhere. | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||
English - Chinese Accent | English - Chinese Accented Audio Dataset | 150 | 300 | 450 | Speakers who speak Chinese as their first language and who moved/immigrated to the United States as teenagers/adults and learned English as their second language. | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
English - Deep South Accent | English - Deep South Audio Dataset | 275 | 275 | 450 | 1000 | Speakers from (i) Texas; (ii) North Carolina, South Carolina, Georgia; (iii) New Orleans; (iv) Florida panhandle; (v) Tennessee, Arkansas, Michigan. | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||
English - Hispanic Accent | English - Hispanic Accented Audio Dataset | 400 | 400 | 800 | Hispanic English refers to the varieties of US English spoken by Hispanic Americans of diverse national heritage. The main focus was on Mexican Americans, speakers of different national origins (e.g. Mexico, Puerto Rico, Dominican Republic, Ecuador, Cuba, etc) and from different regions (e.g. California, New York, Florida) as well. Speakers included were who speak Spanish as a first language as well as speakers of Hispanic origin who speak Spanish has a heritage language. | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
English - New Zealand Accent | English - New Zealand Audio Dataset | 250 | 750 | 1000 | Speakers on both islands, including a mix of younger speakers (<40 years old) and older speakers (>40 years old) in equal proportions. | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
English - Singapore Accent | English - Singapore Audio Dataset | 400 | 600 | 1000 | Both Standard Singapore English and Colloquial Singapore English. Singaporeans of different ethnic backgrounds (e.g. Chinese, Malay, Indian, etc) and of different educational levels. | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
English - South Africa Accent | English - South Africa Audio Dataset | 400 | 600 | 1000 | Representatives from various socioeconomic classes and ethnological backgrounds (e.g. South Africans of European, African, Indian, or mixed background). | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
English - Irish Accent | English - Irish Audio Dataset | 500 | 500 | English spoken in Ireland | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||||
English - Scottish Accent | English - Scottish Audio Dataset | 800 | 800 | English spoken by Scottish | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||||
English - Welsh Accent | English - Welsh Audio Dataset | 800 | 800 | Ουαλικά αγγλικά | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||||
Γαλλικά Καναδά | French Canadian Audio Dataset | 1000 | 1000 | Καναδικό γαλλικό | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||||
Εβραϊκά | Hebrew Audio Dataset | 750 | 750 | 1500 | Hebrew in Israel | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
Ινδονησιακά | Indonesian Audio Dataset | 1000 | 1000 | 2000 | Μπαχάσα Ινδονησιακά | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
Ιαπωνικά | Japanese Audio Dataset | 2000 | 2000 | Japanese from Japan | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||||
Κορεάτικα | Korean Audio Dataset | 100 | 200 | 1500 | 1800 | Speakers spread throughout South Korea. | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||
malay | Malay Audio Dataset | 500 | 500 | 1000 | Malay in Malaysia | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
Ισπανικά Μεξικού | Mexican Spanish Audio Dataset | 1250 | 1250 | Mexican from Mexico | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||||
Πολωνικά | Polish Audio Dataset | 250 | 2000 | 2250 | Polish from Poland | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
Ρωσικά | Russian Audio Dataset | 2000 | 2000 | Russian from Russia | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||||
Σουαχίλι | Swahili Audio Dataset | 350 | 650 | 1000 | South African and Kenyan Swahili | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
Σουηδικά | Swedish Audio Dataset | 350 | 650 | 1000 | Swedish in Sweden | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
Κινέζοι της Ταϊβάν | Taiwan Chinese Audio Dataset | 1000 | 1000 | Chinese from Taiwan | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||||
Ταϊλανδέζικα | Thai Audio Dataset | 350 | 450 | 800 | An informal register used between friends, | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
Τουρκική | Turkish Audio Dataset | 2000 | 2000 | Turkish from Turkey | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||||
Βιετναμέζικα | Vietnamese Audio Dataset | 600 | 400 | 1000 | Northern (e.g.,Hanoi), Central, and Southern (e.g., Ho Chi Minh City). | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
Ινδικά | Hindi Audio Dataset | 800 | 2000 | 2800 | Hindi in India specifically in North, East and West regions | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
Hinglish | Indian English Audio Dataset | 300 | 500 | 800 | Collected from urban Indian cities that are financial hubs of the country due to growing economic opportunities. Such places can be Noida, Delhi, Dehradun, Chandigarh, Mumbai, Kolkata, Bangalore, Pune, Chennai, Hyderabad, etc | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||
Αγγλικά | English Audio Dataset | 700 | 700 | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | |||||
Κανάντα | Kannada Audio Dataset | 60 | 100 | 40 | 200 | Kannada from Karnataka, India | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||
Μαλαγιαλαμικά | Malayalam Audio Dataset | 60 | 100 | 40 | 200 | Malayalam from Kerala, Lakshadweep and Puducherry | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||
Oriya | Oriya Audio Dataset | 60 | 100 | 40 | 200 | Oriya from parts of Odisha, West Bengal, Jharkhand and Chhattisgarh | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||
Punjabi | Punjabi Audio Dataset | 60 | 100 | 40 | 200 | Punjabi from Punjab, India | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||
Ταμίλ | Tamil Audio Dataset | 60 | 100 | 240 | 400 | Tamil from Tamil Nadu, India | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||
telugu | Telugu Audio Dataset | 100 | 950 | 950 | 2000 | Telugu from Andhra Pradesh, India | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||
bengali | Bengali Audio Dataset | 60 | 100 | 40 | 200 | Bengali from West Bengal, India | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||
gujarati | Gujarati Audio Dataset | 60 | 100 | 40 | 200 | Gujarati from Gujarat, India | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||
Μαράθι | Marathi Audio Dataset | 60 | 100 | 40 | 200 | Marathi from Maharashtra, India | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία | ||
Ασαμικά | Assamese Audio Dataset | 60 | 100 | 40 | 200 | Assamese from Asssam, India | . Wav | . json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modelling | Σάιπ | Επικοινωνία Επικοινωνία |
Βαθιά εξειδίκευση στο Conversational AI
Η τεχνητή νοημοσύνη συνομιλίας ή τα Chatbots ή οι εικονικοί / ψηφιακοί βοηθοί είναι τόσο έξυπνοι όσο η τεχνολογία και τα δεδομένα πίσω από αυτά. Στη Shaip, σας προσφέρουμε ένα ευρύ σύνολο διαφοροποιημένων δεδομένων ήχου για Επεξεργασία Φυσικής Γλώσσας (NLP) που μιμείται συνομιλίες με πραγματικούς ανθρώπους που σας επιτρέπουν να ζωντανέψετε την τεχνητή νοημοσύνη σας. Με τη βαθιά κατανόησή μας, σας βοηθάμε να δημιουργήσετε και να τοποποιήσετε μοντέλα ομιλίας με δυνατότητα AI, με μέγιστη ακρίβεια με πλούσια και δομημένα σύνολα δεδομένων σε πολλές γλώσσες από όλο τον κόσμο. Προσφέρουμε πολύγλωσσες υπηρεσίες συλλογής ήχου, μεταγραφής ήχου και σχολιασμού ήχου με βάση τις απαιτήσεις σας, ενώ προσαρμόζουμε πλήρως την επιθυμητή πρόθεση, τις εκφωνήσεις και τη δημογραφική κατανομή.
Συλλογή σεναρίου λόγου
Συλλογή αυθόρμητου λόγου
Μεταγραφή δεδομένων ήχου
Επισήμανση δεδομένων & Σχολιασμός
Το Shaip σάς επιτρέπει να εκπαιδεύσετε με ακρίβεια την Πλατφόρμα Συνομιλίας AI ώστε να μπορεί:
- Μιλήστε απρόσκοπτα, στείλτε μήνυμα κειμένου και συνομιλήστε σε πολλά κανάλια.
- Μάθετε από τις υπάρχουσες αλληλεπιδράσεις με τη μορφή συνομιλίας, μεταγραφών φωνής, συναλλαγών κ.λπ. και προτείνετε και συνομιλήστε, με βάση αυτά τα μαθήματα.
- Κατανοήστε την πρόθεση πίσω από την ανθρώπινη ομιλία και αφαιρέστε την ασάφεια στην κατανόηση της ανθρώπινης γλώσσας.
- Αλληλεπιδρά μαζί σας σε ατομική βάση και μπορεί να εκπαιδευτεί ώστε να αναγνωρίζει χρήστες και να θυμάται προηγούμενες συνομιλίες.
Ένας παγκόσμιος ηγέτης στα δεδομένα εκπαίδευσης τεχνητής νοημοσύνης συνομιλίας
Ώρες δεδομένων ήχου σε 100+ γλώσσες – Προέλευση, μεταγραφή και σχολιασμό
Αδειοδότηση δεδομένων ομιλίας
20+ ώρες Δεδομένων ομιλίας σε 40+ γλώσσες και διαλέκτους που καλύπτουν μια σειρά από 55+ θέματα από διαφορετικούς τομείς, π.χ. Τηλεφωνικό κέντρο, Συζητήσεις, Γενικές συνομιλίες, Ομιλίες, podcast κ.λπ.
Συλλογή δεδομένων ομιλίας
Συλλέξτε δεδομένα ήχου και ομιλίας (μονόλογος, συνομιλία 2 ατόμων, συνομιλία ανθρώπου-bot) σε περισσότερες από 100 γλώσσες από όλο τον κόσμο, προσαρμοσμένα στις απαιτήσεις σας για τεχνητή νοημοσύνη.
Μεταγραφή δεδομένων ομιλίας
Cost-effective audio transcription or audio annotation through a strong workforce of 30,000 collaborators with guaranteed TAT, accuracy, and savings
Επιταχύνετε την ανάπτυξη της εφαρμογής Conversational AI με τις υπηρεσίες συλλογής ήχου και σχολιασμού ήχου
Το πλεονέκτημα Shaip
Scale
Μπορούμε να προμηθεύουμε, να κλιμακώνουμε και να παραδίδουμε δεδομένα ήχου από όλο τον κόσμο σε πολλές γλώσσες και διαλέκτους με βάση τις απαιτήσεις σας.
Εμπειρογνωμοσύνη
Έχουμε τη σωστή τεχνογνωσία σχετικά με την ακριβή και αμερόληπτη συλλογή δεδομένων, τη μεταγραφή και τον σχολιασμό χρυσού προτύπου.
Δίκτυο
Ένα δίκτυο 30,000+ πιστοποιημένων συνεργατών, στους οποίους μπορούν να ανατεθούν γρήγορα εργασίες συλλογής δεδομένων για τη δημιουργία μοντέλων εκπαίδευσης τεχνητής νοημοσύνης και κλιμάκωσης υπηρεσιών.
Τεχνολογία
Διαθέτουμε μια πλατφόρμα πλήρως βασισμένη σε AI με ιδιόκτητα εργαλεία και διαδικασίες για να αξιοποιήσουμε τη διαχείριση ροής εργασιών 24*7 όλο το εικοσιτετράωρο.
Ευκινησία
We adapt to changes in customer requirements very fast and help in accelerating AI development with quality speech data 5-10x faster than competition.
Ασφάλεια
Δίνουμε ύψιστη σημασία στην ασφάλεια και το απόρρητο των δεδομένων και είμαστε επίσης πιστοποιημένοι να χειριζόμαστε ευαίσθητα δεδομένα με υψηλή ρύθμιση.
Αυτό που κάνουμε καλύτερα
Δεδομένα εκπαίδευσης
Λάβετε δεδομένα με ετικέτα υψηλότερης ποιότητας σε ένα κλάσμα του χρόνου. Είναι χρυσού προτύπου, αξιόπιστο και έτοιμο να εκπαιδεύσει τα μοντέλα AI και ML για να επιτύχουν τα υψηλότερα επίπεδα απόδοσης.
Συλλογή δεδομένων, επισήμανση & σχολιασμός
Με το Shaip λαμβάνετε 15+ χρόνια αποδεδειγμένης εμπειρίας στη συλλογή, μεταγραφή και σχολιασμό ποιοτικών δεδομένων. Με το παγκόσμιο εργατικό δυναμικό μας μπορούμε να συλλέξουμε δεδομένα από όλο τον κόσμο και, στη συνέχεια, να παρέχουμε υπηρεσίες επισήμανσης και σχολιασμού με το τέλειο επίπεδο δεξιοτήτων και τεχνογνωσίας που απαιτούνται για τα δεδομένα σας.
Κατάλογοι Δεδομένων & Αδειοδότηση
Με το τεράστιο απόθεμά μας με εκατομμύρια σύνολα δεδομένων, μπορείτε να συλλέξετε και να οργανώσετε όπως απαιτείται. Στη συνέχεια, μπορούμε να αδειοδοτήσουμε αυτά τα ποιοτικά δεδομένα για τις συγκεκριμένες απαιτήσεις χρήσης AI και ML. Επιπλέον, αυτά τα δεδομένα είναι διαθέσιμα με ένα κλάσμα του κόστους, εάν τα δημιουργήσατε μόνοι σας.
Θέλετε να δημιουργήσετε το δικό σας σύνολο δεδομένων;
Επικοινωνήστε μαζί μας τώρα για να μάθετε πώς μπορούμε να συλλέξουμε ένα προσαρμοσμένο σύνολο δεδομένων για τη μοναδική σας λύση AI.