Now Get 50% OFF* on Conversational AI Off-the-Shelf Datasets

Speech & Audio dataset for chatbots, voice assistants, speech-enabled devices.

*Limited Period Offer

  • Με την εγγραφή, συμφωνώ με τον Shaip Πολιτική Προσωπικών Δεδομένων και Όρους Χρήσης και να παρέχω τη συγκατάθεσή μου για τη λήψη επικοινωνίας μάρκετινγκ B2B από τη Shaip.

Εμπιστευμένοι από τους ηγέτες του κλάδου

ΠεριγραφήOff-the-shelf Language DatasetCall Center Conversations 8khz*Generic Conversations 8khz*Media & Podcasts 16khz*Utterance/ Scripted Monologue 16khz*Total Volume in HoursDialects coveredΜορφή ήχουText Transcription FormatΧρήση θήκηςΠηγήCTA
ΟμιλίαΑφρικανικάAfrikaans Audio Dataset6009001500Afrikaans spoken in Africa. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίααραβικόςArabic Audio Dataset80015002300Arabic from Gulf countries. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίακινέζικοChinese Audio Dataset20002000Chinese from China. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΔανέζικαDanish Audio Dataset40060020003000Danish from Denmark. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΟλλανδικάDutch Audio Dataset20002000Dutch from Netherland. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαEnglish - AAVE AccentEnglish - AAVE (African American Vernacular English) Audio Dataset5005001000The vernacular variety (sometimes known as AAVE, typically spoken by the vast majority of working- and middle-class African Americans) and the more standard variety (typically spoken by middle-class African Americans in formal and public situations) but with a stronger emphasis on the vernacular.. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαEnglish - Boston/New York AccentEnglish - Boston/New York Audio Dataset225225350800This is a collection of several regional accents spoken in and around the cities of Boston, New York, and Philadelphia. These accents might sound similar to non-locals, but distinct from other American accents. Despite some local vocabulary that is different from other parts of the English-speaking world, these accents are mutually intelligible with English spoken elsewhere.. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαEnglish - Chinese AccentEnglish - Chinese Accented Audio Dataset150300450Speakers who speak Chinese as their first language and who moved/immigrated to the United States as teenagers/adults and learned English as their second language.. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαEnglish - Deep South AccentEnglish - Deep South Audio Dataset2752754501000Speakers from (i) Texas; (ii) North Carolina, South Carolina, Georgia; (iii) New Orleans; (iv) Florida panhandle; (v) Tennessee, Arkansas, Michigan.. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαEnglish - Hispanic AccentEnglish - Hispanic Accented Audio Dataset400400800Hispanic English refers to the varieties of US English spoken by Hispanic Americans of diverse national heritage. The main focus was on Mexican Americans, speakers of different national origins (e.g. Mexico, Puerto Rico, Dominican Republic, Ecuador, Cuba, etc) and from different regions (e.g. California, New York, Florida) as well. Speakers included were who speak Spanish as a first language as well as speakers of Hispanic origin who speak Spanish has a heritage language.. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαEnglish - New Zealand AccentEnglish - New Zealand Audio Dataset2507501000Speakers on both islands, including a mix of younger speakers (<40 years old) and older speakers (>40 years old) in equal proportions.. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαEnglish - Singapore AccentEnglish - Singapore Audio Dataset4006001000Both Standard Singapore English and Colloquial Singapore English. Singaporeans of different ethnic backgrounds (e.g. Chinese, Malay, Indian, etc) and of different educational levels.. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαEnglish - South Africa AccentEnglish - South Africa Audio Dataset4006001000Representatives from various socioeconomic classes and ethnological backgrounds (e.g. South Africans of European, African, Indian, or mixed background).. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαEnglish - Irish AccentEnglish - Irish Audio Dataset500500English spoken in Ireland. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαEnglish - Scottish AccentEnglish - Scottish Audio Dataset800800English spoken by Scottish. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαEnglish - Welsh AccentEnglish - Welsh Audio Dataset800800Ουαλικά αγγλικά. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΓαλλικά ΚαναδάFrench Canadian Audio Dataset10001000Καναδικό γαλλικό. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΕβραϊκάHebrew Audio Dataset7507501500Hebrew in Israel. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΙνδονησιακάIndonesian Audio Dataset100010002000Μπαχάσα Ινδονησιακά. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΙαπωνικάJapanese Audio Dataset20002000Japanese from Japan. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΚορεάτικαKorean Audio Dataset10020015001800Speakers spread throughout South Korea.. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαmalayMalay Audio Dataset5005001000Malay in Malaysia. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΙσπανικά ΜεξικούMexican Spanish Audio Dataset12501250Mexican from Mexico. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΠολωνικάPolish Audio Dataset25020002250Polish from Poland. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΡωσικάRussian Audio Dataset20002000Russian from Russia. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΣουαχίλιSwahili Audio Dataset3506501000South African and Kenyan Swahili. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΣουηδικάSwedish Audio Dataset3506501000Swedish in Sweden. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΚινέζοι της ΤαϊβάνTaiwan Chinese Audio Dataset10001000Chinese from Taiwan. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΤαϊλανδέζικαThai Audio Dataset350450800An informal register used between friends,. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΤουρκικήTurkish Audio Dataset20002000Turkish from Turkey. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΒιετναμέζικαVietnamese Audio Dataset6004001000Northern (e.g.,Hanoi), Central, and Southern (e.g., Ho Chi Minh City).. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΙνδικάHindi Audio Dataset80020002800Hindi in India specifically in North, East and West regions. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαHinglishIndian English Audio Dataset300500800Collected from urban Indian cities that are financial hubs of the country due to growing economic opportunities. Such places can be Noida, Delhi, Dehradun, Chandigarh, Mumbai, Kolkata, Bangalore, Pune, Chennai, Hyderabad, etc. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΑγγλικάEnglish Audio Dataset700700. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΚανάνταKannada Audio Dataset6010040200Kannada from Karnataka, India. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΜαλαγιαλαμικάMalayalam Audio Dataset6010040200Malayalam from Kerala, Lakshadweep and Puducherry. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαOriyaOriya Audio Dataset6010040200Oriya from parts of Odisha, West Bengal, Jharkhand and Chhattisgarh. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαPunjabiPunjabi Audio Dataset6010040200Punjabi from Punjab, India. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΤαμίλTamil Audio Dataset60100240400Tamil from Tamil Nadu, India. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαteluguTelugu Audio Dataset1009509502000Telugu from Andhra Pradesh, India. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαbengaliBengali Audio Dataset6010040200Bengali from West Bengal, India. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαgujaratiGujarati Audio Dataset6010040200Gujarati from Gujarat, India. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΜαράθιMarathi Audio Dataset6010040200Marathi from Maharashtra, India. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ
ΟμιλίαΑσαμικάAssamese Audio Dataset6010040200Assamese from Asssam, India. Wav. jsonASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language ModellingΣάιπ

Βαθιά εξειδίκευση στο Conversational AI

Η τεχνητή νοημοσύνη συνομιλίας ή τα Chatbots ή οι εικονικοί / ψηφιακοί βοηθοί είναι τόσο έξυπνοι όσο η τεχνολογία και τα δεδομένα πίσω από αυτά. Στη Shaip, σας προσφέρουμε ένα ευρύ σύνολο διαφοροποιημένων δεδομένων ήχου για Επεξεργασία Φυσικής Γλώσσας (NLP) που μιμείται συνομιλίες με πραγματικούς ανθρώπους που σας επιτρέπουν να ζωντανέψετε την τεχνητή νοημοσύνη σας. Με τη βαθιά κατανόησή μας, σας βοηθάμε να δημιουργήσετε και να τοποποιήσετε μοντέλα ομιλίας με δυνατότητα AI, με μέγιστη ακρίβεια με πλούσια και δομημένα σύνολα δεδομένων σε πολλές γλώσσες από όλο τον κόσμο. Προσφέρουμε πολύγλωσσες υπηρεσίες συλλογής ήχου, μεταγραφής ήχου και σχολιασμού ήχου με βάση τις απαιτήσεις σας, ενώ προσαρμόζουμε πλήρως την επιθυμητή πρόθεση, τις εκφωνήσεις και τη δημογραφική κατανομή.

Συλλογή σεναρίου λόγου

Συλλογή αυθόρμητου λόγου

Μεταγραφή δεδομένων ήχου

Επισήμανση δεδομένων & Σχολιασμός

Το Shaip σάς επιτρέπει να εκπαιδεύσετε με ακρίβεια την Πλατφόρμα Συνομιλίας AI ώστε να μπορεί:

  • Μιλήστε απρόσκοπτα, στείλτε μήνυμα κειμένου και συνομιλήστε σε πολλά κανάλια.
  • Μάθετε από τις υπάρχουσες αλληλεπιδράσεις με τη μορφή συνομιλίας, μεταγραφών φωνής, συναλλαγών κ.λπ. και προτείνετε και συνομιλήστε, με βάση αυτά τα μαθήματα.
  • Κατανοήστε την πρόθεση πίσω από την ανθρώπινη ομιλία και αφαιρέστε την ασάφεια στην κατανόηση της ανθρώπινης γλώσσας.
  • Αλληλεπιδρά μαζί σας σε ατομική βάση και μπορεί να εκπαιδευτεί ώστε να αναγνωρίζει χρήστες και να θυμάται προηγούμενες συνομιλίες.

Ένας παγκόσμιος ηγέτης στα δεδομένα εκπαίδευσης τεχνητής νοημοσύνης συνομιλίας

Ώρες δεδομένων ήχου σε 100+ γλώσσες – Προέλευση, μεταγραφή και σχολιασμό

Αδειοδότηση δεδομένων ομιλίας

20+ ώρες Δεδομένων ομιλίας σε 40+ γλώσσες και διαλέκτους που καλύπτουν μια σειρά από 55+ θέματα από διαφορετικούς τομείς, π.χ. Τηλεφωνικό κέντρο, Συζητήσεις, Γενικές συνομιλίες, Ομιλίες, podcast κ.λπ.

Συλλογή δεδομένων ομιλίας

Συλλέξτε δεδομένα ήχου και ομιλίας (μονόλογος, συνομιλία 2 ατόμων, συνομιλία ανθρώπου-bot) σε περισσότερες από 100 γλώσσες από όλο τον κόσμο, προσαρμοσμένα στις απαιτήσεις σας για τεχνητή νοημοσύνη.

Μεταγραφή δεδομένων ομιλίας

Cost-effective audio transcription or audio annotation through a strong workforce of 30,000 collaborators with guaranteed TAT, accuracy, and savings

Επιταχύνετε την ανάπτυξη της εφαρμογής Conversational AI με τις υπηρεσίες συλλογής ήχου και σχολιασμού ήχου

Το πλεονέκτημα Shaip

Scale​

Μπορούμε να προμηθεύουμε, να κλιμακώνουμε και να παραδίδουμε δεδομένα ήχου από όλο τον κόσμο σε πολλές γλώσσες και διαλέκτους με βάση τις απαιτήσεις σας.

Εμπειρογνωμοσύνη

Έχουμε τη σωστή τεχνογνωσία σχετικά με την ακριβή και αμερόληπτη συλλογή δεδομένων, τη μεταγραφή και τον σχολιασμό χρυσού προτύπου.

Δίκτυο

Ένα δίκτυο 30,000+ πιστοποιημένων συνεργατών, στους οποίους μπορούν να ανατεθούν γρήγορα εργασίες συλλογής δεδομένων για τη δημιουργία μοντέλων εκπαίδευσης τεχνητής νοημοσύνης και κλιμάκωσης υπηρεσιών.

Τεχνολογία

Διαθέτουμε μια πλατφόρμα πλήρως βασισμένη σε AI με ιδιόκτητα εργαλεία και διαδικασίες για να αξιοποιήσουμε τη διαχείριση ροής εργασιών 24*7 όλο το εικοσιτετράωρο.

Ευκινησία

We adapt to changes in customer requirements very fast and help in accelerating AI development with quality speech data 5-10x faster than competition.

Ασφάλεια

Δίνουμε ύψιστη σημασία στην ασφάλεια και το απόρρητο των δεδομένων και είμαστε επίσης πιστοποιημένοι να χειριζόμαστε ευαίσθητα δεδομένα με υψηλή ρύθμιση.

Αυτό που κάνουμε καλύτερα

Δεδομένα εκπαίδευσης

Λάβετε δεδομένα με ετικέτα υψηλότερης ποιότητας σε ένα κλάσμα του χρόνου. Είναι χρυσού προτύπου, αξιόπιστο και έτοιμο να εκπαιδεύσει τα μοντέλα AI και ML για να επιτύχουν τα υψηλότερα επίπεδα απόδοσης.

Learn More

Συλλογή δεδομένων, επισήμανση & σχολιασμός

Με το Shaip λαμβάνετε 15+ χρόνια αποδεδειγμένης εμπειρίας στη συλλογή, μεταγραφή και σχολιασμό ποιοτικών δεδομένων. Με το παγκόσμιο εργατικό δυναμικό μας μπορούμε να συλλέξουμε δεδομένα από όλο τον κόσμο και, στη συνέχεια, να παρέχουμε υπηρεσίες επισήμανσης και σχολιασμού με το τέλειο επίπεδο δεξιοτήτων και τεχνογνωσίας που απαιτούνται για τα δεδομένα σας.

Learn More

Κατάλογοι Δεδομένων & Αδειοδότηση

Με το τεράστιο απόθεμά μας με εκατομμύρια σύνολα δεδομένων, μπορείτε να συλλέξετε και να οργανώσετε όπως απαιτείται. Στη συνέχεια, μπορούμε να αδειοδοτήσουμε αυτά τα ποιοτικά δεδομένα για τις συγκεκριμένες απαιτήσεις χρήσης AI και ML. Επιπλέον, αυτά τα δεδομένα είναι διαθέσιμα με ένα κλάσμα του κόστους, εάν τα δημιουργήσατε μόνοι σας.

Learn More

Θέλετε να δημιουργήσετε το δικό σας σύνολο δεδομένων;

Επικοινωνήστε μαζί μας τώρα για να μάθετε πώς μπορούμε να συλλέξουμε ένα προσαρμοσμένο σύνολο δεδομένων για τη μοναδική σας λύση AI.