Σύνολο δεδομένων NLP για ML

15 καλύτερα σύνολα δεδομένων NLP για να σας εκπαιδεύσουν Μοντέλα Επεξεργασίας Φυσικής Γλώσσας

Η επεξεργασία φυσικής γλώσσας είναι ένα ζωτικό κομμάτι στη θωράκιση της μηχανικής εκμάθησης. Ωστόσο, χρειάζεται τεράστιες ποσότητες δεδομένων και εκπαίδευσης για να λειτουργήσει καλά το μοντέλο. Ένα από τα σημαντικά ζητήματα με το NLP είναι η έλλειψη συνόλων δεδομένων εκπαίδευσης που μπορούν να καλύψουν τεράστια πεδία ενδιαφέροντος εντός του τομέα.

Εάν ξεκινάτε σε αυτό το τεράστιο πεδίο, μπορεί να σας φανεί δύσκολο και πρακτικά περιττό να δημιουργήσετε τα σύνολα δεδομένων σας. Ειδικά όταν υπάρχει ποιότητα NLP διαθέσιμα σύνολα δεδομένων για την εκπαίδευση των μοντέλων μηχανικής εκμάθησης με βάση τον σκοπό τους.

Η αγορά NLP αναμένεται να αυξηθεί με CAGR 11.7% το 2018 και το 2026 για να φτάσει 28.6 δισεκατομμύρια δολάρια μέχρι το 2026. Χάρη στην αυξανόμενη ζήτηση για NLP και μηχανική μάθηση, είναι πλέον δυνατό να αποκτήσετε ποιοτικά σύνολα δεδομένων που καλύπτουν την ανάλυση συναισθημάτων, τις κριτικές, την ανάλυση ερωτήσεων και απαντήσεων και τα σύνολα δεδομένων ανάλυσης ομιλίας.

Τα σύνολα δεδομένων NLP για τη μηχανική μάθηση που μπορείτε να εμπιστευτείτε

Δεδομένου ότι αμέτρητα σύνολα δεδομένων – εστιάζοντας σε διάφορες ανάγκες – κυκλοφορούν σχεδόν καθημερινά, μπορεί να είναι δύσκολο να αποκτήσετε πρόσβαση σε ποιοτικά, αξιόπιστα και καλύτερα σύνολα δεδομένων. Εδώ, σας κάναμε τη δουλειά πιο εύκολη, καθώς σας παρουσιάσαμε επιμελημένα σύνολα δεδομένων διαχωρισμένα με βάση τις κατηγορίες που εξυπηρετούν.

General

Το Spambase, που δημιουργήθηκε στα εργαστήρια Hewlett-Packard, διαθέτει μια συλλογή από ανεπιθύμητα μηνύματα ηλεκτρονικού ταχυδρομείου από τους χρήστες, με στόχο την ανάπτυξη ενός εξατομικευμένου φίλτρου ανεπιθύμητης αλληλογραφίας. Έχει περισσότερες από 4600 παρατηρήσεις από μηνύματα ηλεκτρονικού ταχυδρομείου, εκ των οποίων σχεδόν οι 1820 είναι ανεπιθύμητα.

Το σύνολο δεδομένων Enron διαθέτει μια τεράστια συλλογή από ανώνυμα «πραγματικά» email διαθέσιμα στο κοινό για την εκπαίδευση των μοντέλων μηχανικής εκμάθησης. Διαθέτει περισσότερα από μισό εκατομμύριο email από περισσότερους από 150 χρήστες, κυρίως ανώτατα στελέχη της Enron. Αυτό το σύνολο δεδομένων είναι διαθέσιμο για χρήση τόσο σε δομημένη όσο και σε μη δομημένη μορφή. Για να βελτιώσετε τα μη δομημένα δεδομένα, πρέπει να εφαρμόσετε τεχνικές επεξεργασίας δεδομένων.

Το σύνολο δεδομένων Recommender System είναι μια τεράστια συλλογή από διάφορα σύνολα δεδομένων που περιέχουν διαφορετικά χαρακτηριστικά όπως:

  • Αξιολογήσεις προϊόντος
  • Αξιολογήσεις με αστέρια
  • Παρακολούθηση ικανότητας
  • Στοιχεία τραγουδιού
  • Κοινωνικά δίκτυα
  • Χρονοδιακόπτες
  • Αλληλεπιδράσεις χρήστη/αντικειμένου
  • Δεδομένα GPS

Ανάλυση συναισθημάτων

Ανάλυση συναισθημάτων
Το σύνολο δεδομένων Dictionaries for Movies and Finance παρέχει λεξικά για συγκεκριμένους τομείς για θετική ή αρνητική πολικότητα σε γεμίσματα Οικονομικών και κριτικές ταινιών. Αυτά τα λεξικά προέρχονται από γεμίσματα IMDb και US Form-8.

Το Sentiment 140 έχει περισσότερα από 160,000 tweets με διάφορα emoticon ταξινομημένα σε 6 διαφορετικά πεδία: ημερομηνία tweet, πολικότητα, κείμενο, όνομα χρήστη, αναγνωριστικό και ερώτημα. Αυτό το σύνολο δεδομένων σας δίνει τη δυνατότητα να ανακαλύψετε το συναίσθημα μιας επωνυμίας, ενός προϊόντος ή ακόμα και ενός θέματος με βάση τη δραστηριότητα του Twitter. Δεδομένου ότι αυτό το σύνολο δεδομένων δημιουργείται αυτόματα, σε αντίθεση με άλλα tweets με σχολιασμούς από ανθρώπους, ταξινομεί τα tweets με θετικά συναισθήματα και αρνητικά συναισθήματα ως δυσμενή.

  • Σύνολο δεδομένων συναισθήματος πολλών τομέων (Σύνδεσμος)

Αυτό το σύνολο δεδομένων συναισθήματος πολλών τομέων είναι ένα αποθετήριο κριτικών της Amazon για διάφορα προϊόντα. Ορισμένες κατηγορίες προϊόντων, όπως τα βιβλία, έχουν χιλιάδες κριτικές, ενώ άλλες έχουν μόνο μερικές εκατοντάδες κριτικές. Επιπλέον, οι κριτικές με αξιολογήσεις αστεριών μπορούν να μετατραπούν σε δυαδικές ετικέτες.

Ας συζητήσουμε σήμερα την απαίτησή σας για δεδομένα εκπαίδευσης AI.

Κείμενο

Το WiKi QA Corpus, που δημιουργήθηκε για να βοηθήσει την έρευνα ερωτήσεων και απαντήσεων σε ανοιχτούς τομείς, είναι ένα από τα πιο εκτεταμένα δημόσια διαθέσιμα σύνολα δεδομένων. Συγκεντρώθηκε από τα αρχεία καταγραφής ερωτημάτων της μηχανής αναζήτησης Bing και συνοδεύεται από ζεύγη ερωτήσεων και απαντήσεων. Έχει περισσότερες από 3000 ερωτήσεις και 1500 προτάσεις απαντήσεων με ετικέτα.

Το σύνολο δεδομένων Legal Case Reports έχει μια συλλογή 4000 νομικών υποθέσεων και μπορεί να χρησιμοποιηθεί για εκπαίδευση στην αυτόματη σύνοψη κειμένου και ανάλυση αναφορών. Κάθε έγγραφο, συνθηματικές φράσεις, κατηγορίες παραπομπών, φράσεις αναφοράς και άλλα χρησιμοποιούνται.

Το σύνολο δεδομένων Jeopardy είναι μια συλλογή με περισσότερες από 200,000 ερωτήσεις που εμφανίζονται στη δημοφιλή τηλεοπτική εκπομπή κουίζ που συγκεντρώθηκε από έναν χρήστη του Reddit. Κάθε σημείο δεδομένων ταξινομείται με βάση την ημερομηνία προβολής, τον αριθμό επεισοδίου, την τιμή, τον κύκλο και την ερώτηση/απάντησή του.

Ηχητική ομιλία

Ηχητική ομιλία Αυτό το σύνολο δεδομένων είναι τέλειο για όλους όσους θέλουν να υπερβούν την αγγλική γλώσσα. Αυτό το σύνολο δεδομένων έχει μια συλλογή άρθρων που ομιλούνται στα Ολλανδικά, τα Γερμανικά και τα Αγγλικά. Έχει μια μεγάλη γκάμα θεμάτων και σετ ηχείων που διαρκούν εκατοντάδες ώρες.

Το σύνολο δεδομένων HUB2000 στα αγγλικά του 5 έχει 40 μεταγραφές τηλεφωνικών συνομιλιών στην αγγλική γλώσσα. Τα δεδομένα παρέχονται από το Εθνικό Ινστιτούτο Προτύπων και Τεχνολογίας και η κύρια εστίασή του είναι η αναγνώριση της ομιλίας και η μετατροπή της ομιλίας σε κείμενο.

Το σύνολο δεδομένων LibriSpeech είναι μια συλλογή σχεδόν 1000 ωρών αγγλικής ομιλίας που λαμβάνονται και χωρίζονται σωστά ανά θέματα σε κεφάλαια από ηχητικά βιβλία, καθιστώντας το ένα τέλειο εργαλείο για την επεξεργασία φυσικής γλώσσας.

Κριτικές

Το σύνολο δεδομένων Yelp έχει μια τεράστια συλλογή από περίπου 8.5 εκατομμύρια κριτικές 160,000 και πλέον επιχειρήσεων, τις κριτικές τους και τα δεδομένα χρηστών. Οι κριτικές μπορούν να χρησιμοποιηθούν για την εκπαίδευση των μοντέλων σας στην ανάλυση συναισθημάτων. Επιπλέον, αυτό το σύνολο δεδομένων έχει επίσης περισσότερες από 200,000 φωτογραφίες που καλύπτουν οκτώ μητροπολιτικές τοποθεσίες.

Οι κριτικές IMDB είναι από τα πιο δημοφιλή σύνολα δεδομένων που περιέχουν πληροφορίες για τους ηθοποιούς, βαθμολογίες, περιγραφή και είδος για περισσότερες από 50 χιλιάδες ταινίες. Αυτό το σύνολο δεδομένων μπορεί να χρησιμοποιηθεί για τη δοκιμή και την εκπαίδευση των μοντέλων μηχανικής εκμάθησης.

  • Σύνολο δεδομένων κριτικών και αξιολογήσεων του Amazon (Σύνδεσμος)

Τα δεδομένα ανασκόπησης και αξιολόγησης του Amazon περιέχουν μια πολύτιμη συλλογή μεταδεδομένων και κριτικών διαφορετικών προϊόντων από την Amazon που συλλέχθηκαν από το 1996 έως το 2014 – περίπου 142.8 εκατομμύρια εγγραφές. Τα μεταδεδομένα περιλαμβάνουν την τιμή, την περιγραφή του προϊόντος, την επωνυμία, την κατηγορία και άλλα, ενώ οι κριτικές έχουν ποιότητα κειμένου, χρησιμότητα του κειμένου, αξιολογήσεις και άλλα.

Λοιπόν, σε ποιο σύνολο δεδομένων επιλέξατε για να εκπαιδεύσετε το μοντέλο μηχανικής εκμάθησης;

Καθώς προχωράμε, θα σας αφήσουμε με ένα υπέρ-άκρη. 

Βεβαιωθείτε ότι έχετε διαβάσει διεξοδικά το αρχείο README πριν επιλέξετε ένα σύνολο δεδομένων NLP για τις ανάγκες σας. Το σύνολο δεδομένων θα περιέχει όλες τις απαραίτητες πληροφορίες που μπορεί να χρειαστείτε, όπως το περιεχόμενο του συνόλου δεδομένων, τις διάφορες παραμέτρους βάσει των οποίων έχουν κατηγοριοποιηθεί τα δεδομένα και τις πιθανές περιπτώσεις χρήσης του συνόλου δεδομένων.

Ανεξάρτητα από τα μοντέλα που κατασκευάζετε, υπάρχει μια συναρπαστική προοπτική ενσωμάτωσης των μηχανημάτων μας πιο στενά και εγγενώς στη ζωή μας. Με το NLP, οι δυνατότητες για επιχειρήσεις, ταινίες, αναγνώριση ομιλίας, χρηματοδότηση και πολλά άλλα πολλαπλασιάζονται. Αν ψάχνετε για περισσότερα τέτοια σύνολα δεδομένων Κάντε κλικ ΕΔΩ.

κοινωνική Share

Μπορεί να σου αρέσει επίσης