Ανοίξτε τα σύνολα δεδομένων
Ανακαλύψτε σύνολα δεδομένων ανοιχτού κώδικα που σας βοηθούν να εκπαιδεύσετε μοντέλα ML
Σύνολα δεδομένων ανοιχτού κώδικα για να ξεκινήσετε με μοντέλα AI/ML
Η έξοδος των μοντέλων AI & ML είναι τόσο καλή όσο τα δεδομένα που χρησιμοποιείτε για να τα εκπαιδεύσετε – επομένως η ακρίβεια που εφαρμόζετε στη συγκέντρωση δεδομένων και η επισήμανση και η αναγνώριση αυτών των δεδομένων είναι σημαντική!
Έτσι, εάν θέλετε να ξεκινήσετε μια νέα πρωτοβουλία AI/ML και τώρα συνειδητοποιείτε γρήγορα ότι η εύρεση δεδομένων εκπαίδευσης υψηλής ποιότητας θα είναι μία από τις πιο απαιτητικές πτυχές του έργου σας, καθώς τα υψηλής ποιότητας σύνολα δεδομένων είναι το καύσιμο που διατηρεί το AI/ ML κινητήρας σε λειτουργία. Έχουμε συγκεντρώσει μια λίστα με ανοιχτά σύνολα δεδομένων που είναι δωρεάν για χρήση και εκπαίδευση των μοντέλων σας AI/ML του μέλλοντος.
Ειδίκευση | Τύπος δεδομένων | Όνομα συνόλου δεδομένων | Βιομηχανία / Τμ. | Σχολιασμός/Περίπτωση χρήσης | Περιγραφή | Σύνδεσμος |
---|---|---|---|---|---|---|
NLP | Κείμενο | Κριτικές Αμαζονίου | E-commerce | Ανάλυση συναισθημάτων | Ένα σύνολο 35 εκατομμυρίων κριτικών και αξιολογήσεων από τα τελευταία 18 χρόνια σε απλό κείμενο με λεπτομέρειες χρήστη και προϊόντος. | Σύνδεσμος |
NLP | Κείμενο | Δεδομένα συνδέσμων Wikipedia | General | Περισσότερα από 4 εκ. άρθρα που περιέχουν 1.9 δις. λέξη που αποτελείται από λέξεις και φράσεις καθώς και παραγράφους. | Σύνδεσμος | |
NLP | Κείμενο | Standford Sentiment Treebank | Ψυχαγωγία | Ανάλυση συναισθημάτων | Σύνολο δεδομένων σχολιασμών για πάνω από 10,000 κομμάτια κριτικών από το Rotten Tomatoes σε μορφή αρχείου HTML | Σύνδεσμος |
NLP | Κείμενο | Twitter US Airline Sentiment | Αερογραμμή | Ανάλυση συναισθημάτων | Τα tweets του 2015 στις US Airlines διχάστηκαν σε θετικούς, αρνητικούς και ουδέτερους τόνους | Σύνδεσμος |
CV | Εικόνα | Με την ετικέτα Faces In The Wild | General | Αναγνώριση προσώπου | Σύνολο δεδομένων που περιέχει πάνω από 13,000 περικομμένα πρόσωπα με δύο διαφορετικές εικόνες για εκπαίδευση στην αναγνώριση προσώπου. | Σύνδεσμος |
CV | Βίντεο, Εικόνα | Σύνολο δεδομένων UMDFaces | General | Αναγνώριση προσώπου | Σχολιασμένο σύνολο δεδομένων που περιέχει πάνω από 367,000 πρόσωπα από περισσότερα από 8,000 θέματα που περιλαμβάνει ακίνητες εικόνες και εικόνες βίντεο. | Σύνδεσμος |
CV | Εικόνα | Imagenet | General | Σύνολο δεδομένων με πάνω από 14 εκ. εικόνες σε διάφορες μορφές αρχείων, οργανωμένες σύμφωνα με την ιεραρχία του WordNet. | Σύνδεσμος | |
CV | Εικόνα | Ανοιχτές εικόνες της Google | General | 9 μν. Διευθύνσεις URL για την κατηγοριοποίηση δημόσιων εικόνων από περισσότερες από 6,000 κατηγορίες. | Σύνδεσμος | |
NLP | Κείμενο | Βάση δεδομένων MIMIC Critical Care | Φροντίδα Υγείας | Σύνολα δεδομένων Υπολογιστικής Φυσιολογίας με αποπροσδιορισμένα δεδομένα από 40,000 ασθενείς εντατικής θεραπείας. Το σύνολο δεδομένων περιέχει πληροφορίες όπως δημογραφικά στοιχεία, ζωτικά σημεία, φάρμακα κ.λπ. | Σύνδεσμος | |
CV | Εικόνα | Εθνικό Γραφείο Ταξιδιών και Τουρισμού των ΗΠΑ | Τουρισμός | Παρέχει ευρείες φωτογραφίες από την τουριστική βιομηχανία με αξιόπιστες βάσεις δεδομένων, καλύπτοντας θέματα όπως τα εισερχόμενα και εξερχόμενα ταξίδια και διεθνείς τουριστικές πληροφορίες. | Σύνδεσμος | |
NLP | Κείμενο | Υπουργείο Μεταφορών | Τουρισμός | Σύνολα δεδομένων τουρισμού που περιλαμβάνουν εθνικά πάρκα, μητρώα οδηγών, γέφυρες και πληροφορίες σιδηροδρόμων κ.λπ. | Σύνδεσμος | |
NLP | Ήχου | Flickr Audio Caption Corpus | General | Πάνω από 40 λεζάντες από 8,000 φωτογραφίες σχεδιασμένες για μοτίβα ομιλίας χωρίς επίβλεψη | Σύνδεσμος | |
NLP | Ήχου | Σύνολο δεδομένων εντολών ομιλίας | General | Αναγνώριση ομιλίας, Ηχητικός σχολιασμός | Εκφωνήσεις διάρκειας 1 δευτερολέπτου από χιλιάδες άτομα, για τη δημιουργία βασικής φωνητικής διεπαφής. | Σύνδεσμος |
NLP | Ήχου | Περιβαλλοντικά σύνολα δεδομένων ήχου | General | Σύνολα δεδομένων ήχου περιβάλλοντος που περιέχουν πίνακες ήχων συμβάντων και πίνακες ακουστικών σκηνών. | Σύνδεσμος | |
NLP | Κείμενο | Ανοιχτό σύνολο δεδομένων έρευνας COVID-19 | Φροντίδα Υγείας | Ιατρική AI | Ένα ερευνητικό σύνολο δεδομένων που αποτελείται από 45,000 επιστημονικά άρθρα σχετικά με τον COVID-19 και την οικογένεια των ιών του κορωνοϊού. | Σύνδεσμος |
CV | Εικόνα | Ανοικτό σύνολο δεδομένων Waymo | Αυτοκίνητο | Τα πιο διαφορετικά σύνολα δεδομένων αυτόνομης οδήγησης που κυκλοφόρησε η Waymo | Σύνδεσμος | |
CV | Εικόνα | Οπτικό γονιδίωμα | General | Λεζάντα εικόνας | Μια οπτική βάση γνώσεων με λεπτομερείς λεζάντες πάνω από 100 εικόνες | Σύνδεσμος |
CV | Εικόνα | Labelme | Δημόσια Κυβέρνηση | Μεγάλο σύνολο σχολιασμένων εικόνων προσβάσιμο μέσω του Labelme Matlab | Σύνδεσμος | |
CV | Εικόνα | Πηνίο 100 | General | Πάνω από 100 διαφορετικά αντικείμενα φωτογραφημένα από πολλαπλές γωνίες (π.χ. 360 μοιρών) | Σύνδεσμος | |
CV | Εικόνα | Σύνολο δεδομένων Stanford Dogs | General | Πάνω από 20,500+ εικόνες κατηγοριοποιημένες σε σύνολο εικόνων 120 διαφορετικών φυλών σκύλων | Σύνδεσμος | |
CV | Εικόνα | Αναγνώριση σκηνής εσωτερικού χώρου | General | Αναγνώριση σκηνής | Ένα συγκεκριμένο σύνολο δεδομένων που αποτελείται από 15620 εικόνες από 67 κατηγορίες εσωτερικού χώρου για τη δημιουργία μοντέλων αναγνώρισης σκηνής | Σύνδεσμος |
CV | Εικόνα | VisualQA | General | Ένα σύνολο δεδομένων που περιλαμβάνει ερωτήσεις ανοιχτού τύπου σχετικά με 265,016 φωτογραφίες που απαιτούν κατανόηση της όρασης και κατανόηση γλώσσας για να απαντηθούν. | Σύνδεσμος | |
NLP | Κείμενο | Σύνολο δεδομένων ανάλυσης συναισθήματος πολλών τομέων | E-commerce | Ανάλυση συναισθημάτων | Σύνολο δεδομένων που περιέχει κριτικές προϊόντων από την Amazon | Σύνδεσμος |
NLP | Κείμενο | Κριτικές στο IMDB | Ψυχαγωγία | Ανάλυση συναισθημάτων | Σύνολο δεδομένων που περιέχει 25000 κριτικές ταινιών για ανάλυση συναισθήματος | Σύνδεσμος |
NLP | Κείμενο | Συναίσθημα140 | General | Ανάλυση συναισθημάτων | Σύνολο δεδομένων που περιέχει 160,000 tweets με προκαταργημένα emoticon για μεγαλύτερη ακρίβεια | Σύνδεσμος |
NLP | Κείμενο | Blogger Corpus | General | Keyprase Analysis | Σύνολο δεδομένων που περιέχει 681,288 αναρτήσεις ιστολογίου από το blogger.com που αποτελείται από τουλάχιστον 200 εμφανίσεις ευρέως χρησιμοποιούμενων αγγλικών λέξεων. | Σύνδεσμος |
NLP | Κείμενο | Διακινδύνευση | General | Εκπαίδευση Chatbot | Σύνολο δεδομένων με περισσότερες από 200,000 ερωτήσεις που μπορούν να χρησιμοποιηθούν για την εκπαίδευση μοντέλων μηχανικής εκμάθησης ώστε να ανταποκρίνονται έξυπνα αυτόματα | Σύνδεσμος |
NLP | Κείμενο | Συλλογή ανεπιθύμητων μηνυμάτων SMS στα Αγγλικά | Telecom | Αναγνώριση ανεπιθύμητων μηνυμάτων | Ένα σύνολο δεδομένων ανεπιθύμητων μηνυμάτων που αποτελείται από 5,574 αγγλικά SMS | Σύνδεσμος |
NLP | Κείμενο | Κριτικές Yelp | General | Ανάλυση συναισθημάτων | Ένα σύνολο δεδομένων με πάνω από 5 εκατομμύρια κριτική που δημοσιεύτηκε από το Yelp | Σύνδεσμος |
NLP | Κείμενο | Spambase της UCI | Εταιρεία | Αναγνώριση ανεπιθύμητων μηνυμάτων | Ένα μεγάλο σύνολο δεδομένων ανεπιθύμητων μηνυμάτων ηλεκτρονικού ταχυδρομείου, χρήσιμο για το φιλτράρισμα ανεπιθύμητων μηνυμάτων. | Σύνδεσμος |
CV | Βίντεο, Εικόνα | Berkeley DeepDrive BDD100k | Αυτοκίνητο | Αυτόνομα οχήματα | Ένα από τα μεγαλύτερα δεδομένα για αυτοοδηγούμενη τεχνητή νοημοσύνη που περιέχει 1,100 ώρες οδηγικής εμπειρίας σε περισσότερα από 100,000 βίντεο από διαφορετικές ώρες της ημέρας από τη Νέα Υόρκη και την περιοχή του Σαν Φρανσίσκο. | Σύνδεσμος |
CV | Βίντεο | Κόμμα.ai | Αυτοκίνητο | Αυτόνομα οχήματα | Ένα σύνολο δεδομένων οδήγησης σε αυτοκινητόδρομο 7 ωρών που περιλαμβάνει πληροφορίες για την ταχύτητα, την επιτάχυνση, τη γωνία διεύθυνσης και τις συντεταγμένες GPS του αυτοκινήτου | Σύνδεσμος |
CV | Βίντεο, Εικόνα | Σύνολο δεδομένων Cityscape | Αυτοκίνητο | Σημασιολογική ετικέτα για αυτόνομο όχημα | Ένα σύνολο δεδομένων 5,000 σχολιασμών σε επίπεδο εικονοστοιχείων συν ένα μεγαλύτερο σύνολο 20,000 καρέ με ασθενή σχολιασμό σε στερεοφωνικές ακολουθίες βίντεο, που έχουν εγγραφεί από 50 διαφορετικές πόλεις | Σύνδεσμος |
CV | Εικόνα | Σύνολο δεδομένων KUL Belgium Traffic Sign | Αυτοκίνητο | Αυτόνομα οχήματα | Πάνω από 10000+ σχολιασμοί σημάτων κυκλοφορίας από την περιοχή της Φλάνδρας με βάση φυσικά διακριτά σήματα κυκλοφορίας από όλο το Βέλγιο. | Σύνδεσμος |
CV | Εικόνα | LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets | Αυτοκίνητο | Αυτόνομα οχήματα | Ένα πλούσιο σύνολο δεδομένων που περιέχει σήματα κυκλοφορίας, ανίχνευση οχημάτων, φανάρια και μοτίβα τροχιάς. | Σύνδεσμος |
CV | Εικόνα | CIFAR-10 | General | Αναγνώριση αντικειμένου | Ένα σύνολο δεδομένων που αποτελείται από 50,000 εικόνες και 10,000 δοκιμαστικές εικόνες (δηλαδή 60,000 έγχρωμες εικόνες 32×32 σε 10 κλάσεις) για αναγνώριση αντικειμένων. | Σύνδεσμος |
CV | Εικόνα | MNIST της μόδας | Μόδα | Ένα σύνολο δεδομένων εικόνων που αποτελείται από 60,000 παραδείγματα και ένα δοκιμαστικό σύνολο 10,000 παραδειγμάτων σε εικόνες 28×28 σε κλίμακα του γκρι, που σχετίζονται με μια ετικέτα από 10 κατηγορίες. | Σύνδεσμος | |
CV | Εικόνα | Σύνολο δεδομένων IMDB-Wiki | Ψυχαγωγία | Αναγνώριση προσώπου | Ένα μεγάλο σύνολο δεδομένων εικόνων προσώπων με ετικέτες όπως φύλο και ηλικία. Από τις συνολικά 523,051 εικόνες προσώπων, οι 460,723 εικόνες προέρχονται από 20,284 διασημότητες από το IMDB και 62,328 από τη Wikipedia. | Σύνδεσμος |
CV | Βίντεο | Kinetics-700 | General | Για κάθε κατηγορία δράσης, το σύνολο δεδομένων υψηλής ποιότητας αποτελείται από 650,000 βίντεο κλιπ και περιλαμβάνει 700 κατηγορίες ανθρώπινης δράσης με τουλάχιστον 600 βίντεο κλιπ. Εδώ, κάθε κλιπ διαρκεί περίπου 10 δευτερόλεπτα. | Σύνδεσμος | |
CV | Εικόνα | MS Coco | General | Ανίχνευση αντικειμένων, Τμηματοποίηση | Το σύνολο δεδομένων περιέχει 328 εικόνες και έχει συνολικά 2.5 Mn στιγμιότυπα και 91 εικόνες αντικειμένων για την εκπαίδευση μοντέλων ML σχετικά με τον εντοπισμό αντικειμένων μεγάλης κλίμακας, την τμηματοποίηση και τη δημιουργία λεζάντας δεδομένων. | Σύνδεσμος |
CV | Εικόνα | Σύνολο δεδομένων MPII Human Pose | General | Περίπου 25 φωτογραφίες που περιέχουν πάνω από 40 άτομα με σχολιασμένες αρθρώσεις σώματος περιλαμβάνονται στο σύνολο δεδομένων, το οποίο χρησιμοποιείται για την άρθρωση της εκτίμησης της ανθρώπινης στάσης. Συνολικά το σύνολο δεδομένων καλύπτει 410 ανθρώπινες δραστηριότητες και κάθε εικόνα παρέχεται με μια ετικέτα δραστηριότητας. | Σύνδεσμος | |
CV | Εικόνα | Άνοιγμα εικόνων | General | Σχολιασμοί τοποθεσίας αντικειμένων | Σύνολο δεδομένων εικόνων με περίπου 9 Mn εικόνες που σχολιάζονται με ετικέτες σε επίπεδο εικόνας, πλαίσια οριοθέτησης αντικειμένων, τμηματοποίηση αντικειμένων κ.λπ. Το σύνολο δεδομένων αποτελείται επίσης από 16 Mn. πλαίσια οριοθέτησης για 600 κατηγορίες αντικειμένων σε εικόνες 1.9 Mn. | Σύνδεσμος |
CV | Βίντεο | Apollo Open Platform, από την Baidu Inc, Κίνα | Αυτοκίνητο | Bounding Box, LiDAR | Ένα πλούσιο σύνολο δεδομένων αυτόνομης οδήγησης, που παρέχει στους προγραμματιστές τα απαιτούμενα δεδομένα στην αυτόνομη οδήγηση για να επιταχύνουν την αποτελεσματικότητα της καινοτόμου επανάληψης. | Σύνδεσμος |
CV | Βίντεο, Εικόνα | Argo, από την Argo, Η.Π.Α | Αυτοκίνητο | Bounding Box, Optical Flow, Behavioral Label, Semantic Label, Lane Marking | Ένα σύνολο δεδομένων αυτοοδήγησης που αποτελείται από χάρτες HD με γεωμετρικά και σημασιολογικά μεταδεδομένα, π.χ. κεντρικές γραμμές λωρίδας, κατεύθυνση λωρίδας και περιοχή οδήγησης. Το σύνολο δεδομένων χρησιμοποιείται για την εκπαίδευση μοντέλων ML, για τη δημιουργία πιο ακριβών αλγορίθμων αντίληψης, που θα βοηθήσουν τα αυτόνομα οχήματα να πλοηγούνται με ασφάλεια. | Σύνδεσμος |
CV | Βίντεο | Bosch Small Traffic Lights, από την Bosch North America Research | Αυτοκίνητο | Περιοριστικό κουτί | Ένα σύνολο δεδομένων που αποτελείται από 13427 εικόνες κάμερας με ανάλυση 1280*720 για τη δημιουργία συστήματος ανίχνευσης φωτεινών σηματοδοτών που βασίζεται στην όραση. Το σύνολο δεδομένων έχει περισσότερα από 24000 σχολιασμένα φανάρια. | Σύνδεσμος |
CV | Βίντεο | Brain4Cars, από το Cornell Univ., Ηνωμένες Πολιτείες | Αυτοκίνητο | Ετικέτα συμπεριφοράς | Ένα σύνολο δεδομένων που αποτελείται από μια σειρά αισθητήρων καμπίνας (κάμερες, αισθητήρες αφής, έξυπνες συσκευές κ.λπ.) προκειμένου να εξαχθούν χρήσιμα στατιστικά στοιχεία σχετικά με την εγρήγορση του οδηγού. Οι αλγόριθμοί μας ενδέχεται να ανιχνεύουν οδηγούς που νυστάζουν ή αποσπούν την προσοχή τους και να ενισχύουν τους απαραίτητους συναγερμούς για τη βελτίωση της προστασίας. | Σύνδεσμος |
CV | Εικόνα | CULane, από το Κινεζικό Παν. Χονγκ Κονγκ, Πεκίνο, Κίνα | Αυτοκίνητο | Σήμανση λωρίδας | Ένα σύνολο δεδομένων Computer Vision για τον εντοπισμό λωρίδων κυκλοφορίας, που αποτελείται από 55 ώρες βίντεο, εκ των οποίων εξήχθησαν 133,235 (88880 σετ εκπαίδευσης, 9675 σετ επικύρωσης και 34680 σετ δοκιμών) καρέ. Συλλέγεται από κάμερες που είναι τοποθετημένες σε έξι διαφορετικά οχήματα που οδηγούνται από διαφορετικούς οδηγούς στο Πεκίνο. | Σύνδεσμος |
CV | Βίντεο | DAVIS, από Παν. Ζυρίχης, ETH ¨ Ζυρίχη, Γερμανία, Ελβετία | Αυτοκίνητο | Ένα σύνολο δεδομένων εκπαίδευσης οδήγησης οχήματος από άκρο σε άκρο που χρησιμοποιεί κάμερα DAVIS event+frame. Τα δεδομένα αυτοκινήτου όπως το τιμόνι, το γκάζι, το GPS κ.λπ. χρησιμοποιούνται για την αξιολόγηση της συγχώνευσης δεδομένων πλαισίου και συμβάντων για εφαρμογές αυτοκινήτου. | Σύνδεσμος | |
CV | Βίντεο | DBNet, από Shanghai Jiao Tong Univ., Xiamen Univ., Κίνα | Αυτοκίνητο | Point Cloud, LiDAR | Δεδομένα οδήγησης 1000 KM πραγματικού κόσμου, που περιλαμβάνει ευθυγραμμισμένο βίντεο, σύννεφο σημείων, GPS και συμπεριφορά οδηγού για εις βάθος έρευνα σχετικά με τις οδηγικές συμπεριφορές. | Σύνδεσμος |
CV | Βίντεο | Dr(eye)ve, από Παν. της Μόντενα και του Ρέτζιο Εμίλια, Μόντενα, Ιταλία | Αυτοκίνητο | Ετικέτα συμπεριφοράς | Σύνολο δεδομένων που περιέχει 74 ακολουθίες βίντεο των 5 λεπτών η καθεμία, οι οποίες σχολιάστηκαν σε περισσότερα από 500,000 καρέ. Το σύνολο δεδομένων αποτελείται από τοποθεσίες με γεωγραφική αναφορά, την ταχύτητα οδήγησης, την πορεία, καθώς και από ετικέτες που καθηλώνουν το βλέμμα των οδηγών και τη χρονική τους ενσωμάτωση παρέχοντας χάρτες για συγκεκριμένες εργασίες. | Σύνδεσμος |
CV | Βίντεο | ETH Pedestrian (2009), από το ETH Zurich, Ζυρίχη, Ελβετία | General | Περιοριστικό κουτί | Ένα σύνολο δεδομένων 74 ακολουθιών βίντεο των 5 λεπτών η καθεμία, με σχολιασμούς σε περισσότερα από 500,000 καρέ. Το σύνολο δεδομένων παρέχει θέσεις με γεωγραφική αναφορά, ταχύτητα οδήγησης, κατεύθυνση, καθώς και ετικέτες καθηλώσεων βλέμματος για τους οδηγούς και τη χρονική τους ενσωμάτωση, συμπεριλαμβανομένων των χαρτών για συγκεκριμένες εργασίες. | Σύνδεσμος |
CV | Βίντεο | Ford (2009), από το Παν. του Μίσιγκαν, Μίσιγκαν, ΗΠΑ | Αυτοκίνητο | Bounding Box, , LiDAR | Ένα σύνολο δεδομένων που συλλέγεται από ένα αυτοματοποιημένο όχημα ξηράς οπλισμένο με έναν σαρωτή Velodyne 3D-lidar, δύο μπροστινά Rieg lidar, μια τεχνική και καταναλωτική μονάδα αδρανειακής μέτρησης (IMU) και ένα πανκατευθυντικό σύστημα κάμερας Point Grey Ladybug3. | Σύνδεσμος |
CV | Βίντεο | HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Γερμανία | General | Ένα σύνολο δεδομένων πολλών εκατομμυρίων καρέ από τραβηγμένες σκηνές βίντεο που περιλαμβάνει ένα ευρύ φάσμα διαφόρων καιρικών συνθηκών, πολλαπλά επίπεδα κίνησης και βάθους. καταστάσεις στην πόλη και την ύπαιθρο κ.λπ. | Σύνδεσμος | |
CV | Βίντεο | JAAD, από το Πανεπιστήμιο York, Ουκρανία, Καναδάς | Αυτοκίνητο | Bounding Box, Behavioral Label | "Το JAAD είναι ένα σύνολο δεδομένων για τη μελέτη της κοινής προσοχής στο πλαίσιο της αυτόνομης οδήγησης. Η εστίαση είναι στις συμπεριφορές πεζών και οδηγών στο σημείο διέλευσης και σε παράγοντες που τις επηρεάζουν. Για το σκοπό αυτό, το σύνολο δεδομένων JAAD παρέχει μια πλούσια σχολιασμένη συλλογή 346 σύντομων βίντεο κλιπ (μήκους 5-10 δευτερολέπτων) που εξάγονται από βίντεο 240 ωρών οδήγησης από διάφορες τοποθεσίες στη Βόρεια Αμερική και την Ανατολική Ευρώπη. Τα οριοθετημένα κουτιά με ετικέτες απόφραξης χρησιμοποιούνται για όλους τους πεζούς που κάνουν αυτό το σύνολο δεδομένων κατάλληλο για ανίχνευση πεζών. Οι σχολιασμοί συμπεριφοράς καθορίζουν συμπεριφορές για τους πεζούς που αλληλεπιδρούν με τον οδηγό ή απαιτούν την προσοχή του. Για κάθε βίντεο υπάρχουν πολλές ετικέτες (καιρός, τοποθεσίες, κ.λπ.) και ετικέτες συμπεριφοράς με χρονική σήμανση (π.χ. σταμάτησα, περπατώ, κοιτάζω κ.λπ.). Επιπλέον, υπάρχει μια λίστα με δημογραφικά χαρακτηριστικά παρέχεται για κάθε πεζό (π.χ. ηλικία, φύλο, κατεύθυνση κίνησης κ.λπ.) καθώς και λίστα με ορατά στοιχεία σκηνικού της κυκλοφορίας (π.χ. πινακίδα στάσης, σήμα κυκλοφορίας κ.λπ.) σε κάθε πλαίσιο.». | Σύνδεσμος |
CV | Βίντεο | KAIST Urban, από την KAIST, Νότια Κορέα | General | LiDAR | Η συλλογή δεδομένων περιλαμβάνει πολυάριθμους αισθητήρες θέσης για δεδομένα LiDAR και στερεοφωνικές εικόνες που στοχεύουν μια πολύ περίπλοκη αστική περιοχή (π.χ. μητροπόλεις, σύνθετα κτίρια και κατοικημένες περιοχές). | Σύνδεσμος |
CV | Εικόνα | LISA Traffic Sign, από Παν. Καλιφόρνια, Σαν Ντιέγκο, Ηνωμένες Πολιτείες | Αυτοκίνητο | Περιοριστικό κουτί | Το σύνολο δεδομένων που περιέχει βίντεο και σχολιασμένα πλαίσια που περιέχουν σήματα κυκλοφορίας των ΗΠΑ. Κυκλοφορεί σε δύο στάδια, ένα με μόνο τις εικόνες και ένα με φωτογραφίες και βίντεο. | Σύνδεσμος |
CV | Εικόνα | Mapillary Vistas, από τη Mapillary AB, Global | Αυτοκίνητο | Σημασιολογική ετικέτα | Ένα σύνολο δεδομένων φωτογραφίας σε επίπεδο δρόμου για την ερμηνεία σκηνών του δρόμου σε όλο τον κόσμο με ανθρώπινους σχολιασμούς με ακρίβεια pixel και συγκεκριμένο παράδειγμα. | Σύνδεσμος |
CV | Βίντεο, Εικόνα | Semantic KITTI, από το Πανεπιστήμιο της Βόννης, Καρλσρούη, Γερμανία | Αυτοκίνητο | Bounding Box, Semantic Label, Lane Marking | Ένα σύνολο δεδομένων που περιλαμβάνει έναν σημασιολογικό σχολιασμό για όλες τις ακολουθίες αναφοράς Odometry Benchmark. Το σύνολο δεδομένων σχολιάζει διάφορους τύπους κινούμενης και μη κίνησης: συμπεριλαμβανομένων αυτοκινήτων, ποδηλάτων, ποδηλάτων, πεζών και ποδηλατών, επιτρέποντας τη μελέτη αντικειμένων στη σκηνή. | Σύνδεσμος |
CV | Βίντεο | Stanford Track, από Stanford Univ., Ηνωμένες Πολιτείες | Αυτοκίνητο | Ανίχνευση αντικειμένων / Ταξινόμηση LiDAR, GPS, Κωδικοί | Ένα σύνολο δεδομένων που περιλαμβάνει 14,000 ίχνη αντικειμένων με ετικέτα, όπως παρατηρούνται από ένα Velodyne HDL-64E S2 LIDAR σε φυσικές σκηνές δρόμων, το οποίο μπορεί να χρησιμοποιηθεί για την εκπαίδευση μοντέλων μηχανικής εκμάθησης για Τρισδιάστατη Αναγνώριση Αντικειμένων. | Σύνδεσμος |
CV | Βίντεο, Εικόνα | The Boxy Dataset, από την Bosch, Ηνωμένες Πολιτείες | Αυτοκίνητο | Bounding Box / Ανίχνευση οχήματος | Ένα σύνολο δεδομένων ανίχνευσης οχημάτων που περιέχει 2 εκατομμύρια σχολιασμένα οχήματα για εκπαίδευση και ανάλυση στρατηγικών αναγνώρισης αντικειμένων για αυτοοδηγούμενα αυτοκίνητα σε αυτοκινητόδρομους. | Σύνδεσμος |
CV | Βίντεο | Αυτοκινητόδρομος TME, από το Τσεχικό Τεχνικό Πανεπιστήμιο, Βόρεια Ιταλία | Αυτοκίνητο | Περιοριστικό κουτί | Ένα σύνολο δεδομένων 28 κλιπ για συνολικά 27 λεπτά διαιρούμενο σε 30,000+ πλαίσια σχολιασμού οχήματος. Ο σχολιασμός δημιουργήθηκε ημιαυτόματα χρησιμοποιώντας τα δεδομένα από το σαρωτή λέιζερ. Αυτή η συλλογή δεδομένων περιλαμβάνει μεταβλητά σενάρια κυκλοφορίας, αριθμό λωρίδων, καμπυλότητα δρόμου και φωτισμό, που καλύπτουν μεγάλο μέρος των συνθηκών της πλήρους απόκτησης. | Σύνδεσμος |
CV | Βίντεο | Unsupervised Llamas, από την Bosch, Ηνωμένες Πολιτείες | Αυτοκίνητο | Σήμανση λωρίδας, LiDAR | Το σύνολο δεδομένων Unsupervised Llamas σχολιάστηκε με τη δημιουργία χαρτών αυτόματης οδήγησης υψηλής ευκρίνειας, συμπεριλαμβανομένων των δεικτών λωρίδας που βασίζονται στο Lidar. Το αυτόνομο όχημα μπορεί να ευθυγραμμιστεί με αυτούς τους χάρτες και οι σημάνσεις λωρίδας προβάλλονται στο πλαίσιο της κάμερας. Η τρισδιάστατη προβολή βελτιστοποιείται ελαχιστοποιώντας την απόκλιση μεταξύ των ήδη παρατηρούμενων και προβλεπόμενων δεικτών εικόνας. | Σύνδεσμος |
NLP | Ήχου | Facebook AI Multilingual LibriSpeech (MLS) | General | Ηχητικός σχολιασμός / Αναγνώριση ομιλίας | Το Facebook AI Multilingual LibriSpeech (MLS), είναι ένα μεγάλης κλίμακας σύνολο δεδομένων ανοιχτού κώδικα που έχει σχεδιαστεί για να βοηθήσει στην προώθηση της έρευνας στην αυτόματη αναγνώριση ομιλίας (ASR). Το MLS παρέχει περισσότερες από 50,000 ώρες ήχου σε 8 γλώσσες: Αγγλικά, Γερμανικά, Ολλανδικά, Γαλλικά, Ισπανικά, Ιταλικά, Πορτογαλικά και Πολωνικά. | Σύνδεσμος |