Σχολιασμός Δεδομένων – NER

Σχολιασμός Αναγνώρισης Ονομασίας Οντότητας (NER) για κλινικό NLP

Σχολιασμός Ner

Καλά σχολιασμένα και χρυσά πρότυπα δεδομένα κλινικού κειμένου για εκπαίδευση/ανάπτυξη κλινικού NLP για τη δημιουργία της επόμενης έκδοσης του Healthcare API

Η σημασία της κλινικής επεξεργασίας φυσικής γλώσσας (NLP) αναγνωρίζεται όλο και περισσότερο τα τελευταία χρόνια και έχει οδηγήσει σε μεταμορφωτικές προόδους. Το Clinical NLP επιτρέπει στους υπολογιστές να κατανοήσουν το πλούσιο νόημα που κρύβεται πίσω από τη γραπτή ανάλυση ενός ασθενούς από έναν γιατρό. Το κλινικό NLP μπορεί να έχει περιπτώσεις πολλαπλών χρήσεων που κυμαίνονται από αναλύσεις υγείας πληθυσμού έως βελτίωση της κλινικής τεκμηρίωσης έως αναγνώριση ομιλίας έως αντιστοίχιση κλινικών δοκιμών κ.λπ.

Για να αναπτύξετε και να εκπαιδεύσετε οποιαδήποτε κλινικά μοντέλα NLP, χρειάζεστε ακριβή, αμερόληπτα και καλά σχολιασμένα σύνολα δεδομένων σε τεράστιους όγκους. Το Gold Standard και τα διάφορα δεδομένα βοηθούν στη βελτίωση της ακρίβειας και της ανάκλησης των κινητήρων NLP.

Τόμος

Αρ. σχολιασμένων εγγράφων
10
Αριθμός σελίδων με σχολιασμό
10 +
Διάρκεια έργου
< 1 μήνες

Προκλήσεις

Ο πελάτης ανυπομονούσε να εκπαιδεύσει και να αναπτύξει την Πλατφόρμα Επεξεργασίας Φυσικής Γλώσσας (NLP) με νέους τύπους οντοτήτων και επίσης να προσδιορίσει τη σχέση μεταξύ των διαφόρων τύπων. Επιπλέον, αξιολογούσαν προμηθευτές που προσέφεραν υψηλή ακρίβεια, συμμορφώνονταν με τους τοπικούς νόμους και διέθεταν τις απαιτούμενες ιατρικές γνώσεις για να σχολιάσουν ένα μεγάλο σύνολο δεδομένων.

Η εργασία ήταν να επισημανθούν και να σχολιαστούν έως και 20,000 επισημασμένα αρχεία, συμπεριλαμβανομένων έως και 15,000 επισημασμένων εγγραφών από δεδομένα εσωτερικού και εξωτερικού νοσοκομειακού μητρώου υγείας (EHR) και έως 5,000 επισημασμένων αρχείων από μεταγραμμένες ιατρικές υπαγορεύσεις, εξίσου κατανεμημένα σε (1) γεωγραφικές αποδείξεις 2) διαθέσιμες ιατρικές ειδικότητες.

Έτσι, για να συνοψίσουμε τις προκλήσεις:

  • Οργανώστε ετερογενή κλινικά δεδομένα για την εκπαίδευση της πλατφόρμας NLP
  • Προσδιορίστε τη σχέση μεταξύ διαφορετικών οντοτήτων για την εξαγωγή κρίσιμων πληροφοριών
  • Ικανότητα και τεχνογνωσία για την επισήμανση / σχολιασμό ενός ευρέος συνόλου πολύπλοκων κλινικών εγγράφων
  • Διατήρηση του κόστους υπό έλεγχο για την επισήμανση / σχολιασμό μεγάλου όγκου δεδομένων για την εκπαίδευση του κλινικού NLP εντός του καθορισμένου χρονικού πλαισίου
  • Σημειώστε οντότητες στο κλινικό σύνολο δεδομένων που αποτελείται από 75% εγγραφές EHR και 25% Υπαγόρευση.
  • Αποαναγνώριση δεδομένων κατά τη στιγμή της παράδοσης

Άλλες προκλήσεις στην κατανόηση της φυσικής γλώσσας

Ασάφεια

Οι λέξεις είναι μοναδικές αλλά μπορούν να έχουν διαφορετικές σημασίες ανάλογα με το πλαίσιο με αποτέλεσμα ασάφεια στο λεξιλογικό, συντακτικό και σημασιολογικό επίπεδο.

Συνωνυμία

Μπορούμε να εκφράσουμε την ίδια ιδέα με διαφορετικούς όρους που είναι επίσης συνώνυμοι: μεγάλο και μεγάλο σημαίνουν το ίδιο όταν περιγράφουν ένα αντικείμενο.

Συντοπισμός

Η διαδικασία εύρεσης όλων των εκφράσεων που αναφέρονται στην ίδια οντότητα σε ένα κείμενο ονομάζεται ανάλυση coreference.

Προσωπικότητα, Πρόθεση, Συναισθήματα

Ανάλογα με την προσωπικότητα του ομιλητή, την πρόθεση και τα συναισθήματά του, μπορεί να εκφραστούν διαφορετικά για την ίδια ιδέα.

Λύση

Διατίθεται μεγάλος όγκος ιατρικών δεδομένων και γνώσεων, με τη μορφή ιατρικών εγγράφων, αλλά είναι κυρίως σε μη δομημένη μορφή. Με τον σχολιασμό ιατρικής οντότητας / τον σχολιασμό με την αναγνώριση οντοτήτων με όνομα (NER), ο Shaip μπόρεσε να μετατρέψει μη δομημένα δεδομένα σε δομημένη μορφή, σχολιάζοντας χρήσιμες πληροφορίες από διάφορους τύπους κλινικών αρχείων. Μόλις οι οντότητες ταυτοποιήθηκαν, η σχέση μεταξύ τους χαρτογραφήθηκε επίσης για τον εντοπισμό κρίσιμων πληροφοριών.

Πεδίο εργασίας: Σχολιασμός αναφοράς οντότητας υγείας

9 Τύποι οντοτήτων

  • Ιατρική κατάσταση
  • Ιατρική διαδικασία
  • Ανατομική δομή
  • Φάρμακο
  • Ιατρική συσκευή
  • Μετρήσεις σώματος
  • Κατάχρηση Ουσιών
  • Εργαστηριακά δεδομένα
  • Λειτουργία σώματος

17 Τροποποιητές

  • Τροποποιητές φαρμακευτικής αγωγής: Δύναμη, Μονάδα, Δόση, Από, Συχνότητα, Οδός, Διάρκεια, Κατάσταση
  • Τροποποιητές μέτρησης σώματος: Τιμή, Μονάδα, Αποτέλεσμα
  • Τροποποιητές Διαδικασίας: Μέθοδος
    • Τροποποιητής εργαστηριακών δεδομένων: Τιμή εργαστηρίου, μονάδα εργαστηρίου, Αποτέλεσμα εργαστηρίου
  • Δριμύτητα
  • Αποτέλεσμα της διαδικασίας

27 Σχέσεις & Κατάσταση Ασθενούς

Αποτέλεσμα

Τα σχολιασμένα δεδομένα θα χρησιμοποιηθούν για την ανάπτυξη και την εκπαίδευση της κλινικής πλατφόρμας NLP του Πελάτη, η οποία θα ενσωματωθεί στην επόμενη έκδοση του Healthcare API τους. Τα οφέλη που αποκόμισε ο πελάτης ήταν:

  • Τα δεδομένα που φέρουν ετικέτα/σχολιασμό πληρούν τις τυπικές οδηγίες σχολιασμού δεδομένων του Πελάτη.
  • Χρησιμοποιήθηκαν ετερογενή σύνολα δεδομένων για την εκπαίδευση της πλατφόρμας NLP για μεγαλύτερη ακρίβεια.
  • Η σχέση μεταξύ διαφορετικών οντοτήτων, π.χ. ανατομική σωματική δομή <> Ιατρικό προϊόν, Ιατρική κατάσταση <> Ιατρική συσκευή, Ιατρική Κατάσταση <> Φάρμακο, Ιατρική Κατάσταση <> Προσδιορίστηκε η διαδικασία για τη λήψη κρίσιμων ιατρικών πληροφοριών.
  • Το ευρύ σύνολο δεδομένων που επισημάνθηκαν/σχολιάστηκαν επίσης αποπροσδιορίστηκαν κατά τη στιγμή της παράδοσης.

Η συνεργασία μας με τη Shaip προώθησε σημαντικά το έργο μας στην Τεχνολογία Περιβάλλοντος και τη Συνομιλητική Τεχνητή Νοημοσύνη στον τομέα της υγείας. Η τεχνογνωσία τους στη δημιουργία και τη μεταγραφή συνθετικών διαλόγων για την υγειονομική περίθαλψη παρείχε μια στέρεη βάση, αναδεικνύοντας τις δυνατότητες των συνθετικών δεδομένων για την αντιμετώπιση των κανονιστικών προκλήσεων. Με το Shaip, ξεπεράσαμε αυτά τα εμπόδια και είμαστε τώρα ένα βήμα πιο κοντά στην υλοποίηση του οράματός μας για διαισθητικές λύσεις υγειονομικής περίθαλψης.

Golden-5-αστέρων

Επιταχύνετε το Conversational AI σας
ανάπτυξη εφαρμογών κατά 100%