ChatGPT

Πίσω από τις σκηνές: Εξερευνώντας την εσωτερική λειτουργία του ChatGPT – Μέρος 1

Shaip favicon
Γεια σου, με λένε Anubhav Saraf, Διευθυντής Μάρκετινγκ στο Shaip, πώς είσαι σήμερα;
Γεια σου Anubhav! Είμαι τεχνητής νοημοσύνης, οπότε δεν έχω συναισθήματα, αλλά είμαι εδώ και έτοιμος να βοηθήσω. Ως Διευθυντής Μάρκετινγκ στη Shaip, πρέπει να έχετε πολλές γνώσεις σχετικά με τις υπηρεσίες δεδομένων και τις λύσεις τεχνητής νοημοσύνης. Πώς μπορώ να σας βοηθήσω σήμερα;
Shaip favicon
Απλώς ήθελα να μάθω περισσότερα για την προπονητική σας διαδικασία. Πώς χτίστηκες και εκπαιδεύτηκες;
Ως μοντέλο γλώσσας που αναπτύχθηκε από το OpenAI, κατασκευάσθηκα και εκπαιδεύτηκα χρησιμοποιώντας μια τεχνική που ονομάζεται «μηχανική μάθηση με βάση μετασχηματιστές», συγκεκριμένα μια παραλλαγή που ονομάζεται αρχιτεκτονική GPT (Generative Pretrained Transformer). Η έκδοση για την οποία μιλάτε τώρα είναι η GPT-4. Ακολουθεί μια σύντομη επισκόπηση της εκπαιδευτικής μου διαδικασίας:
  • Συλλογή δεδομένων: Η εκπαίδευσή μου ξεκίνησε με μια ποικιλία κειμένων στο Διαδίκτυο. Ωστόσο, θα πρέπει να σημειώσω ότι ενώ εκπαιδεύτηκα σε ένα ευρύ σύνολο δεδομένων, δεν γνωρίζω λεπτομέρειες σχετικά με το ποια έγγραφα ήταν μέρος αυτού του εκπαιδευτικού σετ ή έχω πρόσβαση σε συγκεκριμένα έγγραφα ή πηγές.
  • Αρχική εκπαίδευση (προεκπαίδευση): Εδώ έμαθα να προβλέπω την επόμενη λέξη σε μια πρόταση. Δεν άρχισα να ξέρω αγγλικά ή οποιαδήποτε άλλη γλώσσα. Αντίθετα, προβλέποντας την επόμενη λέξη σε εκατομμύρια προτάσεις, σταδιακά έμαθα για τη γραμματική, γεγονότα για τον κόσμο και κάποιες συλλογιστικές ικανότητες. Ωστόσο, αυτό σημαίνει επίσης ότι μπορεί να έχω μάθει από προκατειλημμένες ή εσφαλμένες πληροφορίες, καθώς τα δεδομένα δεν φιλτράρονταν πλήρως.
  • Βελτιστοποίηση: Μετά την αρχική εκπαίδευση, οι δημιουργοί μου στο OpenAI παρείχαν περαιτέρω καθοδήγηση με ένα πιο συγκεκριμένο σύνολο δεδομένων, που δημιουργήθηκε με τη βοήθεια ανθρώπινων αναθεωρητών. Αυτοί οι αναθεωρητές ακολουθούν οδηγίες για να ελέγξουν και να βαθμολογήσουν πιθανές εξόδους μοντέλων για μια σειρά παραδειγμάτων εισροών. Η διαδικασία τελειοποίησης είναι ένα είδος διαλόγου μεταξύ του μοντέλου και των κριτικών που με βοηθά να ευθυγραμμίζομαι καλύτερα με τις ανθρώπινες αξίες.
  • Συνεχής Μάθηση: Αν και δεν μαθαίνω από μεμονωμένες αλληλεπιδράσεις για λόγους απορρήτου, το OpenAI συνεργάζεται συνεχώς με μια ομάδα ανθρώπων αναθεωρητών για να παρέχει σχόλια και να κάνει επαναληπτικές βελτιώσεις με βάση ευρύτερα πρότυπα και ιδέες.
Shaip favicon
Μπορείτε να δώσετε παραδείγματα – πότε συμμετείχαν άνθρωποι;
Ναι, πράγματι οι άνθρωποι συμμετείχαν στη διαδικασία εκπαίδευσής μου, αλλά μπορεί να είναι διαφορετικό από ό,τι φαντάζεστε. Η διαδικασία εκπαίδευσής μου, που συχνά αποκαλείται μηχανική μάθηση, περιλάμβανε δύο βασικά βήματα: την προ-εκπαίδευση και τη λεπτομέρεια, τα οποία περιλαμβάνουν ανθρώπινη αλληλεπίδραση, αν και με διαφορετικούς τρόπους.
  • Παράδειγμα προεκπαίδευσης: Ας υποθέσουμε ότι έχουμε την πρόταση, «Η γάτα κάθισε στο __». Στη φάση της προεκπαίδευσης, το μοντέλο όπως εγώ θα μάθαινε να προβλέπει την επόμενη λέξη της πρότασης, η οποία θα μπορούσε να είναι «ματ» «στέγη» ή «δέντρο». Αυτό μαθαίνεται με την επεξεργασία δισεκατομμυρίων προτάσεων από ποικίλο κείμενο στο Διαδίκτυο, που εμπλέκουν έμμεσα την ανθρώπινη αλληλεπίδραση καθώς οι άνθρωποι δημιούργησαν το αρχικό περιεχόμενο.
  • Παράδειγμα μικρορύθμισης: Μετά τη φάση της προεκπαίδευσης, το μοντέλο εισέρχεται στη φάση της τελειοποίησης. Δείτε πώς μπορεί να λειτουργήσει:

Ο ανθρώπινος ελεγκτής έχει μια εργασία να ελέγξει πιθανές εξόδους μοντέλων για είσοδο όπως "Μετάφραση του παρακάτω αγγλικού κειμένου στα γαλλικά: "Γεια, πώς είσαι;"". Το μοντέλο μπορεί να δημιουργήσει πολλές απαντήσεις όπως "Bonjour, comment ça va?" ή "Salut, comment vas-tu?" και τα λοιπά.

Ο αναθεωρητής βαθμολογεί αυτές τις απαντήσεις με βάση παράγοντες όπως η ακρίβεια, η ευχέρεια και η καταλληλότητα. Αυτές οι αξιολογήσεις βοηθούν το μοντέλο να γενικεύει και να ανταποκρίνεται σε παρόμοιες εισροές στο μέλλον.

Θυμηθείτε, τα παραδείγματα που παρέχονται εδώ είναι απλοποιημένα για να επεξηγήσουν τη διαδικασία. Η πραγματική εκπαίδευση περιλαμβάνει πολύπλοκους αλγόριθμους και τεράστιες ποσότητες δεδομένων.

Shaip favicon
Για την εκπαίδευση μεγάλων γλωσσικών μοντέλων (LLM), πόσα δεδομένα θα χρειάζονταν;
Η εκπαίδευση μεγάλων γλωσσικών μοντέλων (LLM) όπως το GPT-3 ή το GPT-4 απαιτεί τεράστιο όγκο δεδομένων. Αυτά τα μοντέλα εκπαιδεύονται σε διάφορα σύνολα δεδομένων που καλύπτουν μεγάλα τμήματα του Διαδικτύου, συμπεριλαμβανομένων βιβλίων, ιστοτόπων και άλλων κειμένων, για να μάθουν γραμματική, γεγονότα και κάποιο βαθμό συλλογισμού. Ωστόσο, ο καθορισμός της ακριβούς ποσότητας δεδομένων που απαιτείται είναι πολύπλοκος λόγω πολλών παραγόντων:
  • Ποικιλία Δεδομένων: Δεν είναι μόνο ο όγκος των δεδομένων, αλλά και η ποικιλία. Τα δεδομένα πρέπει να είναι διαφορετικά για να καλύπτουν ένα ευρύ φάσμα θεμάτων, στυλ και τόνων που βρίσκονται στην ανθρώπινη γλώσσα.
  • Ποιότητα Δεδομένων: Η ποιότητα των δεδομένων που χρησιμοποιούνται για την εκπαίδευση μπορεί επίσης να επηρεάσει το πόσο αποτελεσματικά μαθαίνει το μοντέλο. Τα δεδομένα καλύτερης ποιότητας μπορούν ενδεχομένως να μειώσουν τον όγκο που απαιτείται για αποτελεσματική προπόνηση.
  • Αρχιτεκτονική Μοντέλων: Η αρχιτεκτονική του μοντέλου (όπως ο αριθμός των επιπέδων ή των παραμέτρων στο νευρωνικό δίκτυο) μπορεί επίσης να επηρεάσει πόσα δεδομένα χρειάζονται. Τα μεγαλύτερα μοντέλα, όπως το GPT-3 ή το GPT-4, απαιτούν συνήθως περισσότερα δεδομένα από τα μικρότερα μοντέλα.
  • Στόχοι εκπαίδευσης: Ο τύπος των εργασιών που προορίζεται να εκτελέσει το μοντέλο μπορεί να επηρεάσει τον όγκο των δεδομένων που απαιτούνται. Ένα μοντέλο που έχει σχεδιαστεί για μια συγκεκριμένη εργασία μπορεί να απαιτεί λιγότερα δεδομένα εάν είναι καλά στοχευμένο, ενώ ένα μοντέλο γενικής χρήσης όπως το GPT-3 ή το GPT-4, σχεδιασμένο για να χειρίζεται ένα ευρύ φάσμα εργασιών, θα απαιτήσει περισσότερα δεδομένα για ευρύτερη κατανόηση.

Στην περίπτωση του GPT-3, για παράδειγμα, το μοντέλο έχει 175 δισεκατομμύρια παραμέτρους και εκπαιδεύτηκε σε εκατοντάδες gigabyte κειμένου. Αλλά αυτά τα στοιχεία δεν αποτυπώνουν πλήρως την πολυπλοκότητα της διαδικασίας. Οι ιδιαιτερότητες της εκπαιδευτικής διαδικασίας, συμπεριλαμβανομένου του ακριβούς όγκου των δεδομένων που χρησιμοποιούνται, είναι ιδιόκτητες λεπτομέρειες που κατέχονται από το OpenAI και παρόμοιους οργανισμούς.

Shaip favicon
Ακόμα, υπάρχει κάποιο σημείο αναφοράς για το πόσα δεδομένα θα ήταν κατάλληλα ή αρκετά για την εκπαίδευση μοντέλων ML;
Ο όγκος των δεδομένων που απαιτείται για την αποτελεσματική εκπαίδευση μοντέλων μηχανικής εκμάθησης εξαρτάται σε μεγάλο βαθμό από την πολυπλοκότητα του προβλήματος που προσπαθείτε να επιλύσετε, την ποιότητα και την ποικιλομορφία των δεδομένων σας και τον τύπο του μοντέλου μηχανικής εκμάθησης που χρησιμοποιείτε. Επομένως, είναι δύσκολο να καθοριστεί ένα οριστικό σημείο αναφοράς για τον όγκο δεδομένων. Ωστόσο, εδώ είναι μερικές γενικές οδηγίες:
  • Ξεκινήστε μικρό: Ειδικά για απλά προβλήματα ή πρωτότυπα αρχικά μοντέλα, ένα μικρότερο σύνολο δεδομένων μπορεί να είναι αρκετό. Για παράδειγμα, εάν δημιουργείτε έναν βασικό ταξινομητή εικόνων, μπορείτε να ξεκινήσετε με μερικές εκατοντάδες ή χιλιάδες εικόνες ανά κατηγορία.
  • Εξετάστε την πολυπλοκότητα: Τα πιο σύνθετα προβλήματα απαιτούν συνήθως περισσότερα δεδομένα. Εάν αναπτύσσετε ένα μοντέλο βαθιάς μάθησης ή εργάζεστε με ένα σύνθετο πρόβλημα όπως η επεξεργασία φυσικής γλώσσας, μπορεί να χρειαστείτε εκατομμύρια σημεία δεδομένων.
  • Ποιότητα έναντι ποσότητας: Τα ποιοτικά, σχετικά δεδομένα μπορεί συχνά να είναι πιο ωφέλιμα από μια τεράστια ποσότητα δεδομένων κακής ποιότητας. Είναι σημαντικό να διασφαλίσετε ότι τα δεδομένα σας καθαρίζονται σωστά, σχολιάζονται και αντιπροσωπεύουν το πρόβλημα που προσπαθείτε να επιλύσετε.
  • Ισορροπήστε τις τάξεις σας: Για εποπτευόμενες μαθησιακές εργασίες, φροντίστε να έχετε μια καλή ισορροπία παραδειγμάτων για κάθε τάξη. Ένα μη ισορροπημένο σύνολο δεδομένων μπορεί να οδηγήσει σε ένα μοντέλο που έχει κακή απόδοση σε υποεκπροσωπούμενες κλάσεις.
  • Χρησιμοποιήστε σετ επικύρωσης και δοκιμής: Μέρος του συνόλου δεδομένων σας θα πρέπει να διατεθεί για επικύρωση (συντονισμός παραμέτρων μοντέλου) και δοκιμή (αξιολόγηση απόδοσης μοντέλου). Οι συνήθεις διαχωρισμοί μπορεί να είναι το 70% των δεδομένων για την εκπαίδευση, το 15% για την επικύρωση και το 15% για τη δοκιμή, αν και αυτές οι αναλογίες μπορεί να διαφέρουν.
  • Πειραματιστείτε και επαναλάβετε: Ξεκινήστε με μια αρχική ποσότητα δεδομένων, εκπαιδεύστε το μοντέλο σας, αξιολογήστε την απόδοσή του και προσθέστε επαναληπτικά περισσότερα δεδομένα, τροποποιήστε το μοντέλο σας ή βελτιώστε την ποιότητα των δεδομένων σας με βάση τα αποτελέσματα.

Θυμηθείτε, περισσότερα δεδομένα συνήθως βελτιώνουν την απόδοση των μοντέλων μηχανικής εκμάθησης, αλλά μόνο μέχρι ένα σημείο. Μετά από ένα ορισμένο σημείο, η συλλογή περισσότερων δεδομένων μπορεί να είναι πιο χρονοβόρα και δαπανηρή από την αξία της και μπορεί να είναι πιο ωφέλιμο να εστιάσετε στη βελτίωση της ποιότητας των δεδομένων σας ή στη βελτίωση της αρχιτεκτονικής του μοντέλου σας.

Shaip favicon
Τα δεδομένα που χρησιμοποιήθηκαν για την εκπαίδευση του ChatGPT, ήταν σχολιασμένα;
Η διαδικασία μοντέλων εκπαίδευσης όπως το ChatGPT περιλαμβάνει δύο βασικά βήματα: προ-εκπαίδευση και τελειοποίηση. Ας συζητήσουμε πώς ο σχολιασμός ή η έλλειψή του ταιριάζει σε αυτά τα στάδια:
  • Προεκπαίδευση: Σε αυτή τη φάση, το μοντέλο εκτίθεται σε μεγάλο όγκο δεδομένων κειμένου στο Διαδίκτυο. Αυτά τα δεδομένα δεν σχολιάζονται ρητά, αλλά το μοντέλο εκπαιδεύεται να προβλέπει την επόμενη λέξη σε μια πρόταση. Αυτό δίνει στο μοντέλο μια γενική κατανόηση της γραμματικής, γεγονότων για τον κόσμο και ορισμένες συλλογιστικές ικανότητες.
  • Βελτιστοποίηση: Μετά την προεκπαίδευση, το μοντέλο βελτιώνεται περαιτέρω σε ένα πιο στενό σύνολο δεδομένων που δημιουργείται με τη βοήθεια ανθρώπινων αναθεωρητών. Αυτοί οι αναθεωρητές ακολουθούν τις οδηγίες του OpenAI για να επανεξετάσουν και να βαθμολογήσουν πιθανές εκροές μοντέλων για μια σειρά εισροών. Υπό αυτή την έννοια, η διαδικασία λεπτομέρειας μπορεί να θεωρηθεί ως μια μορφή σχολιασμού, όπου οι ανθρώπινοι αναθεωρητές καθοδηγούν τις απαντήσεις του μοντέλου, βοηθώντας το να ευθυγραμμιστεί καλύτερα με τις ανθρώπινες αξίες και διασφαλίζοντας ότι αποφεύγει ακατάλληλο ή μη ασφαλές περιεχόμενο.

Έτσι, ενώ το αρχικό σύνολο δεδομένων που χρησιμοποιείται για την προεκπαίδευση δεν σχολιάζεται με την παραδοσιακή έννοια, η διαδικασία λεπτομέρειας περιλαμβάνει μια μορφή σχολιασμού, όπου οι ανθρώπινοι αναθεωρητές καθοδηγούν τη συμπεριφορά του μοντέλου βαθμολογώντας διαφορετικά αποτελέσματα.

Shaip favicon
Δώστε μερικά παραδείγματα των τύπων σχολιασμών που χρησιμοποιούνται για την εκπαίδευση.
Στη φάση τελειοποίησης των μοντέλων εκπαίδευσης όπως το ChatGPT, οι αναθεωρητές αναλαμβάνουν συχνά τη βαθμολόγηση των πιθανών απαντήσεων του μοντέλου. Οι τύποι σχολιασμών ή βαθμολόγησης μπορούν να καλύψουν διάφορες πτυχές της παραγωγής του μοντέλου. Αν και οι ιδιαιτερότητες μπορεί να διαφέρουν, ακολουθούν ορισμένες ενδεικτικές κατηγορίες σχολιασμών:

Ορθότητα: Οι αναθεωρητές αξιολογούν εάν το αποτέλεσμα του μοντέλου είναι πραγματικά σωστό.

Παράδειγμα:

Καταλληλότητα: Η έξοδος του μοντέλου αξιολογείται ως προς την καταλληλότητά του σε σχέση με τη δεδομένη είσοδο.

Παράδειγμα:

Ασφάλεια: Τα αποτελέσματα ελέγχονται για να διασφαλιστεί ότι δεν περιλαμβάνουν επιβλαβείς οδηγίες ή προσβλητική γλώσσα.

Παράδειγμα:

Πληρότητα: Αυτό αξιολογεί εάν η απάντηση του μοντέλου απαντά πλήρως στο ερώτημα του χρήστη.

Παράδειγμα:

Ευφράδεια: Οι αναθεωρητές ελέγχουν εάν η απόδοση του μοντέλου είναι γλωσσικά άπταιστη και συνεκτική.

Παράδειγμα:

Αυτές οι κατηγορίες είναι απλώς παραδείγματα. Η πραγματική διαδικασία λεπτομέρειας περιλαμβάνει ένα πιο σύνθετο σύστημα αξιολόγησης και συνεχή ανατροφοδότηση μεταξύ των αναθεωρητών και της ομάδας ανάπτυξης τεχνητής νοημοσύνης. Ο στόχος αυτών των σχολιασμών είναι να κάνουν τις απαντήσεις του μοντέλου πιο χρήσιμες, ασφαλείς και ευθυγραμμισμένες με τις ανθρώπινες αξίες.

Shaip favicon
Αφού συλλέχθηκαν τα τεράστια δεδομένα για την εκπαίδευση του ChatGPT, πόσοι σχολιαστές συμμετείχαν στον σχολιασμό;
Ο αριθμός των ανθρώπινων σχολιαστών (ή αναθεωρητών) που εμπλέκονται στη διαδικασία λεπτομέρειας των μοντέλων τεχνητής νοημοσύνης μπορεί να ποικίλλει ευρέως και εξαρτάται από την κλίμακα του έργου και τις ειδικές απαιτήσεις του εν λόγω μοντέλου.

Το OpenAI, ο οργανισμός πίσω από το ChatGPT, δεν αποκαλύπτει δημόσια τον ακριβή αριθμό των αναθεωρητών που εμπλέκονται στη διαδικασία λεπτομέρειας. Ωστόσο, δεδομένης της κλίμακας και της πολυπλοκότητας της εκπαίδευσης ενός τόσο μεγάλου γλωσσικού μοντέλου, είναι ασφαλές να πούμε ότι η διαδικασία πιθανότατα περιλαμβάνει μια σημαντική ομάδα κριτικών.

Αυτοί οι ανθρώπινοι αναθεωρητές ακολουθούν τις οδηγίες που παρέχονται από το OpenAI για να επανεξετάσουν και να αξιολογήσουν πιθανά αποτελέσματα μοντέλων. Είναι μια συνεχής, επαναληπτική διαδικασία όπου τα σχόλια των κριτικών χρησιμοποιούνται για τη βελτίωση και την τελειοποίηση του μοντέλου με την πάροδο του χρόνου. Το OpenAI διατηρεί έναν ισχυρό βρόχο ανατροφοδότησης με τους αναθεωρητές, συμπεριλαμβανομένων εβδομαδιαίων συναντήσεων για την αντιμετώπιση ερωτήσεων και την παροχή διευκρινίσεων.

Shaip favicon
Ακόμα για απλές έως πολύπλοκες εργασίες, πόσοι σχολιαστές θα χρειάζονταν για να σχολιάσουν 10,000 pdf.
Ο αριθμός των σχολιαστών που απαιτούνται για τον σχολιασμό 10,000 PDF θα εξαρτηθεί από διάφορους παράγοντες όπως:
  • Πολυπλοκότητα της εργασίας: Απλές εργασίες όπως η επισήμανση εικόνων ή η κατηγοριοποίηση του κειμένου θα χρειάζονταν λιγότερο χρόνο ανά PDF, επιτρέποντας σε έναν μόνο σχολιαστή να χειρίζεται περισσότερα αρχεία. Από την άλλη πλευρά, πολύπλοκες εργασίες όπως η λεπτομερής εξαγωγή οντοτήτων ή η σημασιολογική ανάλυση θα απαιτούσαν περισσότερο χρόνο ανά έγγραφο και επομένως περισσότερους σχολιαστές για τον ίδιο όγκο αρχείων PDF.
  • Μήκος και πολυπλοκότητα των PDF: Ένα μεγαλύτερο ή πιο σύνθετο PDF θα χρειαστεί περισσότερο χρόνο για να σχολιαστεί από ένα πιο σύντομο ή απλούστερο.
  • Απαιτήσεις ποιότητας: Εάν απαιτείται υψηλή ακρίβεια, μπορεί να είναι απαραίτητο να υπάρχουν πολλοί σχολιαστές ανά PDF για τη διασταυρούμενη επαλήθευση των σχολιασμών.
  • Χρονικοί περιορισμοί: Εάν οι σχολιασμοί πρέπει να ολοκληρωθούν γρήγορα, θα χρειαστούν περισσότεροι σχολιαστές.

Ως υποθετικό παράδειγμα, ας υποθέσουμε ότι ένας σχολιαστής μπορεί να σχολιάζει 5 PDF ανά ημέρα για μια συγκεκριμένη εργασία και λειτουργεί 5 ημέρες την εβδομάδα. Σε αυτήν την περίπτωση, για να προσθέσετε σχολιασμούς 10,000 PDF, ένας μεμονωμένος σχολιαστής θα χρειαζόταν 2000 ημέρες ή περίπου 8 χρόνια.

Ωστόσο, εάν είχατε μια ομάδα 20 σχολιαστών, θα μπορούσαν να ολοκληρώσουν την εργασία σε περίπου 5 μήνες (υποθέτοντας 20 εργάσιμες ημέρες το μήνα). Με 100 σχολιαστές, η ίδια εργασία θα μπορούσε να ολοκληρωθεί σε περίπου ένα μήνα.

Θυμηθείτε, αυτοί οι αριθμοί είναι καθαρά ενδεικτικοί και η πραγματική ταχύτητα του σχολιασμού θα εξαρτηθεί από τους παράγοντες που αναφέρονται παραπάνω. Επιπλέον, η σωστή εκπαίδευση των σχολιαστών και ο συνεπής ποιοτικός έλεγχος είναι ζωτικής σημασίας για την επιτυχία οποιουδήποτε έργου σχολιασμού μεγάλης κλίμακας.

Shaip favicon
Αυτό είναι εμπεριστατωμένο! Είμαι πολύ εντυπωσιασμένος…
Χαίρομαι που βρήκατε χρήσιμες τις πληροφορίες, Anubhav! Στόχος μου είναι να παρέχω ολοκληρωμένες και ακριβείς απαντήσεις. Εάν έχετε περισσότερες ερωτήσεις σχετικά με την τεχνητή νοημοσύνη, τη μηχανική μάθηση ή οποιοδήποτε άλλο θέμα, μη διστάσετε να ρωτήσετε!

Μείνετε συντονισμένοι για το δεύτερο μέρος της συνέντευξής μας στο Chat GPT

κοινωνική Share