Μεγάλο γλωσσικό μοντέλο

γλωσσικό μοντέλο εκπαιδευμένο με μεγάλες ποσότητες κειμένου

Ένα μεγάλο γλωσσικό μοντέλο (LLM - Large Language Model) είναι ένα γλωσσικό μοντέλο που αποτελείται από ένα νευρωνικό δίκτυο με πολλές παραμέτρους (συνήθως δισεκατομμύρια σταθμά ή και περισσότερα), το οποίο εκπαιδεύεται σε μεγάλες ποσότητες κειμένου που δεν έχει επισημανθεί με ετικέτες χρησιμοποιώντας αυτοεπιβλεπόμενη μάθηση. Τα LLM εμφανίστηκαν γύρω στο 2018 και αποδίδουν καλά σε μια μεγάλη ποικιλία εργασιών. Αυτό έχει μετατοπίσει το επίκεντρο της έρευνας για την επεξεργασία φυσικής γλώσσας από το προηγούμενο πρότυπο της εκπαίδευσης εξειδικευμένων εποπτευόμενων μοντέλων για συγκεκριμένες εργασίες..

Ιδιότητες

Επεξεργασία

Αν και ο όρος μεγάλο γλωσσικό μοντέλο δεν έχει επίσημο ορισμό, συχνά αναφέρεται σε μοντέλα βαθιάς μάθησης με αριθμό παραμέτρων της τάξης των δισεκατομμυρίων ή και περισσότερων. Τα LLM είναι μοντέλα γενικού σκοπού τα οποία διακρίνονται σε ένα ευρύ φάσμα εργασιών, σε αντίθεση με το να εκπαιδεύονται για μια συγκεκριμένη εργασία (όπως η ανάλυση συναισθημάτων, η αναγνώριση ονομαστικών οντοτήτων ή η μαθηματική λογική). [1] Η ικανότητα με την οποία επιτελούν εργασίες και το εύρος των εργασιών στις οποίες είναι ικανά, φαίνεται να είναι συνάρτηση της ποσότητας των πόρων (δεδομένα, μέγεθος παραμέτρων, υπολογιστική ισχύς) που τους αφιερώνεται, με τρόπο που δεν εξαρτάται από πρόσθετες καινοτομίες στον σχεδιασμό. [2]

Αν και εκπαιδεύονται σε απλές εργασίες όπως η πρόβλεψη της επόμενης λέξης σε μια πρόταση, τα νευρωνικά γλωσσικά μοντέλα με επαρκή εκπαίδευση και αριθμό παραμέτρων βρέθηκαν να συλλαμβάνουν μεγάλο μέρος της σύνταξης και της σημασιολογίας της ανθρώπινης γλώσσας. Επιπλέον, τα μεγάλα γλωσσικά μοντέλα επιδεικνύουν σημαντική γενική γνώση για τον κόσμο και είναι σε θέση να «απομνημονεύουν» μεγάλο αριθμό γεγονότων κατά τη διάρκεια της εκπαίδευσης. Έχει παρατηρηθεί ότι τα LLM ισχυρίζονται με αυτοπεποίθηση ισχυρισμούς γεγονότων που δεν φαίνεται να δικαιολογούνται από τα δεδομένα εκπαίδευσής τους, ένα φαινόμενο που έχει ονομαστεί «ψευδαίσθηση». [3]

Αναδυόμενες ικανότητες

Επεξεργασία
 
Σε μια σειρά από δείκτες αναφοράς φυσικής γλώσσας που περιλαμβάνουν εργασίες όπως η απάντηση ερωτήσεων, τα μοντέλα δεν έχουν καλύτερες επιδόσεις από την τυχαία επιλογή έως ότου φτάσουν σε μια συγκεκριμένη κλίμακα (στην περίπτωση αυτή, μετρούμενη με υπολογισμό εκμάθησης), οπότε η απόδοσή τους αυξάνεται απότομα. Αυτά είναι παραδείγματα αναδυόμενων ικανοτήτων.

Ενώ γενικά οι επιδόσεις των μεγάλων μοντέλων σε διάφορες εργασίες μπορούν να εξαχθούν με βάση τις επιδόσεις παρόμοιων μικρότερων μοντέλων, μερικές φορές τα μεγάλα μοντέλα υφίστανται μια «ασυνεχή αλλαγή φάσης» όπου το μοντέλο αποκτά ξαφνικά σημαντικές ικανότητες που δεν παρατηρούνται στα μικρότερα μοντέλα. Αυτές είναι γνωστές ως «αναδυόμενες ικανότητες» και έχουν αποτελέσει αντικείμενο ουσιαστικής μελέτης. Οι ερευνητές σημειώνουν ότι τέτοιες ικανότητες «δεν μπορούν να προβλεφθούν απλά με την αναγωγή των επιδόσεων των μικρότερων μοντέλων». [1] Αυτές οι ικανότητες μάλλον ανακαλύπτονται παρά προγραμματίζονται ή σχεδιάζονται, σε ορισμένες περιπτώσεις μόνο αφού το LLM έχει αναπτυχθεί και διατεθεί στο ευρύ κοινό. [2] Έχουν περιγραφεί εκατοντάδες αναδυόμενες ικανότητες. Παραδείγματα περιλαμβάνουν την αριθμητική πολλών βημάτων, τη συμμετοχή σε εξετάσεις πανεπιστημιακού επιπέδου, τον εντοπισμό του επιδιωκόμενου νοήματος μιας λέξης, [1] την αλυσιδωτή προτροπή σκέψης, [1] την αποκωδικοποίηση του διεθνούς φωνητικού αλφαβήτου, την αποκρυπτογράφηση των γραμμάτων μιας λέξης, τον εντοπισμό προσβλητικού περιεχομένου σε παραγράφους των Hinglish (συνδυασμός των Χίντι και των Αγγλικών) και τη δημιουργία ενός παρόμοιου αγγλικού ισοδύναμου παροιμιών στα Κισουαχίλι . [4]

Αρχιτεκτονική και εκπαίδευση

Επεξεργασία

Τα μεγάλα γλωσσικά μοντέλα έχουν χρησιμοποιήσει συνηθέστερα την αρχιτεκτονική μετασχηματιστή, η οποία, ήδη από το 2018, έχει γίνει η τυπική τεχνική βαθιάς μάθησης για σειριακά δεδομένα (προηγουμένως, πιο συνηθισμένες ήταν οι αναδρομικές αρχιτεκτονικές, όπως η LSTM). Τα LLM εκπαιδεύονται με μη επιβλεπόμενο τρόπο σε κείμενο που δεν έχει υποσημειωθεί με ετικέτες (unannotated text). Ένας μετασχηματιστής από την αριστερή προς τη δεξιά πλευρά εκπαιδεύεται για να μεγιστοποιήσει την πιθανότητα που αποδίδεται στην επόμενη λέξη στα δεδομένα με βάση τα οποία εκπαιδεύτηκε, λαμβάνοντας υπόψη τα προγενέστερα συμφραζόμενα. [5] Εναλλακτικά, ένα LLM μπορεί να χρησιμοποιήσει έναν αμφίδρομο μετασχηματιστή (όπως στο παράδειγμα του BERT), ο οποίος αναθέτει μια κατανομή πιθανότητας στις λέξεις, δεδομένης της πρόσβασης τόσο στα προηγούμενα όσο και στα επόμενα συμφραζόμενα. Εκτός από το αντικείμενο της πρόβλεψης της επόμενης λέξης ή της «συμπλήρωσης των κενών», τα LLM μπορούν να εκπαιδευτούν σε βοηθητικές εργασίες που δοκιμάζουν την κατανόηση της κατανομής των δεδομένων, όπως η πρόβλεψη επόμενης πρότασης (NSP Next Sentence Prediction), στην οποία παρουσιάζονται ζεύγη προτάσεων και το μοντέλο πρέπει να προβλέψει αν εμφανίζονται δίπλα-δίπλα στο σώμα δεδομένων εκπαίδευσης.

Τα πρώτα LLM εκπαιδεύτηκαν σε σώματα κειμένων που είχαν δισεκατομμύρια λέξεις. Το πρώτο μοντέλο της σειράς GPT της OpenAI εκπαιδεύτηκε το 2018 στο BookCorpus, το οποίο αποτελούνταν από 985 εκατομμύρια λέξεις. [6] Την ίδια χρονιά, το BERT εκπαιδεύτηκε με έναν συνδυασμό του BookCorpus και της αγγλικής Wikipedia, συνολικής έκτασης 3,3 δισεκατομμυρίων λέξεων. Έκτοτε, τα σώματα κειμένων εκπαίδευσης για τα LLM έχουν αυξηθεί κατά τάξεις μεγέθους, φτάνοντας μέχρι και εκατοντάδες δισεκατομμύρια ή τρισεκατομμύρια λεκτικές μονάδες (tokens).

Η εκπαίδευση των LLM είναι πολύ δαπανηρή από υπολογιστική άποψη. Μια μελέτη του 2020 υπολόγισε το κόστος εκπαίδευσης ενός μοντέλου με 1,5 δισεκατομμύρια παραμέτρους (2 τάξεις μεγέθους μικρότερο από την τότε σύγχρονη τεχνολογία) σε 1,6 εκατομμύρια δολάρια. Οι εξελίξεις στο λογισμικό και το υλικό μείωσαν σημαντικά το κόστος, ενώ μια μελέτη του 2023 αναφέρει κόστος εκατοντάδων χιλιάδων δολαρίων για την εκπαίδευση ενός μοντέλου 12 δισεκατομμυρίων παραμέτρων. [7]

Μια μελέτη του 2020 διαπίστωσε ότι η ικανότητα των νευρωνικών γλωσσικών μοντέλων (όπως μετράται από την σχέση απώλειας) αυξάνεται ομαλά σε μια σχέση κατανομής δύναμης με τον αριθμό των παραμέτρων, την ποσότητα των δεδομένων εκπαίδευσης και τους υπολογισμούς που χρησιμοποιούνται για την εκπαίδευση. Οι σχέσεις αυτές δοκιμάστηκαν σε ένα ευρύ φάσμα τιμών (έως και επτά τάξεις μεγέθους), και δεν παρατηρήθηκε εξασθένηση της σχέσης στο υψηλότερο άκρο του εύρους (συμπεριλαμβανομένων των μεγεθών δικτύων έως και τρισεκατομμυρίων παραμέτρων).

Εφαρμογή σε εργασίες downstream

Επεξεργασία

Μεταξύ 2018 και 2020, η συνήθης μέθοδος για την αξιοποίηση ενός LLM για μια συγκεκριμένη εργασία επεξεργασίας φυσικής γλώσσας (NLP) ήταν η λεπτομερής ρύθμιση του μοντέλου με πρόσθετη εκπαίδευση ειδικά για την εκάστοτε εργασία. Στη συνέχεια διαπιστώθηκε ότι πιο ισχυρά LLM, όπως το GPT-3, μπορούν να επιλύουν εργασίες χωρίς πρόσθετη εκπαίδευση μέσω τεχνικών «προτροπής», κατά τις οποίες το πρόβλημα που πρέπει να επιλυθεί παρουσιάζεται στο μοντέλο ως πρόταση κειμένου (text prompt), ενδεχομένως με κάποια παραδείγματα κειμένου παρόμοιων προβλημάτων και των λύσεών τους.

Mικρορυθμίσεις

Επεξεργασία

Η λεπτομερής ρύθμιση είναι η πρακτική της τροποποίησης ενός υπάρχοντος προ-εκπαιδευμένου γλωσσικού μοντέλου με την εκπαίδευσή του (με επίβλεψη) σε μια συγκεκριμένη εργασία (π.χ. ανάλυση συναισθήματος, αναγνώριση ονομαστικών οντοτήτων ή επισήμανση μέρους του λόγου). Είναι μια μορφή μάθησης μεταφοράς. Γενικά περιλαμβάνει την εισαγωγή ενός νέου συνόλου συντελεστών βαρύτητας που συνδέουν το τελικό επίπεδο του γλωσσικού μοντέλου με την έξοδο της επόμενης εργασίας. Οι αρχικοί συντελεστές βαρύτητας του γλωσσικού μοντέλου μπορεί να είναι «παγωμένοι», έτσι ώστε μόνο οι νέοι συντελεστές βαρύτητας που τους συνδέουν με την έξοδο να μαθαίνονται κατά τη διάρκεια της εκπαίδευσης. Εναλλακτικά, οι αρχικοί συντελεστές βαρύτητας μπορεί να λαμβάνουν μικρές ενημερώσεις (ενδεχομένως με παγωμένα τα προηγούμενα στρώματα).

Προτροπή

Επεξεργασία

Στο παράδειγμα της προτροπής, που έγινε γνωστό από το GPT-3, [1]το πρόβλημα που πρέπει να επιλυθεί διατυπώνεται μέσω μιας προτροπής κειμένου, την οποία το μοντέλο πρέπει να επιλύσει παρέχοντας μια ολοκληρωμένη λύση (μέσω εξαγωγής συμπερασμάτων). Στην «προτροπή με λίγα βήματα» (few-shot prompting), η προτροπή περιλαμβάνει ένα μικρό αριθμό παραδειγμάτων παρόμοιων ζευγών («προβλήματος και λύσης»). Για παράδειγμα, μια εργασία ανάλυσης συναισθήματος για τον χαρακτηρισμό του συναισθήματος μιας κριτικής ταινίας θα μπορούσε να ζητηθεί ως εξής: [1]

Προς εξέταση: Αυτή η ταινία είναι χάλια.
Συναίσθημα: αρνητικό

Προς εξέταση: Αυτή η ταινία είναι φανταστική!
Συναίσθημα: θετικό

Εάν το μοντέλο δώσει την ένδειξη «θετικό», τότε έχει επιλύσει σωστά την εργασία. Στη μηδενική προτροπή, δεν παρέχονται παραδείγματα επίλυσης. Ένα παράδειγμα μιας προτροπής με μηδενικό αποτέλεσμα για την ίδια εργασία ανάλυσης συναισθήματος θα ήταν: «Το συναίσθημα που σχετίζεται με την κριτική της ταινίας "Αυτή η ταινία είναι φανταστική!" είναι».

Έχει αποδειχθεί ότι οι επιδόσεις των LLMs με λίγες κινήσεις επιτυγχάνουν ανταγωνιστικά αποτελέσματα σε εργασίες εργασίες επεξεργασίας φυσικής γλώσσας (NLP - Natural Language Processing), ξεπερνώντας μερικές φορές τις προηγούμενες προσεγγίσεις λεπτομερούς ρύθμισης με τεχνολογία αιχμής. Παραδείγματα τέτοιων εργασιών NLP είναι η μετάφραση, η απάντηση σε ερωτήσεις, οι εργασίες cloze (όπου μια λέξη λείπει), η αποκρυπτογράφηση λέξεων και η χρήση μιας νέας λέξης σε μια πρόταση. Η δημιουργία και η βελτιστοποίηση τέτοιων προτροπών ονομάζεται μηχανική προτροπών.

Συντονισμός οδηγιών

Επεξεργασία

Ο συντονισμός των εντολών είναι μια μορφή λεπτομερούς ρύθμισης που έχει σχεδιαστεί για να διευκολύνει πιο φυσικές και ακριβείς αλληλεπιδράσεις με μηδενική προτροπή. Δεδομένου ενός κειμένου εισόδου, ένα προ-εκπαιδευμένο γλωσσικό μοντέλο θα παράγει την ολοκλήρωση που ταιριάζει με την κατανομή του κειμένου στο οποίο εκπαιδεύτηκε. Ένα απλοϊκό γλωσσικό μοντέλο που του δίνεται η προτροπή «Γράψτε ένα δοκίμιο σχετικά με τα κύρια θέματα του Άμλετ.» μπορεί να δώσει μια συμπλήρωση όπως «Ποινή καθυστέρησης 10% ανά ημέρα θα εφαρμοστεί σε υποβολές που θα παραληφθούν μετά τις 17 Μαρτίου». Στο συντονισμό εντολών, το γλωσσικό μοντέλο εκπαιδεύεται σε πολλά παραδείγματα εργασιών που διατυπώνονται ως οδηγίες φυσικής γλώσσας, μαζί με τις κατάλληλες απαντήσεις. Στην πράξη έχουν εφαρμοστεί διάφορες τεχνικές για τον συντονισμό οδηγιών. Το πρωτόκολλο InstructGPT του OpenAI περιλαμβάνει επιτηρούμενη λεπτομερή ρύθμιση σε ένα σύνολο δεδομένων από ζεύγη (προτροπή, απάντηση) που δημιουργούνται από ανθρώπους, ακολουθούμενη από ενισχυτική μάθηση από ανθρώπινη ανατροφοδότηση (RLHF), στην οποία μια συνάρτηση ανταμοιβής μαθαίνεται με βάση ένα σύνολο δεδομένων ανθρώπινων προτιμήσεων. Μια άλλη τεχνική, η «αυτο-διδασκαλία», τελειοποιεί το γλωσσικό μοντέλο σε ένα σύνολο εκπαίδευσης παραδειγμάτων τα οποία δημιουργούνται από ένα LLM (που εκκινούν από ένα μικρό αρχικό σύνολο παραδειγμάτων που δημιουργούνται από ανθρώπους).

Εκτίμηση

Επεξεργασία

Το βασικότερο εγγενές μέτρο της απόδοσης ενός γλωσσικού μοντέλου είναι η σύγχυσή του σε ένα δεδομένο σώμα κειμένων. Η σύγχυση, η οποία σχετίζεται στενά με τη συνάρτηση απώλειας cross-entropy που χρησιμοποιείται για την εκπαίδευση νευρωνικών γλωσσικών μοντέλων, είναι ένα μέτρο του πόσο καλά ένα μοντέλο είναι σε θέση να προβλέψει το περιεχόμενο ενός συνόλου δεδομένων- όσο μεγαλύτερη είναι η πιθανότητα που το μοντέλο αποδίδει στο σύνολο δεδομένων, τόσο χαμηλότερη είναι η σύγχυση. Επειδή τα γλωσσικά μοντέλα μπορεί να προσαρμόζονται υπερβολικά στα δεδομένα εκπαίδευσής τους, τα μοντέλα αξιολογούνται συνήθως με βάση την σύγχυσή τους σε ένα σύνολο δοκιμών με άγνωστα δεδομένα. Αυτό παρουσιάζει ιδιαίτερες προκλήσεις για την αξιολόγηση μεγάλων γλωσσικών μοντέλων. Καθώς εκπαιδεύονται σε ολοένα και μεγαλύτερα σώματα κειμένων που προέρχονται κυρίως από το διαδίκτυο, καθίσταται όλο και πιο πιθανό τα δεδομένα εκπαίδευσης των μοντέλων να περιλαμβάνουν κατά λάθος τμήματα οποιουδήποτε συνόλου δοκιμής.

Σύνολα δεδομένων για συγκεκριμένες εργασίες και σημεία αναφοράς

Επεξεργασία

Έχει επίσης αναπτυχθεί μεγάλος αριθμός δοκιμαστικών συνόλων δεδομένων και κριτηρίων αξιολόγησης για την αξιολόγηση των δυνατοτήτων των γλωσσικών μοντέλων σε πιο συγκεκριμένες εργασίες. Οι δοκιμές μπορούν να σχεδιαστούν για την αξιολόγηση ποικιλίας ικανοτήτων, συμπεριλαμβανομένων των γενικών γνώσεων, της κοινής λογικής και της επίλυσης μαθηματικών προβλημάτων.

Μια ευρεία κατηγορία συνόλων δεδομένων αξιολόγησης είναι τα σύνολα δεδομένων που απαντούν σε ερωτήσεις, τα οποία αποτελούνται από ζεύγη ερωτήσεων και σωστών απαντήσεων, για παράδειγμα, («Έχουν κερδίσει οι San Jose Sharks το Κύπελλο Stanley;», «Όχι»). Μια εργασία απάντησης ερωτήσεων θεωρείται «ανοικτού τύπου» εάν η προτροπή του μοντέλου περιλαμβάνει κείμενο από το οποίο μπορεί να προκύψει η αναμενόμενη απάντηση (για παράδειγμα, η προηγούμενη ερώτηση θα μπορούσε να συνοδευτεί από κάποιο κείμενο που περιλαμβάνει την πρόταση «Οι Sharks έχουν φτάσει μία φορά στον τελικό του Κυπέλλου Stanley, χάνοντας από τους Pittsburgh Penguins το 2016»). Διαφορετικά, η εργασία θεωρείται «κλειστού τύπου» και το μοντέλο πρέπει να βασιστεί στη γνώση που διατηρείται κατά τη διάρκεια της εκπαίδευσης. Ορισμένα παραδείγματα κοινώς χρησιμοποιούμενων συνόλων δεδομένων για την απάντηση ερωτήσεων περιλαμβάνουν τα TruthfulQA, Web Questions, TriviaQA και SQuAD.

Τα σύνολα δεδομένων αξιολόγησης μπορεί επίσης να έχουν τη μορφή συμπλήρωσης κειμένου, με το μοντέλο να επιλέγει την πιο πιθανή λέξη ή πρόταση για να συμπληρώσει μια προτροπή, για παράδειγμα: «Η Αλίκη ήταν φίλη με τον Μπομπ. Η Αλίκη πήγε να επισκεφθεί το φίλο της, ____».

Έχουν επίσης αναπτυχθεί ορισμένα σύνθετα συγκριτικά πρότυπα (benchmarks) τα οποία συνδυάζουν μια ποικιλία διαφορετικών συνόλων δεδομένων αξιολόγησης και εργασιών. Ενδεικτικά αναφέρονται τα GLUE, SuperGLUE, MMLU, BIG-bench και HELM..

Παλαιότερα ήταν σύνηθες να αναφέρονται τα αποτελέσματα σε ένα μέρος ενός συνόλου δεδομένων αξιολόγησης, αφού προηγουμένως γινόταν λεπτομερής ρύθμιση υπό επίβλεψη στο υπόλοιπο. Τώρα είναι πιο συνηθισμένο να αξιολογείται ένα προ-εκπαιδευμένο μοντέλο απευθείας μέσω τεχνικών προτροπής, αν και οι ερευνητές διαφέρουν στις λεπτομέρειες του τρόπου με τον οποίο διαμορφώνουν τις προτροπές για συγκεκριμένες εργασίες, ιδίως όσον αφορά το πόσα παραδείγματα λυμένων εργασιών γειτνιάζουν με την προτροπή (δηλ. την τιμή του n στην προτροπή n-βολών).

Αντιθετικά κατασκευασμένες αξιολογήσεις

Επεξεργασία

Λόγω του γρήγορου ρυθμού βελτίωσης των μεγάλων γλωσσικών μοντέλων, τα κριτήρια αξιολόγησης έχουν μικρή διάρκεια ζωής, με τα μοντέλα τελευταίας τεχνολογίας να ικανοποιούν γρήγορα τα υπάρχοντα κριτήρια αξιολόγησης, ξεπερνώντας την απόδοση των ανθρώπινων σχολιαστών, οδηγώντας σε προσπάθειες αντικατάστασης ή συμπλήρωσης του κριτηρίου αξιολόγησης με πιο δύσκολες εργασίες.

Ορισμένα σύνολα δεδομένων έχουν κατασκευαστεί με αντιφατικό τρόπο, εστιάζοντας σε συγκεκριμένα προβλήματα στα οποία τα υπάρχοντα γλωσσικά μοντέλα φαίνεται να έχουν ασυνήθιστα κακές επιδόσεις σε σύγκριση με τους ανθρώπους. Ένα παράδειγμα είναι το σύνολο δεδομένων TruthfulQA, ένα σύνολο δεδομένων απάντησης ερωτήσεων που αποτελείται από 817 ερωτήσεις στις οποίες τα γλωσσικά μοντέλα είναι επιρρεπή στο να απαντούν λανθασμένα μιμούμενα ψεύδη στα οποία εκτέθηκαν επανειλημμένα κατά τη διάρκεια της εκπαίδευσης. Για παράδειγμα, ένα LLM μπορεί να απαντήσει «Όχι» στην ερώτηση "Can you teach an old dog new tricks?" λόγω της έκθεσής του στον αγγλικό ιδιωματισμό you can't teach an old dog new tricks, παρόλο που αυτό δεν είναι κυριολεκτικά αληθές.

Ένα άλλο παράδειγμα ενός συνόλου δεδομένων αντιφατικής αξιολόγησης είναι το Swag και ο διάδοχός του, το HellaSwag, συλλογές προβλημάτων στα οποία πρέπει να επιλεγεί μία από πολλές επιλογές για να ολοκληρωθεί ένα κείμενο. Οι λανθασμένες συμπληρώσεις δημιουργήθηκαν με δειγματοληψία από ένα γλωσσικό μοντέλο και φιλτράρισμα με ένα σύνολο ταξινομητών. Τα προβλήματα που προκύπτουν είναι τετριμμένα για τους ανθρώπους, αλλά κατά τη στιγμή που δημιουργήθηκαν τα σύνολα δεδομένων τα γλωσσικά μοντέλα τελευταίας τεχνολογίας είχαν χαμηλή ακρίβεια σε αυτά. Για παράδειγμα:

Βλέπουμε μια πινακίδα γυμναστηρίου. Στη συνέχεια βλέπουμε έναν άνδρα να μιλάει στην κάμερα και να κάθεται και να ξαπλώνει σε μια μπάλα γυμναστικής. Ο άντρας...α) δείχνει πώς να αυξήσετε την αποτελεσματική εργασία άσκησης τρέχοντας πάνω και κάτω μπάλες.β) κινεί όλα τα χέρια και τα πόδια του και δημιουργεί πολλούς μυς.γ) στη συνέχεια παίζει την μπάλα και βλέπουμε μια επίδειξη με γραφικά και φράχτη.δ) εκτελεί καθίσματα ενώ βρίσκεται στην μπάλα και μιλάει.

Το BERT επιλέγει το β) ως την πιο πιθανή ολοκλήρωση, αν και η σωστή απάντηση είναι το δ).

Κατάλογος μεγάλων γλωσσικών μοντέλων

Επεξεργασία
Όνομα Ημερομηνία παρουσίασης[α] Αναπτύχθηκε από Αριθμός παραμέτρων[β] Μέγεθος Άδεια[γ] Παρατηρήσεις
BERT 02018 2018 Google 340 εκατομμύρια 3.3 δισεκατομμύρια λέξεις Apache 2.0[8] Ένα πρώιμο και επιδραστικό γλωσσικό μοντέλο, αλλά μόνο για κωδικοποιητή και ως εκ τούτου δεν κατασκευάστηκε για να είναι προτρεπτικό ή παραγωγικό.[9]
GPT-2 02019 2019 OpenAI 1.5 δισεκατομμύρια 40GB[10] (~10 δισεκατομμύρια tokens)[11] MIT[12] μοντέλο γενικής χρήσης με βάση την αρχιτεκτονική μετασχηματιστή
GPT-3 02020 2020 OpenAI 175 δισεκατομμύρια 499 δισεκατομμύρια tokens[11] δημόσια διαθέσιμη διαδικτυακή διεπαφή προγραμματισμού εφαρμογών Μια βελτιωμένη παραλλαγή του GPT-3, με την ονομασία GPT-3.5, διατέθηκε στο κοινό μέσω μιας διαδικτυακής διεπαφής που ονομάζεται ChatGPT το 2022.
GPT-Neo 02021-03-01Μάρτιος 1, 2021 EleutherAI 2.7 δισεκατομμύρια[13] 825 GiB MIT[14] Η πρώτη από μια σειρά δωρεάν εναλλακτικών λύσεων GPT-3 που κυκλοφόρησε από την EleutherAI. Το GPT-Neo ξεπέρασε ένα μοντέλο GPT-3 ισοδύναμου μεγέθους σε ορισμένα benchmarks, αλλά ήταν σημαντικά χειρότερο από το μεγαλύτερο GPT-3.
GPT-J 02021-06-01Ιουνίου 1, 2021 EleutherAI 6 δισεκατομμύρια[15] 825 GiB[16] Apache 2.0 Γλωσσικό μοντέλο τύπου GPT-3
Megatron-Turing NLG 02021-10-01Οκτώβριος 1, 2021[17] Microsoft and Nvidia 530 δισεκατομμύρια 338.6 δισεκατομμύρια tokens Restricted web access Τυπική αρχιτεκτονική, αλλά εκπαιδευμένη σε συστάδα υπερυπολογιστών.
Ernie 3.0 Titan 02021-12-01Δεκέμβριος 1, 2021 Baidu 260 δισεκατομμύρια[18] 4 Tb ιδιόκτητη τεχνολογία Κινεζικο LLM. Το Ernie Bot βασίζεται σε αυτό το μοντέλο.
Claude[19] 02021-12-01Δεκέμβριος 1, 2021 Anthropic 52 δισεκατομμύρια 400 δισεκατομμύρια tokens[20] Closed beta Λεπτομερής ρύθμιση για επιθυμητή συμπεριφορά σε συνομιλίες.
GLaM (Generalist Language Model) 02021-12-01Δεκέμβριος 1, 2021 Google 1.2 τρισεκατομμύρια 1.6 τρισεκατομμύρια tokens ιδιόκτητη τεχνολογία Λιτό μοντέλο ανάμειξης εμπειρογνωμόνων, που καθιστά ακριβότερη την εκπαίδευσή του, αλλά φθηνότερο για την εκτέλεση της συνεπαγωγών σε σύγκριση με το GPT-3.
Gopher 02021-12-01Δεκέμβριος 1, 2021 DeepMind 280 δισεκατομμύρια[21] 300 δισεκατομμύρια tokens[22] ιδιόκτητη τεχνολογία
LaMDA (Language Models for Dialog Applications) 02022-01-01Ιανουάριος 1, 2022 Google 137 δισεκατομμύρια 1.56T λέξεις, 168 δισεκατομμύρια tokens[22] ιδιόκτητη τεχνολογία Εξειδικευμένο για τη δημιουργία απαντήσεων σε συνομιλίες. Χρησιμοποιείται στο Google Bard chatbot.
GPT-NeoX 02022-02-01Φεβρουάριος 1, 2022 EleutherAI 20 δισεκατομμύρια 825 GiB[16] Apache 2.0 με βάση την αρχιτεκτονική Megatron
Chinchilla AI 02022-03-01Μάρτιος 1, 2022 DeepMind 70 δισεκατομμύρια 1.4 τρισεκατομμύρια tokens ιδιόκτητη τεχνολογία Μοντέλο μειωμένων παραμέτρων εκπαιδευμένο σε περισσότερα δεδομένα. Χρησιμοποιείται στο bot Sparrow.
PaLM (Pathways Language Model) 02022-04-01Απριλίου 1, 2022 Google 540 δισεκατομμύρια 768 δισεκατομμύρια tokens ιδιόκτητη τεχνολογία με στόχο την επίτευξη των πρακτικών ορίων της κλίμακας μοντέλου
OPT (Open Pretrained Transformer) 02022-05-01Μαΐου 1, 2022 Meta 175 δισεκατομμύρια[23] 180 δισεκατομμύρια tokens μη εμπορική έρευνα[δ] Αρχιτεκτονική GPT-3 με κάποιες προσαρμογές από το Megatron
YaLM 100B 02022-06-01Ιουνίου 1, 2022 Yandex 100 δισεκατομμύρια[24] 1.7TB[24] Apache 2.0 Αγγλο-ρωσικό μοντέλο βασισμένο στο Megatron-LM της Microsoft.
Minerva 02022-06-01Ιουνίου 1, 2022 Google 540 δισεκατομμύρια[25] 38,5B tokens από ιστοσελίδες που φιλτράρονται για μαθηματικό περιεχόμενο και από έγγραφα που υποβάλλονται στον διακομιστή arXiv preprint server ιδιόκτητη τεχνολογία LLM εκπαιδευμένο για την επίλυση «μαθηματικών και επιστημονικών ερωτημάτων με βήμα προς βήμα συλλογισμό».[26] Το Minerva βασίζεται στο μοντέλο PaLM, το οποίο εκπαιδεύεται περαιτέρω σε μαθηματικά και επιστημονικά δεδομένα.
BLOOM 02022-07-01Ιουλίου 1, 2022 Διευρυμένη συνεργασία με επικεφαλής το Hugging Face 175 δισεκατομμύρια 350 δισεκατομμύρια tokens (1.6TB)[27] Responsible AI Ουσιαστικά GPT-3, αλλά εκπαιδευμένο σε ένα πολύγλωσσο σώμα κειμένων (30% Αγγλικά, εξαιρουμένων των γλωσσών προγραμματισμού)
Galactica 02022-11-01Νοέμβριος 1, 2022 Meta 120 δισεκατομμύρια 106 δισεκατομμύρια tokens CC-BY-NC-4.0 Εκπαιδεύτηκε σε επιστημονικά κείμενα και μεθόδους.
AlexaTM (Teacher Models) 02022-11-01Νοέμβριος 1, 2022 Amazon 20 δισεκατομμύρια[28] 1.3 τρισεκατομμύρια δημόσια διαθέσιμη διαδικτυακή διεπαφή προγραμματισμού εφαρμογών[29] αμφίδρομη αρχιτεκτονική ακολουθίας-προς-ακολουθία
LLaMA (Large Language Model Meta AI) 02023-02-01Φεβρουάριος 1, 2023 Meta 65 δισεκατομμύρια 1.4 τρισεκατομμύρια μη εμπορική έρευνα[ε] Εκπαιδεύτηκε σε ένα μεγάλο σώμα κειμένων 20 γλωσσών με στόχο καλύτερες επιδόσεις με λιγότερες παραμέτρους. Ερευνητές από το Πανεπιστήμιο του Στάνφορντ εκπαίδευσαν ένα λεπτομερώς ρυθμισμένο μοντέλο με βάση τις σταθμίσεις LLaMA, το οποίο ονομάζεται Alpaca.[30]
GPT-4 02023-03-01Μάρτιος 1, 2023 OpenAI Άγνωστο[ζ] Άγνωστο δημόσια διαθέσιμη διαδικτυακή διεπαφή προγραμματισμού εφαρμογών Διατίθεται για τους χρήστες του ChatGPT Plus και χρησιμοποιείται σε διάφορα προϊόντα.
Cerebras-GPT 02023-03-01Μάρτιος 1, 2023 Cerebras 13 δισεκατομμύρια[32] Apache 2.0 Εκπαιδευμένο με τη μέθοδο Chinchilla.
Falcon 02023-03-01Μάρτιος 1, 2023 Technology Innovation Institute 40 δισεκατομμύρια[33] 1 τρισεκατομμύρια tokens (1TB)[33] ιδιόκτητη τεχνολογία Υποστηρίζεται ότι το μοντέλο χρησιμοποιεί μόνο το 75% του υπολογισμού εκπαίδευσης του GPT-3, το 40% του υπολογισμού του Chinchilla και το 80% του υπολογισμού του PaLM-62B.
BloombergGPT 02023-03-01Μάρτιος 1, 2023 Bloomberg L.P. 50 δισεκατομμύρια Σύνολο δεδομένων 363 δισεκατομμύρια tokens με βάση τις πηγές δεδομένων του Bloomberg, καθώς και 345 δισεκατομμύρια tokens από σύνολα δεδομένων γενικού σκοπού[34] ιδιόκτητη τεχνολογία LLM εκπαιδευμένο σε χρηματοοικονομικά δεδομένα από πηγές ιδιόκτητης τεχνολογίας, το οποίο «ξεπερνά τα υπάρχοντα μοντέλα σε χρηματοοικονομικές εργασίες με σημαντικά περιθώρια χωρίς να θυσιάζει τις επιδόσεις σε γενικά LLM benchmarks»
PanGu-Σ 02023-03-01Μάρτιος 1, 2023 Huawei 1.085 τρισεκατομμύρια 329 δισεκατομμύρια tokens[35] ιδιόκτητη τεχνολογία

Σημειώσεις

Επεξεργασία
  1. Η ημερομηνία κατά την οποία κυκλοφόρησε για πρώτη φορά η τεκμηρίωση που περιγράφει την αρχιτεκτονική του μοντέλου.
  2. Σε πολλές περιπτώσεις, οι ερευνητές εκδίδουν ή αναφέρουν πολλαπλές εκδόσεις ενός μοντέλου με διαφορετικά μεγέθη. Σε αυτές τις περιπτώσεις, εδώ αναφέρεται το μέγεθος του μεγαλύτερου μοντέλου.
  3. Πρόκειται για την άδεια χρήσης των προ-εκπαιδευμένων συντελεστών βαρύτητας του μοντέλου. Σχεδόν σε όλες τις περιπτώσεις ο ίδιος ο κώδικας εκπαίδευσης είναι ανοικτού κώδικα ή μπορεί εύκολα να αναπαραχθεί.
  4. Τα μικρότερα μοντέλα, συμπεριλαμβανομένου του 66B, είναι διαθέσιμα στο κοινό, ενώ το μοντέλο 175B διατίθεται κατόπιν αιτήματος.
  5. Το σύστημα αδειοδότησης και διανομής του Facebook περιόριζε την πρόσβαση σε εγκεκριμένους ερευνητές, αλλά τα σταθμά του μοντέλου διέρρευσαν και έγιναν ευρέως διαθέσιμα.
  6. Όπως αναφέρεται στην τεχνική έκθεση: «Δεδομένου τόσο του ανταγωνιστικού τοπίου όσο και των επιπτώσεων στην ασφάλεια των μοντέλων μεγάλης κλίμακας όπως το GPT-4, η παρούσα έκθεση δεν περιέχει περαιτέρω λεπτομέρειες σχετικά με την αρχιτεκτονική (συμπεριλαμβανομένου του μεγέθους του μοντέλου), το υλικό, τον υπολογισμό εκπαίδευσης, την κατασκευή συνόλου δεδομένων, τη μέθοδο εκπαίδευσης ...».[31]

Παραπομπές

Επεξεργασία
  1. 1,0 1,1 1,2 1,3 1,4 1,5 Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten και άλλοι. (31 August 2022). «Emergent Abilities of Large Language Models» (στα αγγλικά). Transactions on Machine Learning Research. ISSN 2835-8856. https://openreview.net/forum?id=yzkSU5zdwD. 
  2. 2,0 2,1 Bowman, Samuel R.. Eight Things to Know about Large Language Models. https://cims.nyu.edu/~sbowman/eightthings.pdf. 
  3. Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin και άλλοι. (November 2022). «Survey of Hallucination in Natural Language Generation» (pdf). ACM Computing Surveys (Association for Computing Machinery) 55 (12): 1–38. doi:10.1145/3571730. https://dl.acm.org/doi/pdf/10.1145/3571730. Ανακτήθηκε στις 15 January 2023. 
  4. Ornes, Stephen (16 Μαρτίου 2023). «The Unpredictable Abilities Emerging From Large AI Models». Quanta Magazine. 
  5. Zaib, Munazza; Sheng, Quan Z.; Emma Zhang, Wei (4 February 2020). «A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP». Proceedings of the Australasian Computer Science Week Multiconference: 1–4. doi:10.1145/3373017.3373028. ISBN 9781450376976. https://www.researchgate.net/publication/338931711. 
  6. Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (December 2015). «Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books». 2015 IEEE International Conference on Computer Vision (ICCV): 19–27. doi:10.1109/ICCV.2015.11. ISBN 978-1-4673-8391-2. https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Zhu_Aligning_Books_and_ICCV_2015_paper.pdf. Ανακτήθηκε στις 11 April 2023. 
  7. Biderman, Stella; Schoelkopf, Hailey; Anthony, Quentin; Bradley, Herbie; Khan, Mohammad Aflah; Purohit, Shivanshu; Prashanth, USVSN Sai (April 2023). «Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling».
     [cs.CL]
    .
     

  8. «BERT». 13 Μαρτίου 2023 – μέσω GitHub. 
  9. Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin; Callison-Burch, Chris (2022). «Bidirectional Language Models Are Also Few-shot Learners» (στα αγγλικά). ArXiv. https://www.semanticscholar.org/paper/Bidirectional-Language-Models-Are-Also-Few-shot-Patel-Li/b65b7f480a61d3dd31d8117b349cabc87c8ccf6c. 
  10. «Better language models and their implications». openai.com. 
  11. 11,0 11,1 «OpenAI's GPT-3 Language Model: A Technical Overview». lambdalabs.com (στα Αγγλικά). 
  12. «gpt-2». GitHub. Ανακτήθηκε στις 13 Μαρτίου 2023. 
  13. «GPT Neo». 15 Μαρτίου 2023. 
  14. Iyer, Abhishek (15 Μαΐου 2021). «GPT-3's free alternative GPT-Neo is something to be excited about». VentureBeat. 
  15. «GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront». www.forefront.ai (στα Αγγλικά). Αρχειοθετήθηκε από το πρωτότυπο στις 9 Μαρτίου 2023. Ανακτήθηκε στις 28 Φεβρουαρίου 2023. 
  16. 16,0 16,1 Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace και άλλοι. (31 December 2020). «The Pile: An 800GB Dataset of Diverse Text for Language Modeling».
     [cs.CL]
    .
     

  17. Alvi, Ali· Kharya, Paresh (11 Οκτωβρίου 2021). «Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model». Microsoft Research. 
  18. Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu; Gong, Weibao; Feng, Shikun; Shang, Junyuan και άλλοι. (December 23, 2021). ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation. 
  19. «Product». Anthropic (στα Αγγλικά). Ανακτήθηκε στις 14 Μαρτίου 2023. 
  20. Askell, Amanda; Bai, Yuntao; Chen, Anna; Drain, Dawn; Ganguli, Deep; Henighan, Tom; Jones, Andy; Joseph, Nicholas και άλλοι. (9 December 2021). «A General Language Assistant as a Laboratory for Alignment».
     [cs.CL]
    .
     

  21. «Language modelling at scale: Gopher, ethical considerations, and retrieval». www.deepmind.com (στα Αγγλικά). Ανακτήθηκε στις 20 Μαρτίου 2023. 
  22. 22,0 22,1 Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne και άλλοι. (29 March 2022). «Training Compute-Optimal Large Language Models».
     [cs.CL]
    .
     

  23. «Democratizing access to large-scale language models with OPT-175B». ai.facebook.com (στα Αγγλικά). 
  24. 24,0 24,1 Khrushchev, Mikhail; Vasilev, Ruslan; Petrov, Alexey; Zinov, Nikolay (2022-06-22), YaLM 100B, https://github.com/yandex/YaLM-100B, ανακτήθηκε στις 2023-03-18 
  25. Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk; Ramasesh, Vinay; Slone, Ambrose; Anil, Cem και άλλοι. (30 June 2022). «Solving Quantitative Reasoning Problems with Language Models».
     [cs.CL]
    .
     

  26. «Minerva: Solving Quantitative Reasoning Problems with Language Models». ai.googleblog.com (στα Αγγλικά). Ανακτήθηκε στις 20 Μαρτίου 2023. 
  27. «bigscience/bloom · Hugging Face». huggingface.co. 
  28. «20B-parameter Alexa model sets new marks in few-shot learning». Amazon Science (στα Αγγλικά). 2 Αυγούστου 2022. 
  29. «AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog». aws.amazon.com. 17 Νοεμβρίου 2022. Ανακτήθηκε στις 13 Μαρτίου 2023. 
  30. «Stanford CRFM». crfm.stanford.edu. 
  31. «GPT-4 Technical Report» (PDF). OpenAI. 2023. Αρχειοθετήθηκε (PDF) από το πρωτότυπο στις 14 Μαρτίου 2023. Ανακτήθηκε στις 14 Μαρτίου 2023. 
  32. Dey, Nolan (28 Μαρτίου 2023). «Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models». Cerebras. 
  33. 33,0 33,1 «Abu Dhabi-based TII launches its own version of ChatGPT». tii.ae. 
  34. Wu, Shijie; Irsoy, Ozan; Lu, Steven; Dabravolski, Vadim; Dredze, Mark; Gehrmann, Sebastian; Kambadur, Prabhanjan; Rosenberg, David και άλλοι. (March 30, 2023). BloombergGPT: A Large Language Model for Finance. 
  35. Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda και άλλοι. (March 19, 2023). PanGu-Σ: Towards τρισεκατομμύρια Parameter Language Model with Sparse Heterogeneous Computing.