GPT-4: Η τεχνητή νοημοσύνη επεξεργασίας φυσικής γλώσσας του OpenAI θα μπορούσε να φτάσει στο τέλος αυτού του εξαμήνου

Τον Μάιο του 2020, η OpenAI, η εταιρεία τεχνητής νοημοσύνης που συνιδρύθηκε από τους Elon Musk και Sam Altman, δημοσίευσε το GPT-3, το οποίο στη συνέχεια παρουσιάστηκε ως το μεγάλο νευρωνικό δίκτυο της στιγμής. Ένα υπερσύγχρονο γλωσσικό μοντέλο, Το GPT-3 περιλαμβάνει 175 δισεκατομμύρια παραμέτρους σε σύγκριση με τις 1,5 δισεκατομμύρια παραμέτρους του προκατόχου του GPT-2.

GPT-3 κέρδισε το μοντέλο NLG Turing (Turing Natural Language Generation) από τη Microsoft με 17 δισεκατομμύρια παραμέτρους που κατείχαν προηγουμένως το ρεκόρ για το μεγαλύτερο νευρωνικό δίκτυο. Το γλωσσικό μοντέλο έχει εκπλαγεί, έχει επικριθεί και μάλιστα έχει υποβληθεί σε έλεγχο. έχει επίσης βρει νέες και ενδιαφέρουσες εφαρμογές.

Και τώρα έχουν κυκλοφορήσει φήμες ότι η κυκλοφορία του GPT-4, η επόμενη έκδοση του μοντέλου γλώσσας OpenAI, θα μπορούσε να κυκλοφορήσει σύντομα.

Αν και δεν έχει ανακοινωθεί ακόμη ημερομηνία κυκλοφορίας, Το OpenAI έχει δώσει κάποιες ενδείξεις για τα χαρακτηριστικά του διαδόχου του GPT-3, με τα οποία πολλοί θα περίμεναν, ότι το GPT-4 δεν θα πρέπει να είναι μεγαλύτερο από το GPT-3, αλλά θα πρέπει να χρησιμοποιεί περισσότερους υπολογιστικούς πόρους, που θα περιορίσουν τις περιβαλλοντικές του επιπτώσεις.

Κατά τη διάρκεια της συνεδρίας, Ο Άλτμαν το άφησε να εννοηθεί, σε αντίθεση με τη δημοφιλή πεποίθηση, Το GPT-4 δεν θα είναι το μεγαλύτερο μοντέλο γλώσσας. Το μοντέλο θα είναι αναμφίβολα μεγαλύτερο από τις προηγούμενες γενιές νευρωνικών δικτύων, αλλά το μέγεθος δεν θα είναι το χαρακτηριστικό του.

Πρώτον, οι εταιρείες έχουν συνειδητοποιήσει ότι η χρήση του μεγέθους του μοντέλου ως δείκτη για τη βελτίωση της απόδοσης δεν είναι ο μόνος ή ο καλύτερος τρόπος για να γίνει αυτό. Το 2020, ο Jared Kaplan και οι συνάδελφοί του στο OpenAI φέρεται να κατέληξαν στο συμπέρασμα ότι η απόδοση βελτιώνεται περισσότερο όταν οι αυξήσεις στον υπολογιστικό προϋπολογισμό κατανέμονται κυρίως στην αύξηση του αριθμού των παραμέτρων, μετά από μια σχέση εξουσίας-νόμου. Η Google, η Nvidia, η Microsoft, η OpenAI, η DeepMind και άλλες εταιρείες που αναπτύσσουν μοντέλα γλώσσας έχουν λάβει αυτές τις οδηγίες στην ονομαστική τους αξία.

Αλλά το MT-NLG (Megatron-Turing NLG, ένα νευρωνικό δίκτυο που κατασκευάστηκε από την Nvidia και τη Microsoft πέρυσι με 530 δισεκατομμύρια παραμέτρους), όσο και αν είναι υπέροχο, δεν είναι το καλύτερο όσον αφορά την απόδοση. Στην πραγματικότητα, δεν έχει βαθμολογηθεί ως το καλύτερο σε καμία κατηγορία αναφοράς. Μικρότερα μοντέλα όπως το Gopher ή το Chinchilla (70 δισεκατομμύρια παράμετροι), μόνο ένα κλάσμα του μεγέθους τους, θα ήταν πολύ καλύτερα από το MT-NLG σε όλες τις εργασίες. Έτσι, έγινε σαφές ότι το μέγεθος του μοντέλου δεν είναι ο μόνος παράγοντας που οδηγεί σε καλύτερη κατανόηση της γλώσσας.

Σύμφωνα με τον Altman, τα γλωσσικά μοντέλα υποφέρουν από έναν κρίσιμο περιορισμό. όταν πρόκειται για βελτιστοποίηση. Η εκπαίδευση θα ήταν τόσο δαπανηρή που οι εταιρείες θα έπρεπε να συμβιβαστούν μεταξύ της ακρίβειας και του κόστους. Αυτό οδηγεί συχνά σε κακή βελτιστοποίηση των μοντέλων.

Ο Διευθύνων Σύμβουλος ανέφερε ότι το GPT-3 εκπαιδεύτηκε μόνο μία φορά, παρά ορισμένα λάθη που σε άλλες περιπτώσεις θα είχαν οδηγήσει σε επανεκπαίδευση. Εξαιτίας αυτού, το OpenAI φέρεται να αποφάσισε να μην το κάνει λόγω του μη προσιτού κόστους, το οποίο εμπόδισε τους ερευνητές να βρουν το καλύτερο σύνολο υπερπαραμέτρων για το μοντέλο.

Μια άλλη συνέπεια του υψηλού κόστους εκπαίδευσης είναι ότι οι αναλύσεις της συμπεριφοράς του μοντέλου θα ήταν περιορισμένες. Σύμφωνα με μια αναφορά, όταν οι ερευνητές της τεχνητής νοημοσύνης κατέληξαν στο συμπέρασμα ότι το μέγεθος του μοντέλου ήταν η πιο σχετική μεταβλητή για τη βελτίωση της απόδοσης, δεν έλαβαν υπόψη τον αριθμό των κουπονιών εκπαίδευσης, δηλαδή τον όγκο των δεδομένων που παρέχονται στα μοντέλα. Αυτό θα απαιτούσε εξαιρετικά ποσά υπολογιστικών πόρων. Οι εταιρείες τεχνολογίας φέρεται να ακολούθησαν τα ευρήματα των ερευνητών επειδή ήταν ότι καλύτερο είχαν.

Altman είπε ότι το GPT-4 θα χρησιμοποιήσει πολύ περισσότερους υπολογισμούς από τον προκάτοχό του. Το OpenAI αναμένεται να εφαρμόσει ιδέες που σχετίζονται με τη βελτιστοποίηση στο GPT-4, αν και σε ποιο βαθμό δεν μπορεί να προβλεφθεί καθώς ο προϋπολογισμός του είναι άγνωστος.

Ωστόσο, οι δηλώσεις του Ο Altman δείχνει ότι το OpenAI θα πρέπει να επικεντρωθεί στη βελτιστοποίηση μεταβλητών εκτός του μεγέθους του μοντέλου.. Η εύρεση του καλύτερου συνόλου υπερπαραμέτρων, του βέλτιστου μεγέθους μοντέλου και του αριθμού παραμέτρων θα μπορούσε να οδηγήσει σε απίστευτες βελτιώσεις σε όλα τα σημεία αναφοράς.

Σύμφωνα με τους αναλυτές, όλες οι προβλέψεις για τα γλωσσικά μοντέλα θα καταρρεύσουν εάν αυτές οι προσεγγίσεις συνδυαστούν σε ένα ενιαίο μοντέλο. Ο Άλτμαν είπε επίσης ότι οι άνθρωποι δεν θα πίστευαν πόσο καλύτερα μπορεί να είναι τα μοντέλα χωρίς να είναι απαραίτητα μεγαλύτερα. Μπορεί να υποδηλώνει ότι οι προσπάθειες κλιμάκωσης έχουν τελειώσει προς το παρόν.

Το OpenAI φέρεται να κατέβαλε μεγάλη προσπάθεια για την επίλυση του προβλήματος της ευθυγράμμισης της τεχνητής νοημοσύνης: πώς να κάνουμε τα γλωσσικά μοντέλα να ακολουθούν τις ανθρώπινες προθέσεις και να τηρούν τις ανθρώπινες αξίες;

Οι αναλυτές λένε ότι αυτό δεν είναι μόνο ένα δύσκολο μαθηματικό πρόβλημα (πώς κάνουμε το AI να καταλάβει τι ακριβώς θέλουμε;), αλλά και ένα φιλοσοφικό (δεν υπάρχει καθολικός τρόπος ευθυγράμμισης της τεχνητής νοημοσύνης με τους ανθρώπους, καθώς η μεταβλητότητα των ανθρώπινων αξιών από ομάδα σε ομάδα είναι τεράστια και συχνά αντικρουόμενη).

Τελικά αν ενδιαφέρεστε να μάθετε περισσότερα γι 'αυτόμπορείτε να ανατρέξετε στην αρχική ανάρτηση Στον ακόλουθο σύνδεσμο.

Αφήστε το σχόλιό σας Ακύρωση απάντησης

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

σχόλιο *

όνομα*

ηλεκτρονικό ταχυδρομείο*

δέχομαι το τους όρους προστασίας της ιδιωτικής ζωής*

Υπεύθυνος για τα δεδομένα: Miguel Ángel Gatón
Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
Νομιμοποίηση: Η συγκατάθεσή σας
Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.

Θέλω να λαμβάνω το ενημερωτικό δελτίο

DesdeLinux

GPT-4: Το AI επεξεργασίας φυσικής γλώσσας του OpenAI θα μπορούσε να φτάσει αργότερα αυτό το εξάμηνο

Αφήστε το σχόλιό σας Ακύρωση απάντησης