FlexGen, ένας κινητήρας για τη λειτουργία bots AI σε μία μόνο GPU

FlexGen

Το FlexGen είναι ένας κινητήρας που έχει κατασκευαστεί με σκοπό τη μείωση των απαιτήσεων πόρων συμπερασμάτων των μεγάλων γλωσσικών μοντέλων σε μια ενιαία GPU.

Τα νέα κυκλοφόρησαν πρόσφατα ότι μια ομάδα ερευνητών από το Πανεπιστήμιο του Στάνφορντ, το Πανεπιστήμιο της Καλιφόρνια στο Μπέρκλεϋ, το ETH Ζυρίχης, το Graduate School of Economics, το Πανεπιστήμιο Carnegie Mellon, καθώς και Η Yandex και η Meta δημοσίευσαν τον πηγαίο κώδικα του un μηχανή για τη λειτουργία μεγάλων γλωσσικών μοντέλων σε συστήματα με περιορισμένους πόρους.

με κωδικό όνομα Το «FlexGen», είναι ένα έργο που στοχεύει στη σημαντική μείωση του απαιτήσεις πόρους για πράξεις συμπερασμάτων LLM. Δημοσιευμένο στο GitHub, το FlexGen απαιτεί μόνο Python και PyTorch, αλλά συνήθως μπορεί να χρησιμοποιηθεί με μία μόνο GPU όπως η NVIDIA Tesla T4 ή η GeForce RTX 3090.

Π.χ. ο κινητήρας παρέχει τη δυνατότητα δημιουργίας λειτουργιών που θυμίζουν ChatGPT και Copilot τρέχει ένα προεκπαιδευμένο μοντέλο OPT-175B που καλύπτει 175 δισεκατομμύρια παραμέτρους σε έναν κανονικό υπολογιστή με κάρτα γραφικών παιχνιδιών NVIDIA RTX3090 εξοπλισμένη με 24 GB μνήμης βίντεο.

Αναφέρεται ότι τα μοντέλα (LLM) υποστηρίζουν τη λειτουργία εργαλείων όπως το ChatGPT και το Copilot. Πρόκειται για μεγάλα μοντέλα που χρησιμοποιούν δισεκατομμύρια παραμέτρους και εκπαιδεύονται σε τεράστιες ποσότητες δεδομένων.

Οι υψηλές απαιτήσεις υπολογισμού και μνήμης για εργασίες εξαγωγής συμπερασμάτων LLM απαιτούν γενικά τη χρήση επιταχυντών υψηλής τεχνολογίας.

Χαιρόμαστε που το κοινό είναι πραγματικά ενθουσιασμένο με το FlexGen. Ωστόσο, η δουλειά μας είναι ακόμη σε προετοιμασία και δεν είναι ακόμη έτοιμη για δημόσια κυκλοφορία/ανακοίνωση. Από τα πρώτα σχόλια σχετικά με αυτό το έργο, συνειδητοποιήσαμε ότι οι πρώτες εκδόσεις αυτού του README και του εγγράφου μας ήταν ασαφείς σχετικά με τον σκοπό του FlexGen. Αυτή είναι μια προκαταρκτική προσπάθεια μείωσης των απαιτήσεων πόρων των LLM, αλλά έχει επίσης πολλούς περιορισμούς και δεν προορίζεται να αντικαταστήσει περιπτώσεις χρήσης όταν υπάρχουν επαρκείς πόροι.

Το συμπέρασμα LLM είναι μια διαδικασία κατά την οποία ένα γλωσσικό μοντέλο χρησιμοποιείται για τη δημιουργία προβλέψεων σχετικά με το κείμενο εισόδου: περιλαμβάνει τη χρήση ενός μοντέλου γλώσσας, όπως ένα παραγωγικό μοντέλο όπως ένα GPT (Generative Pretrained Transformer), για να γίνουν προβλέψεις σχετικά με το πιο πιθανό να συμβεί. να παρέχεται ως απάντηση μετά από μια συγκεκριμένη εισαγωγή καταγεγραμμένου κειμένου.

Σχετικά με το FlexGen

Το πακέτο περιλαμβάνει ένα δείγμα σεναρίου για τη δημιουργία bots. που επιτρέπει στον χρήστη κατεβάστε ένα από τα δημόσια διαθέσιμα μοντέλα γλώσσας και αρχίστε να συζητάτε αμέσως.

Ως βάση, προτείνεται η χρήση ενός μεγάλου γλωσσικού μοντέλου που δημοσιεύεται από το Facebook, εκπαιδευμένο στις συλλογές BookCorpus (10 χιλιάδες βιβλία), CC-Stories, Pile (OpenSubtitles, Wikipedia, DM Mathematics, HackerNews κ.λπ.), Pushshift.io (βάσει δεδομένων του Reddit)) και CCNewsV2 (αρχείο ειδήσεων).

Το μοντέλο καλύπτει περίπου 180 δισεκατομμύρια μάρκες (800 GB δεδομένων). Χρειάστηκαν 33 ημέρες λειτουργίας του συμπλέγματος με 992 GPU NVIDIA A100 80 GB για την εκπαίδευση του μοντέλου.

Εκτελώντας το OPT-175B σε ένα σύστημα με μία GPU NVIDIA T4 (16 GB), ο κινητήρας FlexGen επέδειξε έως και 100 φορές ταχύτερη απόδοση από τις προηγούμενες λύσεις, καθιστώντας τη χρήση μεγάλων γλωσσικών μοντέλων πιο προσιτή και τους επιτρέπει να λειτουργούν σε συστήματα χωρίς εξειδικευμένους επιταχυντές.

Ταυτόχρονα, το FlexGen μπορεί να κλιμακωθεί για να παραλληλίσει τους υπολογισμούς παρουσία πολλαπλών GPU. Για να μειωθεί το μέγεθος του μοντέλου, χρησιμοποιείται ένα πρόσθετο σχήμα συμπίεσης παραμέτρων και μηχανισμός προσωρινής αποθήκευσης μοντέλου.

Επί του παρόντος, Το FlexGen υποστηρίζει μόνο μοντέλα γλώσσας OPT, αλλά στο μέλλον, οι προγραμματιστές υπόσχονται επίσης να προσθέσουν υποστήριξη για το BLOOM (176 δισεκατομμύρια παραμέτρους, υποστηρίζει 46 γλώσσες και 13 γλώσσες προγραμματισμού), το CodeGen (μπορεί να δημιουργήσει κώδικα σε 22 γλώσσες προγραμματισμού) και το GLM.

Τέλος αξίζει να αναφέρουμε ότι ο κώδικας είναι γραμμένος σε Python, χρησιμοποιεί το πλαίσιο PyTorch και διανέμεται με την άδεια Apache 2.0.

Για Ενδιαφέρεστε να μάθετε περισσότερα για αυτό, μπορείτε να ελέγξετε τις λεπτομέρειες Στον ακόλουθο σύνδεσμο.


Αφήστε το σχόλιό σας

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

*

*

  1. Υπεύθυνος για τα δεδομένα: Miguel Ángel Gatón
  2. Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
  3. Νομιμοποίηση: Η συγκατάθεσή σας
  4. Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
  5. Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
  6. Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.