Πρόσφατα Το Facebook αποκάλυψε μέσα από δημοσίευμα οι εξελίξεις του Έργο NLLB (No Language Left Behind), στόχος του οποίου είναι η δημιουργία ένα καθολικό μοντέλο μηχανικής μάθησης για μετάφραση απευθείας κείμενο από τη μια γλώσσα στην άλλη, παρακάμπτοντας την ενδιάμεση μετάφραση στα αγγλικά.
Το προτεινόμενο μοντέλο καλύπτει περισσότερες από 200 γλώσσες, συμπεριλαμβανομένων σπάνιων αφρικανικών και αυστραλιανών γλωσσών και απώτερος στόχος του έργου είναι να παρέχει ένα μέσο επικοινωνίας για όλους τους ανθρώπους, ανεξάρτητα από τη γλώσσα που μιλούν.
Για να βοηθήσουν τους ανθρώπους να συνδεθούν καλύτερα σήμερα και να γίνουν μέρος του αυριανού μετασύμπαντος, οι ερευνητές της Meta AI δημιούργησαν το No Language Left Behind (NLLB), μια προσπάθεια ανάπτυξης δυνατοτήτων μηχανικής μετάφρασης υψηλής ποιότητας για τις περισσότερες από τις γλώσσες του κόσμου.
Σήμερα ανακοινώνουμε μια σημαντική πρόοδο στο NLLB: δημιουργήσαμε ένα ενιαίο μοντέλο AI που ονομάζεται NLLB-200., το οποίο μεταφράζει 200 διαφορετικές γλώσσες με αποτελέσματα αιχμής. Πολλές από αυτές τις γλώσσες, όπως η Kamba και το Λάο, δεν υποστηρίζονταν ούτε από τα καλύτερα διαθέσιμα εργαλεία μετάφρασης σήμερα.
Σχετικά με το έργο αναφέρεται ότι είναι αποσκοπεί στην απλοποίηση της δημιουργίας έργων χρησιμοποιώντας το προτεινόμενο μοντέλο, τον κώδικα εφαρμογής που χρησιμοποιείται για τη δοκιμή και την αξιολόγηση της ποιότητας των μοντέλων (FLORES-200, NLLB-MD, Toxicity-200), τον κώδικα εκπαίδευσης του μοντέλου και τους κωδικοποιητές που βασίζονται στη βιβλιοθήκη LASER3 (Agnostic Software Representation of the idiom). Το τελικό μοντέλο προσφέρεται σε δύο εκδόσεις: πλήρη και μειωμένη. Η μειωμένη έκδοση απαιτεί λιγότερους πόρους και είναι κατάλληλη για δοκιμή και χρήση σε ερευνητικά έργα.
Λιγότερες από 25 αφρικανικές γλώσσες υποστηρίζονται αυτήν τη στιγμή από ευρέως χρησιμοποιούμενα εργαλεία μετάφρασης, πολλά από τα οποία είναι κακής ποιότητας. Αντίθετα, το NLLB-200 υποστηρίζει 55 αφρικανικές γλώσσες με έξοδο υψηλής ποιότητας. Συνολικά, αυτό το μοναδικό μοντέλο μπορεί να παρέχει μεταφράσεις υψηλής ποιότητας για γλώσσες που μιλούν δισεκατομμύρια άνθρωποι σε όλο τον κόσμο. Συνολικά, οι βαθμολογίες NLLB-200 BLEU βελτιώνονται σε σχέση με την προηγούμενη κατάσταση της τέχνης κατά μέσο όρο 44 τοις εκατό και στις 10 κατευθύνσεις του δείκτη αναφοράς FLORES-101. Για ορισμένες αφρικανικές και ινδικές γλώσσες, η αύξηση είναι μεγαλύτερη από 70 τοις εκατό σε σχέση με τα πρόσφατα μεταφραστικά συστήματα.
Σε αντίθεση με άλλα συστήματα μετάφρασης μηχανικής μάθησης, Η λύση του Facebook ξεχωρίζει για την προσφορά ενός κοινού μοντέλου και για τις 200 γλώσσες, το οποίο καλύπτει όλες τις γλώσσες και δεν απαιτεί ξεχωριστά μοντέλα για κάθε γλώσσα.
Η μετάφραση γίνεται απευθείας από τη γλώσσα πηγής στη γλώσσα στόχο, χωρίς ενδιάμεση μετάφραση στα αγγλικά. Για τη δημιουργία καθολικών μεταφραστικών συστημάτων, προτείνεται ένα πρόσθετο μοντέλο LID (Language IDentification), το οποίο επιτρέπει τον προσδιορισμό της γλώσσας που χρησιμοποιείται. Εκείνοι. το σύστημα μπορεί να αναγνωρίσει αυτόματα τη γλώσσα στην οποία παρέχονται οι πληροφορίες και να τις μεταφράσει στη γλώσσα του χρήστη.
Η μετάφραση υποστηρίζεται προς οποιαδήποτε κατεύθυνση, μεταξύ οποιασδήποτε από τις 200 υποστηριζόμενες γλώσσες. Για να επιβεβαιωθεί η ποιότητα της μετάφρασης μεταξύ οποιασδήποτε γλώσσας, ετοιμάστηκε το σετ δοκιμής αναφοράς FLORES-200, το οποίο έδειξε ότι το μοντέλο NLLB-200, όσον αφορά την ποιότητα μετάφρασης, είναι κατά μέσο όρο 44% ανώτερο από τα συστήματα FLORES-70. πρότεινε έρευνα που βασίζεται στη μηχανική μάθηση κατά τη χρήση μετρήσεων BLEU που συγκρίνουν τη μηχανική μετάφραση με την τυπική ανθρώπινη μετάφραση. Για τις σπάνιες αφρικανικές γλώσσες και τις ινδικές διαλέκτους, η υπεροχή σε ποιότητα φτάνει το XNUMX%. Μπορείτε να αξιολογήσετε οπτικά την ποιότητα της μετάφρασης σε έναν ειδικά προετοιμασμένο ιστότοπο επίδειξης.
Για όσους ενδιαφέρονται για το έργο, θα πρέπει να γνωρίζουν ότι το Το μοντέλο διατίθεται με άδεια Creative Commons BY-NC 4.0, που επιτρέπει την αντιγραφή, τη διανομή, τη συμπερίληψη στα έργα σας και τη δημιουργία παράγωγων έργων, αλλά υπόκεινται σε απόδοση, διατήρηση άδειας χρήσης και χρήση μόνο για μη εμπορικούς σκοπούς. Το εργαλείο μοντελοποίησης έχει άδεια χρήσης βάσει της άδειας MIT. Για να τονωθεί η ανάπτυξη χρησιμοποιώντας το μοντέλο NLLB, αποφασίστηκε να διατεθούν 200 $ για τη χορήγηση υποτροφιών σε ερευνητές.
Τελικά αν ενδιαφέρεστε να μάθετε περισσότερα γι 'αυτό σχετικά με τη σημείωση, μπορείτε να ανατρέξετε στην αρχική δημοσίευση Στον ακόλουθο σύνδεσμο.