Κυκλοφόρησαν τον πηγαίο κώδικα του Whisper, ενός συστήματος αυτόματης αναγνώρισης ομιλίας

Whisper - Ακουστικά

Το Whisper είναι ένα αυτόματο σύστημα αναγνώρισης ομιλίας

Το έργο πρόσφατα OpenAI, η οποία αναπτύσσει δημόσια έργα στον τομέα της τεχνητής νοημοσύνης, έχει δημοσιεύσει νέα που σχετίζονται με το σύστημα αναγνώρισης φωνής Ψίθυρος, που είναι α σύστημα αυτόματης αναγνώρισης ομιλίας (ASR) εκπαιδεύτηκε σε 680.000 ώρες πολύγλωσσων, πολλαπλών εργασιών εποπτευόμενων δεδομένων που συλλέγονται από τον Ιστό.

Υποστηρίζεται ότι για την αγγλική ομιλία, το σύστημα παρέχει επίπεδα αξιοπιστίας και ακρίβειας αυτόματης αναγνώρισης κοντά στην ανθρώπινη αναγνώριση.

Δείχνουμε ότι η χρήση ενός τόσο μεγάλου και διαφορετικού συνόλου δεδομένων οδηγεί σε μεγαλύτερη ευρωστία στους τόνους, στο θόρυβο του περιβάλλοντος και στην τεχνική γλώσσα. Επιπλέον, επιτρέπει τη μεταγραφή σε διάφορες γλώσσες, καθώς και τη μετάφραση αυτών των γλωσσών στα αγγλικά. Είμαστε μοντέλα ανοιχτού κώδικα και κώδικας συμπερασμάτων που χρησιμεύουν ως βάση για τη δημιουργία χρήσιμων εφαρμογών και για μελλοντική έρευνα σχετικά με την ισχυρή επεξεργασία ομιλίας.

Σχετικά με το μοντέλο (όπως ήδη αναφέρθηκε) εκπαιδεύτηκε χρησιμοποιώντας 680 ώρες φωνητικών δεδομένων που συλλέγονται από διάφορες συλλογές που καλύπτουν διαφορετικές γλώσσες και θεματικές περιοχές. Περίπου το 1/3 των φωνητικών δεδομένων που εμπλέκονται στην εκπαίδευση είναι σε άλλες γλώσσες εκτός από τα αγγλικά.

Το προτεινόμενο σύστημα χειρίζεται σωστά καταστάσεις όπως η τονισμένη προφορά, η παρουσία θορύβου περιβάλλοντος και η χρήση τεχνικής ορολογίας. Εκτός από τη μεταγραφή της ομιλίας σε κείμενο, το σύστημα μπορεί επίσης να μεταφράσει ομιλία από μια αυθαίρετη γλώσσα στα αγγλικά και να ανιχνεύσει την εμφάνιση της ομιλίας στη ροή ήχου.

Τα μοντέλα εκπαιδεύονται σε δύο αναπαραστάσεις: ένα μοντέλο για την αγγλική γλώσσα και ένα πολύγλωσσο μοντέλο που υποστηρίζει ισπανικά, ρωσικά, ιταλικά, γερμανικά, ιαπωνικά, ουκρανικά, λευκορωσικά, κινέζικα και άλλες γλώσσες. Με τη σειρά του, κάθε προβολή χωρίζεται σε 5 επιλογές, οι οποίες διαφέρουν ως προς το μέγεθος και τον αριθμό των παραμέτρων που καλύπτονται στο μοντέλο.

Η αρχιτεκτονική Whisper είναι μια απλή προσέγγιση από άκρο σε άκρο, που υλοποιείται ως μετασχηματιστής κωδικοποιητή-αποκωδικοποιητή. Ο ήχος εισόδου χωρίζεται σε κομμάτια των 30 δευτερολέπτων, μετατρέπεται σε φασματογράφημα log-Mel και στη συνέχεια περνά σε έναν κωδικοποιητή. Ένας αποκωδικοποιητής εκπαιδεύεται να προβλέπει τον αντίστοιχο υπότιτλο κειμένου, διάσπαρτος με ειδικά διακριτικά που κατευθύνουν το μοναδικό μοντέλο για να εκτελέσει εργασίες όπως αναγνώριση γλώσσας, χρονικές σημάνσεις σε επίπεδο πρότασης, πολυγλωσσική μεταγραφή ομιλίας και μετάφραση ομιλίας στα αγγλικά.

Όσο μεγαλύτερο είναι το μέγεθος, τόσο μεγαλύτερη είναι η ακρίβεια και η ποιότητα αναγνώρισης, αλλά και τόσο υψηλότερες είναι οι απαιτήσεις για το μέγεθος της μνήμης βίντεο GPU και τόσο χαμηλότερη είναι η απόδοση. Για παράδειγμα, η ελάχιστη επιλογή περιλαμβάνει 39 εκατομμύρια παραμέτρους και απαιτεί 1 GB μνήμης βίντεο, ενώ η μέγιστη επιλογή περιλαμβάνει 1550 δισεκατομμύρια παραμέτρους και απαιτεί 10 GB μνήμης βίντεο. Η ελάχιστη παραλλαγή είναι 32 φορές ταχύτερη από τη μέγιστη.

Το σύστημα χρησιμοποιεί την αρχιτεκτονική νευρωνικού δικτύου «Transformer», που περιλαμβάνει έναν κωδικοποιητή και έναν αποκωδικοποιητή που αλληλεπιδρούν μεταξύ τους. Ο ήχος χωρίζεται σε κομμάτια των 30 δευτερολέπτων, τα οποία μετατρέπονται σε φασματόγραμμα log-Mel και αποστέλλονται στον κωδικοποιητή.

Το αποτέλεσμα της εργασίας του κωδικοποιητή αποστέλλεται στον αποκωδικοποιητή, το οποίο προβλέπει μια αναπαράσταση κειμένου σε συνδυασμό με ειδικά διακριτικά που επιτρέπουν την επίλυση εργασιών όπως η ανίχνευση γλώσσας, η καταμέτρηση χρονολογίας προφοράς προτάσεων, η μεταγραφή ομιλίας σε διαφορετικές γλώσσες και η αγγλική μετάφραση σε ένα γενικό μοντέλο.

Αξίζει να σημειωθεί ότι η απόδοση του Whisper ποικίλλει σημαντικά ανάλογα με τη γλώσσα, επομένως αυτή που παρουσιάζει καλύτερη κατανόηση είναι τα αγγλικά, τα οποία έχουν τέσσερις εκδόσεις μόνο στα αγγλικά, τα οποία, όπως και τα άλλα μοντέλα άλλων γλωσσών, προσφέρουν πλεονεκτήματα και μειονεκτήματα. ταχύτητα και ακρίβεια.

Τελικά Εάν ενδιαφέρεστε να μάθετε περισσότερα γι 'αυτό, μπορείτε να ελέγξετε την αρχική δημοσίευση αυτή η σύνδεση, ενώ αν ενδιαφέρεστε για τον πηγαίο κώδικα και τα εκπαιδευμένα μοντέλα μπορείτε να τα συμβουλευτείτε στο αυτό το σύνδεσμο.

Ο κώδικας υλοποίησης αναφοράς που βασίζεται στο πλαίσιο PyTorch και ένα σύνολο ήδη εκπαιδευμένων μοντέλων είναι ανοιχτά, έτοιμα για χρήση. Ο κώδικας είναι ανοιχτού κώδικα με άδεια MIT και αξίζει να αναφέρουμε ότι απαιτείται η χρήση της βιβλιοθήκης ffmpeg.


Αφήστε το σχόλιό σας

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

*

*

  1. Υπεύθυνος για τα δεδομένα: Miguel Ángel Gatón
  2. Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
  3. Νομιμοποίηση: Η συγκατάθεσή σας
  4. Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
  5. Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
  6. Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.