Η Mozilla παρουσιάζει τη μηχανή αναγνώρισης ομιλίας DeepSpeech 0.9

Βαθιά ομιλία1

Η κυκλοφορία έχει δημοσιευτεί μηχανή αναγνώρισης φωνής DeepSpeech 0.9 που αναπτύχθηκε από τον Mozilla, που εφαρμόζει την αρχιτεκτονική του αναγνώριση ομιλίας με το ίδιο όνομα που πρότειναν οι ερευνητές του Baidu.

Η εφαρμογή γράφεται στο Python χρησιμοποιώντας η πλατφόρμα μηχανικής μάθησης TensorFlow και διανέμεται με τη δωρεάν άδεια MPL 2.0.

Σχετικά με το DeepSpeech

Το DeepSpeech αποτελείται από δύο υποσυστήματα: ένα ακουστικό μοντέλο και έναν αποκωδικοποιητή. Το ακουστικό μοντέλο χρησιμοποιεί τεχνικές βαθιάς μηχανικής εκμάθησης για να υπολογίσει την πιθανότητα ορισμένων χαρακτήρων να υπάρχουν στον ήχο εισόδου.

Ο αποκωδικοποιητής χρησιμοποιεί έναν αλγόριθμο αναζήτησης ακτίνων για να μετατρέψει τα δεδομένα πιθανότητας χαρακτήρα σε αναπαράσταση κειμένου. Το DeepSpeech είναι πολύ απλούστερο από τα παραδοσιακά συστήματα και ταυτόχρονα παρέχει υψηλότερη ποιότητα αναγνώρισης παρουσία εξωτερικού θορύβου.

Η ανάπτυξη δεν χρησιμοποιεί παραδοσιακά ακουστικά μοντέλα και την έννοια των φωνημάτων. Αντ 'αυτού, χρησιμοποιείται ένα καλά βελτιστοποιημένο σύστημα μηχανικής εκμάθησης βασισμένο σε νευρωνικά δίκτυα, το οποίο εξαλείφει την ανάγκη ανάπτυξης ξεχωριστών στοιχείων για τη μοντελοποίηση διαφόρων ανωμαλιών όπως χαρακτηριστικά θορύβου, ηχούς και ομιλίας.

Το κιτ προσφέρει εκπαιδευμένα μοντέλα, δείγματα αρχείων ήχου και εργαλεία αναγνώρισης γραμμής εντολών.

Το τελικό μοντέλο διατίθεται μόνο για Αγγλικά και Κινέζικα. Για άλλες γλώσσες, μπορείτε να μάθετε μόνοι σας το σύστημα σύμφωνα με τις συνημμένες οδηγίες, χρησιμοποιώντας τα δεδομένα φωνής που συλλέγονται από το έργο Common Voice.

Όταν χρησιμοποιείται το έτοιμο προς χρήση μοντέλο της αγγλικής γλώσσας που προσφέρεται για λήψη, Το επίπεδο των σφαλμάτων αναγνώρισης στο DeepSpeech είναι 7.06% όταν αξιολογείται χρησιμοποιώντας τη σουίτα δοκιμής LibriSpeech.

Για σύγκριση, το ποσοστό σφάλματος ανθρώπινης αναγνώρισης εκτιμάται σε 5,83%.

Στο προτεινόμενο μοντέλο, το καλύτερο αποτέλεσμα αναγνώρισης επιτυγχάνεται με μια καθαρή ηχογράφηση μιας ανδρικής φωνής με αμερικανική προφορά σε ένα περιβάλλον χωρίς εξωτερικούς θορύβους.

Σύμφωνα με τον συγγραφέα της Vosk Continuous Speech Recognition Library, τα μειονεκτήματα του κοινού φωνητικού συνόλου είναι η μονόπλευρη όψη του υλικού ομιλίας (η κυριαρχία ανδρών ηλικίας 20 έως 30 ετών και η έλλειψη υλικού με τη φωνή γυναικών, παιδιών και ηλικιωμένοι), η έλλειψη μεταβλητότητας λεξιλογίου (επανάληψη των ίδιων φράσεων) και η διανομή εγγραφών MP3 επιρρεπείς σε παραμόρφωση.

Τα μειονεκτήματα του DeepSpeech περιλαμβάνουν κακή απόδοση και την υψηλή κατανάλωση μνήμης στον αποκωδικοποιητή, καθώς και σημαντικούς πόρους για την εκπαίδευση του μοντέλου (το Mozilla χρησιμοποιεί ένα σύστημα με 8 Quadro RTX 6000 GPU με 24GB VRAM σε κάθε μία).

Το μειονέκτημα αυτής της προσέγγισης είναι αυτό για αναγνώριση και εκπαίδευση υψηλής ποιότητας ενός νευρικού δικτύου, ο κινητήρας DeepSpeech απαιτεί μεγάλη ποσότητα δεδομένων ετερογενής υπαγορεύεται σε πραγματικές συνθήκες από διαφορετικές φωνές και παρουσία φυσικών θορύβων.

Αυτά τα δεδομένα συλλέγονται από το έργο Common Voice που δημιουργήθηκε στο Mozilla, το οποίο παρέχει ένα επαληθευμένο σύνολο δεδομένων με 1469 ώρες στα Αγγλικά, 692 στα Γερμανικά, 554 στα Γαλλικά, 105 ώρες στα Ρωσικά και 22 ώρες στα Ουκρανικά.

Κατά την εκπαίδευση του τελικού αγγλικού μοντέλου για το DeepSpeech, εκτός από το Common Voice, χρησιμοποιούνται επίσης δεδομένα από τα έργα LibriSpeech, Fisher και Switchboard, καθώς και περίπου 1700 ώρες εγγραφών μεταγραμμένων ραδιοφωνικών προγραμμάτων.

Μεταξύ των αλλαγών στον νέο κλάδο, επισημαίνεται η δυνατότητα εξαναγκασμού του βάρους των λέξεων επιλέχθηκε κατά τη διαδικασία αποκωδικοποίησης.

Υποστηρίζεται επίσης η υποστήριξη για την πλατφόρμα Electron 9.2 και μια προαιρετική εφαρμογή του μηχανισμού ομαλοποίησης επιπέδων (Layer Norm) κατά την εκπαίδευση του νευρικού δικτύου.

Λήψη και λήψη

Η απόδοση αρκεί για τη χρήση του κινητήρα στις πλακέτες LePotato, Raspberry Pi 3 και Raspberry Pi 4, καθώς και σε smartphone Google Pixel 2, Sony Xperia Z Premium και Nokia 1.3.

Προσφέρονται έτοιμες ενότητες για χρήση για Python, NodeJS, C ++ και .NET για την ενσωμάτωση λειτουργιών αναγνώρισης ομιλίας στα προγράμματά σας (τρίτοι προγραμματιστές έχουν προετοιμάσει ξεχωριστά λειτουργικές μονάδες για Rust, Go και V).


Αφήστε το σχόλιό σας

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

*

*

  1. Υπεύθυνος για τα δεδομένα: Miguel Ángel Gatón
  2. Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
  3. Νομιμοποίηση: Η συγκατάθεσή σας
  4. Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
  5. Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
  6. Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.