Mozilla, DeepSpeech 0.9 konuşma tanıma motorunu sunuyor

Lansman yayınlandı ses tanıma motoru DeepSpeech 0.9, Mozilla tarafından geliştirilmiştirmimarisini uygulayan konuşma tanıma Baidu araştırmacıları tarafından önerilen aynı isimde.

Hayata geçirme Python ile yazılmıştır. makine öğrenimi platformu TensorFlow ve ücretsiz MPL 2.0 lisansı altında dağıtılır.

DeepSpeech hakkında

DeepSpeech iki alt sistemden oluşur: akustik bir model ve bir kod çözücü. Akustik model, giriş sesinde belirli karakterlerin mevcut olma olasılığını hesaplamak için derin makine öğrenimi tekniklerini kullanır.

Kod çözücü, karakter olasılık verilerini metinsel gösterime dönüştürmek için bir ışın arama algoritması kullanır. DeepSpeech geleneksel sistemlerden çok daha basittir ve aynı zamanda yabancı gürültü varlığında daha yüksek bir tanıma kalitesi sağlar.

Geliştirme geleneksel akustik modelleri ve fonem kavramını kullanmaz; bunun yerine, gürültü, yankı ve konuşma özellikleri gibi çeşitli anormallikleri modellemek için ayrı bileşenler geliştirme ihtiyacını ortadan kaldıran, iyi optimize edilmiş sinir ağı tabanlı bir makine öğrenme sistemi kullanılır.

Kit eğitimli modeller, örnek ses dosyaları sunar ve komut satırı tanıma araçları.

Bitmiş model yalnızca İngilizce ve Çince için sağlanır. Diğer diller için, Common Voice projesi tarafından toplanan ses verilerini kullanarak ekli talimatlara göre sistemi kendiniz öğrenebilirsiniz.

Cuando İndirilmek üzere sunulan İngilizce dilinin kullanıma hazır modelinin kullanılması, LibriSpeech test paketi kullanılarak değerlendirildiğinde DeepSpeech'teki tanıma hatalarının seviyesi% 7.06'dır.

Karşılaştırma için, insan tanıma hata oranı% 5,83 olarak tahmin edilmektedir.

Önerilen modelde, en iyi tanıma sonucu, yabancı seslerin olmadığı bir ortamda Amerikan aksanıyla bir erkek sesinin temiz bir şekilde kaydedilmesiyle elde edilir.

Vosk Sürekli Konuşma Tanıma Kütüphanesi'nin yazarına göre, Ortak Ses setinin dezavantajları konuşma materyalinin tek taraflı olmasıdır (20-30 yaş arası erkeklerin baskınlığı ve kadınların, çocukların ve çocukların sesiyle materyalin olmaması) yaşlılar), kelime dağarcığındaki değişkenliğin olmaması (aynı cümlelerin tekrarı) ve distorsiyona meyilli MP3 kayıtlarının dağılımı.

DeepSpeech'in dezavantajları düşük performansı içerir ve kod çözücüdeki yüksek bellek tüketiminin yanı sıra modeli eğitmek için önemli kaynaklar (Mozilla, her birinde 8 GB VRAM bulunan 6000 Quadro RTX 24 GPU'lu bir sistem kullanır).

Bu yaklaşımın dezavantajı, bir sinir ağının yüksek kalitede tanınması ve eğitimi içinDeepSpeech motoru büyük miktarda veri gerektirir gerçek koşullarda farklı sesler tarafından ve doğal seslerin varlığında dikte edilen heterojen.

Bu veriler Mozilla'da oluşturulan ve İngilizce 1469 saat, Almanca 692, Fransızca 554, Rusça 105 saat ve Ukraynaca 22 saat ile doğrulanmış bir veri seti sağlayan Common Voice projesi tarafından derlenmiştir.

DeepSpeech için son İngilizce modelini eğitirken, Common Voice'a ek olarak, LibriSpeech, Fisher ve Switchboard projelerinden gelen veriler ve ayrıca yaklaşık 1700 saatlik transkribe edilmiş radyo programlarının kayıtları kullanılır.

Yeni şubedeki değişiklikler arasında, kelimelerin ağırlığını zorlama olasılığı vurgulanır kod çözme işlemi sırasında seçilir.

Elektron 9.2 platformu için destek ve sinir ağını eğitirken isteğe bağlı katman normalleştirme mekanizmasının (Katman Normu) uygulanması da vurgulanır.

İndirin ve edinin

Performansı, motoru LePotato, Raspberry Pi 3 ve Raspberry Pi 4 kartlarının yanı sıra Google Pixel 2, Sony Xperia Z Premium ve Nokia 1.3 akıllı telefonlarında kullanmak için yeterli.

Sunulan hazır modüller Python, NodeJS, C ++ ve .NET ile konuşma tanıma işlevlerini programlarınıza entegre etmek için kullanmak için (üçüncü taraf geliştiriciler Rust, Go ve V için ayrı ayrı hazırlanmış modüller içerir).

DesdeLinux

Mozilla, DeepSpeech 0.9 Konuşma Tanıma Motorunu Tanıttı

DeepSpeech hakkında

İndirin ve edinin

Yorumunuzu bırakın Cevabı iptal et