Mozilla წარმოგიდგენთ DeepSpeech 0.9 მეტყველების ამოცნობის ძრავას

ღრმა საუბარი 1

გამოცემა გამოქვეყნდა ხმის ამომცნობი ძრავა DeepSpeech 0.9 მიერ შემუშავებული Mozilla, რომელიც ახორციელებს არქიტექტურას სიტყვის აღიარება ბაიდუს მკვლევარების მიერ შემოთავაზებული ამავე სახელწოდებით.

Იმპლემენტაცია წერია Python– ის გამოყენებით მანქანათმშენებლობის პლატფორმა TensorFlow და ვრცელდება უფასო MPL 2.0 ლიცენზიით.

DeepSpeech– ის შესახებ

DeepSpeech ორი ქვესისტემისგან შედგება: აკუსტიკური მოდელი და დეკოდერი. აკუსტიკური მოდელი იყენებს ღრმა მანქანური სწავლების ტექნიკას, რომ გამოანგარიშდეს გარკვეული სიმბოლოების არსებობა შეყვანის ხმაში.

დეკოდერი იყენებს სხივების ძიების ალგორითმს სიმბოლოების ალბათობის მონაცემები ტექსტურ წარმოდგენად გადასაკეთებლად. DeepSpeech ბევრად უფრო მარტივია, ვიდრე ტრადიციული სისტემები და ამავდროულად უზრუნველყოფს უფრო მაღალ ხარისხს ამოცნობას უცხოური ხმაურის არსებობის შემთხვევაში.

განვითარებაში არ გამოიყენება ტრადიციული აკუსტიკური მოდელები და ფონემების კონცეფცია; ამის ნაცვლად, კარგად არის ოპტიმიზირებული ნერვულ ქსელზე დაფუძნებული მანქანური სწავლების სისტემა, რომელიც გამორიცხავს ცალკეული კომპონენტების შემუშავებას სხვადასხვა ანომალიების მოდელირებისთვის, როგორიცაა ხმაური, ექო და მეტყველების მახასიათებლები.

ნაკრები გთავაზობთ გაწვრთნილ მოდელებს, ხმოვანი ფაილების ნიმუშებს და ბრძანების ხაზის ამოცნობის საშუალებები.

დასრულებული მოდელი მოწოდებულია მხოლოდ ინგლისურ და ჩინურ ენებზე. სხვა ენებისთვის, სისტემის სწავლა შეგიძლიათ თანდართული ინსტრუქციის შესაბამისად, საერთო ხმის პროექტის მიერ შეგროვებული ხმოვანი მონაცემების გამოყენებით.

როდესაც გამოყენებულია ინგლისურ ენაზე გამოსაყენებელი მზა მოდელი, რომელიც შემოთავაზებულია ჩამოსატვირთად, აღიარების შეცდომების დონე DeepSpeech– ში არის 7.06%, როდესაც შეფასდება LibriSpeech ტესტის ნაკრების გამოყენებით.

შედარებისთვის, ადამიანის აღიარების შეცდომის მაჩვენებელი 5,83% -ით არის შეფასებული.

შემოთავაზებულ მოდელში აღიარების საუკეთესო შედეგი მიიღწევა მამაკაცური ხმის სუფთა ჩაწერით ამერიკული აქცენტით, გარე ხმაურის გარეშე.

ვოსკის მეტყველების უწყვეტი ამომცნობი ბიბლიოთეკის ავტორის აზრით, საერთო ხმის ნაკლოვანებებში არის მეტყველების მასალის ცალმხრივობა (20–30 წლის მამაკაცების უპირატესობა და ქალთა, ბავშვთა და ქალთა ხმის მქონე მასალის ნაკლებობა). ხანდაზმულები), ლექსიკის ცვალებადობის ნაკლებობა (იგივე ფრაზების გამეორება) და დამახინჯებისკენ მიდრეკილი MP3 ჩანაწერების განაწილება.

DeepSpeech– ის ნაკლოვანებები მოიცავს ცუდ მუშაობას დეკოდერში მეხსიერების მაღალი მოხმარება, ასევე მნიშვნელოვანი რესურსები მოდელის მოსამზადებლად (Mozilla იყენებს სისტემას 8 Quadro RTX 6000 GPU- ით, 24GB VRAM თითოეულში).

ამ მიდგომის უარყოფითი მხარეა ის ნერვული ქსელის მაღალხარისხიანი აღიარების და ტრენინგისთვის, DeepSpeech ძრავა მოითხოვს დიდი რაოდენობით მონაცემებს ჰეტეროგენული ნაკარნახევი რეალურ პირობებში სხვადასხვა ხმით და ბუნებრივი ხმაურის არსებობით.

ეს მონაცემები შედგენილია საერთო ხმის პროექტით, რომელიც შეიქმნა Mozilla- ში, რომელიც უზრუნველყოფს მონაცემების გადამოწმებას 1469 საათის განმავლობაში ინგლისურად, 692 გერმანულად, 554 ფრანგულად, 105 საათი რუსულად და 22 საათით უკრაინულად.

DeepSpeech– ის ინგლისურენოვანი საბოლოო მოდელის მომზადებისას, საერთო ხმის გარდა, დამატებით გამოიყენება მონაცემები LibriSpeech, Fisher და Switchboard პროექტებიდან, ასევე დაახლოებით 1700 საათის ჩაწერილი რადიოპროგრამების ჩანაწერები.

ახალ ფილიალში ცვლილებებს შორის, ხაზგასმულია სიტყვების წონის იძულების შესაძლებლობა დეკოდირების პროცესშია შერჩეული.

ის ასევე ხაზს უსვამს ელექტრონ 9.2 პლატფორმის მხარდაჭერას და ფენის ნორმალიზაციის მექანიზმის (Layer Norm) არჩევით განხორციელებას ნერვული ქსელის მომზადებისას.

ჩამოტვირთეთ და მიიღეთ

შესრულება საკმარისია LePotato, Raspberry Pi 3 და Raspberry Pi 4 დაფებში ძრავის გამოსაყენებლად, ასევე Google Pixel 2, Sony Xperia Z Premium და Nokia 1.3 სმარტფონებში.

შემოთავაზებულია მზა მოდულები გამოიყენოთ Python, NodeJS, C ++ და .NET სიტყვის ამოცნობის ფუნქციების ინტეგრირება თქვენს პროგრამებში (მესამე მხარის დეველოპერებმა ცალკე მოამზადეს მოდულები Rust, Go და V).


სტატიის შინაარსი იცავს ჩვენს პრინციპებს სარედაქციო ეთიკა. შეცდომის შესატყობინებლად დააჭირეთ ღილაკს აქ.

იყავი პირველი კომენტარი

დატოვე კომენტარი

თქვენი ელფოსტის მისამართი გამოქვეყნებული არ იყო.

*

*

  1. მონაცემებზე პასუხისმგებელი: მიგელ ანგელ გატონი
  2. მონაცემთა მიზანი: სპამის კონტროლი, კომენტარების მართვა.
  3. ლეგიტიმაცია: თქვენი თანხმობა
  4. მონაცემთა კომუნიკაცია: მონაცემები არ გადაეცემა მესამე პირებს, გარდა სამართლებრივი ვალდებულებისა.
  5. მონაცემთა შენახვა: მონაცემთა ბაზა, რომელსაც უმასპინძლა Occentus Networks (EU)
  6. უფლებები: ნებისმიერ დროს შეგიძლიათ შეზღუდოთ, აღადგინოთ და წაშალოთ თქვენი ინფორმაცია.