Mozilla DeepSpeech 0.9 Speech Recognition Engine-ийг танилцуулж байна

DeepSpeech1

Нээлтийг нийтлэв дуу таних хөдөлгүүр Mozilla-ийн боловсруулсан DeepSpeech 0.9архитектурыг хэрэгжүүлдэг дуу хоолой таних Байду судлаачдын санал болгосон ижил нэртэй.

Хэрэгжилт ашиглан Python дээр бичигдсэн байдаг машин сургалтын платформ TensorFlow үнэгүй MPL 2.0 лицензийн дор тараагддаг.

DeepSpeech-ийн тухай

DeepSpeech нь хоёр дэд системээс бүрдэнэ. акустик загвар ба декодер. Акустик загвар нь оролтын дуунд тодорхой тэмдэгтүүд байх магадлалыг тооцоолохдоо машиныг гүнзгийрүүлэн сурах арга техникийг ашигладаг.

Декодер нь дүрсний магадлалын өгөгдлийг текстийн дүрс болгон хувиргахын тулд туяа хайлтын алгоритмыг ашигладаг. DeepSpeech нь уламжлалт системүүдээс хамаагүй хялбар бөгөөд гадны дуу чимээний үед таних чадварыг дээшлүүлдэг.

Хөгжил нь уламжлалт акустик загвар, фонемын ойлголтыг ашигладаггүй; үүний оронд дуу чимээ, цуурай, ярианы шинж чанар гэх мэт янз бүрийн гажигуудыг загварчлах тусдаа бүрэлдэхүүн хэсгүүдийг боловсруулах шаардлагагүй болохуйц мэдрэлийн сүлжээнд суурилсан машин сургах системийг оновчтой болгосон.

Хэрэгсэл бэлтгэгдсэн загвар, дууны файлын загварыг санал болгодог болон тушаалын мөр таних хэрэгслүүд.

Бэлэн загварыг зөвхөн Англи, Хятад хэл дээр нийлүүлдэг. Бусад хэлний хувьд та хавсаргасан зааврын дагуу системийг өөрөө сурах боломжтой бөгөөд Common Voice төслийн цуглуулсан дуут өгөгдлийг ашиглана уу.

Хэзээ татаж авахаар санал болгож буй англи хэлний бэлэн загварыг ашигласан, LibriSpeech тестийн багцыг ашиглан үнэлэхэд DeepSpeech дахь таних алдааны түвшин 7.06% байна.

Харьцуулахын тулд хүнийг таних алдааны түвшинг 5,83% гэж тооцдог.

Санал болгож буй загварт гадны чимээ шуугиангүй орчинд Америкийн аялгуу бүхий эрэгтэй хүний ​​дуу хоолойг цэвэр бичлэг хийх замаар хүлээн зөвшөөрөх хамгийн сайн үр дүнд хүрнэ.

Воскийн яриаг тасралтгүй таних номын сангийн зохиогчийн хэлснээр, Нийтлэг дуу хоолой багцын сул талууд нь ярианы материалын нэг талыг барьсан байдал (20-30 насны эрчүүд давамгайлах, эмэгтэйчүүд, хүүхдүүд, ахмад настан), үгсийн сангийн хэлбэлзэл дутагдалтай (ижил үг хэллэгийг давтах), гажуудуулах хандлагатай MP3 бичлэгийн тархалт.

DeepSpeech-ийн сул талууд нь муу гүйцэтгэлийг багтаадаг мөн декодер дахь санах ойн өндөр хэрэглээ, мөн загварыг сургах чухал нөөц (Mozilla нь тус бүрдээ 8GB VRAM бүхий 6000 ширхэг Quadro RTX 24 GPU-тай систем ашигладаг).

Энэ хандлагын сул тал нь тэр юм мэдрэлийн сүлжээг өндөр чанартай хүлээн зөвшөөрөх, сургах, DeepSpeech хөдөлгүүр их хэмжээний өгөгдөл шаарддаг бодит бус нөхцөлд янз бүрийн дуу хоолой, байгалийн чимээ шуугиантай байдаг.

Энэхүү өгөгдлийг Mozilla-д үүсгэсэн Нийтлэг Дуу хоолой төслөөс нэгтгэсэн бөгөөд энэ нь англи хэл дээр 1469 цаг, герман хэл дээр 692, франц хэл дээр 554, орос хэл дээр 105 цаг, украин хэл дээр 22 цаг бүхий баталгаажуулсан өгөгдлийн багц юм.

DeepSpeech-т зориулсан англи хэлний эцсийн загварыг сургахдаа Common Voice-оос гадна LibriSpeech, Fisher, Switchboard төслүүдийн өгөгдлийг нэмж ашигладаг, мөн хуулбарласан радио нэвтрүүлгийн бичлэгийг ойролцоогоор 1700 цаг хийдэг.

Шинэ салбар дахь өөрчлөлтүүдийн хооронд, үгийн жинг албадах боломжийг онцлон тэмдэглэв декодчилох явцад сонгосон.

Түүнчлэн Electron 9.2 платформыг дэмжиж, мэдрэлийн сүлжээг сургахдаа давхаргыг хэвийн болгох механизмыг (Layer Norm) нэмэлтээр хэрэгжүүлэхийг онцолж байна.

Татаж авах

Гүйцэтгэл нь хөдөлгүүрийг LePotato, Raspberry Pi 3, Raspberry Pi 4 самбарууд болон Google Pixel 2, Sony Xperia Z Premium, Nokia 1.3 ухаалаг гар утаснуудад ашиглахад хангалттай юм.

Бэлэн модулиудыг санал болгож байна яриа таних функцийг програмууддаа нэгтгэхийн тулд Python, NodeJS, C ++, .NET-д ашиглах (гуравдагч этгээдийн хөгжүүлэгчид Rust, Go, V гэсэн модулиудыг тусад нь бэлтгэсэн байдаг).


Нийтлэлийн агуулга нь бидний зарчмуудыг баримталдаг редакцийн ёс зүй. Алдааны талаар мэдээлэхийн тулд товшино уу энд байна.

Сэтгэгдэл бичих эхний хүн бай

Сэтгэгдэлээ үлдээгээрэй

Таны и-мэйл хаяг хэвлэгдсэн байх болно. Шаардлагатай талбарууд нь тэмдэглэгдсэн байна *

*

*

  1. Мэдээллийг хариуцах: Мигель Анхель Гатан
  2. Мэдээллийн зорилго: СПАМ-ыг хянах, сэтгэгдлийн менежмент.
  3. Хууль ёсны байдал: Таны зөвшөөрөл
  4. Мэдээллийн харилцаа холбоо: Хуулийн үүргээс бусад тохиолдолд мэдээллийг гуравдагч этгээдэд дамжуулахгүй.
  5. Өгөгдөл хадгалах: Occentus Networks (ЕХ) -с зохион байгуулсан мэдээллийн сан
  6. Эрх: Та хүссэн үедээ мэдээллээ хязгаарлаж, сэргээж, устгаж болно.