Тэд яриа таних автомат систем болох Whisper-ийн эх кодыг гаргажээ

Шивнэх

Whisper бол яриа таних автомат систем юм

Төсөл саяхан Нээлттэй байнахиймэл оюун ухааны чиглэлээр олон нийтийн төсөл боловсруулдаг, мэдээ нийтэлсэн байна дуу хоолой таних системтэй холбоотой шивнэх, нь а автомат яриа таних систем (ASR) вэбээс цуглуулсан 680.000 цагийн олон хэлтэй, олон үйлдэлт хяналттай өгөгдөл дээр сургасан.

Энэ систем нь англи хэлээр ярианы хувьд автоматаар таних найдвартай байдал, нарийвчлалыг хүний ​​танихтай ойролцоо түвшинд хангадаг гэж мэдэгджээ.

Ийм том, олон төрлийн мэдээллийн багцыг ашиглах нь өргөлт, арын чимээ, техникийн хэллэгийг илүү бат бөх болгоход хүргэдэг гэдгийг бид харуулж байна. Нэмж дурдахад энэ нь янз бүрийн хэл дээр транскрипц хийх, түүнчлэн эдгээр хэлийг англи хэл рүү орчуулах боломжийг олгодог. Бид нээлттэй эхийн загварууд ба дүгнэлтийн кодууд бөгөөд ашигтай хэрэглээг бий болгох, цаашдын ярианы боловсруулалтын талаар судалгаа хийх үндэс суурь болдог.

Загварын тухай (өмнө дурдсанчлан) 680 цаг зарцуулсан янз бүрийн хэл, сэдвийг хамарсан янз бүрийн цуглуулгаас цуглуулсан дуут мэдээллийн тоо. Сургалтанд хамрагдсан дуут мэдээллийн 1/3 нь англи хэлнээс бусад хэл дээр байдаг.

Санал болгож буй систем өргөлттэй дуудлага гэх мэт нөхцөл байдлыг зөв зохицуулдаг, арын чимээ шуугиан, техникийн үг хэллэг ашиглах. Уг систем нь яриаг текст болгон хөрвүүлэхээс гадна дурын хэлнээс англи хэл рүү яриаг орчуулж, аудио урсгал дахь ярианы дүр төрхийг илрүүлэх боломжтой.

Загваруудыг англи хэлний загвар болон Испани, Орос, Итали, Герман, Япон, Украйн, Беларусь, Хятад болон бусад хэлийг дэмждэг олон хэлний загвар гэсэн хоёр төрлөөр бэлтгэдэг. Хариуд нь харагдац бүр нь загварт хамрагдсан параметрийн хэмжээ, тоогоор ялгаатай 5 хувилбарт хуваагддаг.

Шивнээний архитектур нь кодлогч-декодер трансформаторын хэлбэрээр хэрэгжсэн энгийн төгсгөл хоорондын арга юм. Оролтын дууг 30 секундын хэсгүүдэд хувааж, лог-Мел спектрограмм болгон хувиргаж, дараа нь кодлогч руу дамжуулдаг. Хэл таних, өгүүлбэрийн түвшний цагийн тэмдэг, олон хэл дээрх ярианы транскрипци, ярианы англи хэл рүү орчуулах зэрэг ажлыг гүйцэтгэхэд өвөрмөц загварт чиглүүлдэг тусгай жетоноор завсарласан харгалзах текстийн хадмал орчуулгыг урьдчилан таамаглахад декодер бэлтгэгдсэн.

Хэмжээ том байх тусмаа таних нарийвчлал, чанар өндөр болохоос гадна GPU видео санах ойн хэмжээ өндөр байх тусам гүйцэтгэл бага байх болно. Жишээлбэл, хамгийн бага сонголт нь 39 сая параметрийг багтаасан бөгөөд 1 ГБ видео санах ой шаарддаг бол дээд тал нь 1550 тэрбум параметрийг багтаасан бөгөөд 10 ГБ видео санах ой шаарддаг. Хамгийн бага хувилбар нь дээд хэмжээнээс 32 дахин хурдан байна.

Систем нь "Трансформатор" мэдрэлийн сүлжээний архитектурыг ашигладаг. Энэ нь хоорондоо харилцан үйлчлэлцдэг кодлогч ба декодерыг агуулдаг. Аудио нь 30 секундын хэсгүүдэд хуваагдаж, тэдгээрийг лог-Мел спектрограмм болгон хувиргаж, кодлогч руу илгээдэг.

Кодлогчийн ажлын үр дүнг декодер руу илгээдэг, энэ нь хэл илрүүлэх, өгүүлбэрийн дуудлагын он дарааллын бүртгэл, янз бүрийн хэл дээрх ярианы транскрипц, ерөнхий загварт англи орчуулга зэрэг ажлуудыг шийдвэрлэх боломжийг олгодог тусгай жетонуудтай холилдсон текстийн дүрслэлийг урьдчилан таамаглаж байна.

Whisper-ийн гүйцэтгэл нь хэлнээсээ хамааран ихээхэн ялгаатай байдгийг дурьдах нь зүйтэй, тиймээс илүү сайн ойлголтыг өгөх нь англи хэл бөгөөд зөвхөн англи хэл дээрх дөрвөн хувилбартай бөгөөд бусад хэл дээрх бусад загваруудын адил давуу болон сул талуудыг санал болгодог. хурд ба нарийвчлал.

Эцэст нь Хэрэв та энэ талаар илүү ихийг мэдэхийг хүсч байвал Та анхны хэвлэлийг шалгах боломжтой энэ холбоос, хэрэв та эх код болон бэлтгэгдсэн загваруудыг сонирхож байвал тэдэнтэй холбогдож лавлана уу энэ холбоос

PyTorch фреймворк дээр суурилсан жишиг хэрэгжүүлэлтийн код болон аль хэдийн бэлтгэгдсэн загваруудын багц нээлттэй, ашиглахад бэлэн байна. Код нь MIT лицензийн дагуу нээлттэй эх сурвалж бөгөөд ffmpeg номын санг ашиглах шаардлагатай гэдгийг дурдах нь зүйтэй.


Нийтлэлийн агуулга нь бидний зарчмуудыг баримталдаг редакцийн ёс зүй. Алдааны талаар мэдээлэхийн тулд товшино уу энд байна.

Сэтгэгдэл бичих эхний хүн бай

Сэтгэгдэлээ үлдээгээрэй

Таны и-мэйл хаяг хэвлэгдсэн байх болно.

*

*

  1. Мэдээллийг хариуцах: Мигель Анхель Гатан
  2. Мэдээллийн зорилго: СПАМ-ыг хянах, сэтгэгдлийн менежмент.
  3. Хууль ёсны байдал: Таны зөвшөөрөл
  4. Мэдээллийн харилцаа холбоо: Хуулийн үүргээс бусад тохиолдолд мэдээллийг гуравдагч этгээдэд дамжуулахгүй.
  5. Өгөгдөл хадгалах: Occentus Networks (ЕХ) -с зохион байгуулсан мэдээллийн сан
  6. Эрх: Та хүссэн үедээ мэдээллээ хязгаарлаж, сэргээж, устгаж болно.