ពួកគេបានចេញផ្សាយកូដប្រភពនៃ Whisper ដែលជាប្រព័ន្ធទទួលស្គាល់ការនិយាយដោយស្វ័យប្រវត្តិ

ខ្សឹប

Whisper គឺជាប្រព័ន្ធសម្គាល់ការនិយាយដោយស្វ័យប្រវត្តិ

គម្រោងនាពេលថ្មីៗនេះ OpenAIដែលបង្កើតគម្រោងសាធារណៈក្នុងវិស័យបញ្ញាសិប្បនិមិត្ត។ បានចុះផ្សាយព័ត៌មាន ទាក់ទងនឹងប្រព័ន្ធសម្គាល់សំឡេង ខ្សឹប, ដែលជា ក ប្រព័ន្ធទទួលស្គាល់ការនិយាយដោយស្វ័យប្រវត្តិ (ASR) បានបណ្តុះបណ្តាលលើ 680.000 ម៉ោងនៃទិន្នន័យត្រួតពិនិត្យពហុភាសា ដែលប្រមូលបានពីគេហទំព័រ។

វាត្រូវបានអះអាងថាសម្រាប់ការនិយាយភាសាអង់គ្លេស ប្រព័ន្ធផ្តល់នូវកម្រិតនៃភាពជឿជាក់ និងភាពត្រឹមត្រូវនៃការទទួលស្គាល់ដោយស្វ័យប្រវត្តិនៅជិតនឹងការទទួលស្គាល់របស់មនុស្ស។

យើងបង្ហាញថាការប្រើសំណុំទិន្នន័យធំ និងចម្រុះបែបនេះនាំឱ្យមានភាពរឹងមាំជាងមុនចំពោះការបញ្ចេញសំឡេង សំឡេងរំខាន និងភាសាបច្ចេកទេស។ លើសពីនេះ វាអនុញ្ញាតឱ្យចម្លងជាភាសាផ្សេងៗ ក៏ដូចជាការបកប្រែភាសាទាំងនោះទៅជាភាសាអង់គ្លេសផងដែរ។ យើងជាគំរូប្រភពបើកចំហ និងកូដសន្និដ្ឋានដែលបម្រើជាមូលដ្ឋានគ្រឹះសម្រាប់បង្កើតកម្មវិធីមានប្រយោជន៍ និងសម្រាប់ការស្រាវជ្រាវនាពេលអនាគតលើដំណើរការការនិយាយដ៏រឹងមាំ។

អំពីគំរូ (ដូចបានរៀបរាប់រួចហើយ) ហ្វឹកហាត់ដោយប្រើ 680 ម៉ោង។ នៃ​ទិន្នន័យ​សំឡេង​ដែល​ប្រមូល​បាន​ពី​បណ្តុំ​ផ្សេងៗ​ដែល​គ្របដណ្ដប់​លើ​ភាសា និង​ប្រធានបទ​ផ្សេងៗ។ ប្រហែល 1/3 នៃទិន្នន័យសំឡេងដែលពាក់ព័ន្ធនឹងការបណ្តុះបណ្តាលគឺជាភាសាផ្សេងក្រៅពីភាសាអង់គ្លេស។

ប្រព័ន្ធដែលបានស្នើឡើង គ្រប់គ្រងស្ថានការណ៍បានត្រឹមត្រូវ ដូចជាការបញ្ចេញសំឡេងដោយសង្កត់សំឡេង វត្តមាននៃសំលេងរំខានផ្ទៃខាងក្រោយ និងការប្រើប្រាស់ភាសាបច្ចេកទេស។ បន្ថែមពីលើការចម្លងការនិយាយទៅជាអត្ថបទ ប្រព័ន្ធក៏អាចបកប្រែការនិយាយពីភាសាតាមអំពើចិត្តទៅជាភាសាអង់គ្លេស និងរកឃើញរូបរាងនៃការនិយាយនៅក្នុងស្ទ្រីមអូឌីយ៉ូផងដែរ។

ម៉ូដែលត្រូវបានបណ្តុះបណ្តាលជាតំណាងពីរ៖ គំរូសម្រាប់ភាសាអង់គ្លេស និងគំរូពហុភាសាដែលគាំទ្រភាសាអេស្ប៉ាញ រុស្ស៊ី អ៊ីតាលី អាឡឺម៉ង់ ជប៉ុន អ៊ុយក្រែន បេឡារុស្ស ចិន និងភាសាផ្សេងទៀត។ នៅក្នុងវេន, ទិដ្ឋភាពនីមួយៗត្រូវបានបែងចែកទៅជា 5 ជម្រើសដែលខុសគ្នានៅក្នុងទំហំនិងចំនួននៃប៉ារ៉ាម៉ែត្រគ្របដណ្តប់នៅក្នុងគំរូ។

ស្ថាបត្យកម្ម Whisper គឺជាវិធីសាស្រ្តសាមញ្ញមួយពីចុងដល់ចប់ ដែលត្រូវបានអនុវត្តជាឧបករណ៍បំលែងបំប្លែងបំលែងកូដ-ឌិកូដ។ អូឌីយ៉ូបញ្ចូលត្រូវបានបំបែកទៅជាកំណាត់ 30 វិនាទី បំប្លែងទៅជា log-Mel spectrogram ហើយបន្ទាប់មកបញ្ជូនទៅឧបករណ៍បំប្លែង។ ឧបករណ៍ឌិកូដត្រូវបានបណ្តុះបណ្តាលដើម្បីទស្សន៍ទាយចំណងជើងរងអត្ថបទដែលត្រូវគ្នា ប្រសព្វជាមួយសញ្ញាសម្ងាត់ពិសេសដែលដឹកនាំគំរូតែមួយគត់ដើម្បីអនុវត្តការងារដូចជាការកំណត់អត្តសញ្ញាណភាសា ការបោះត្រាកម្រិតប្រយោគ ការចម្លងការនិយាយច្រើនភាសា និងការបកប្រែការនិយាយទៅជាភាសាអង់គ្លេស។

ទំហំកាន់តែធំ ភាពត្រឹមត្រូវ និងគុណភាពនៃការទទួលស្គាល់កាន់តែខ្ពស់ ប៉ុន្តែតម្រូវការសម្រាប់ទំហំអង្គចងចាំវីដេអូ GPU កាន់តែខ្ពស់ និងដំណើរការកាន់តែទាប។ ជាឧទាហរណ៍ ជម្រើសអប្បបរមារួមមាន 39 លានប៉ារ៉ាម៉ែត្រ និងតម្រូវឱ្យមានអង្គចងចាំវីដេអូ 1 GB ខណៈពេលដែលជម្រើសអតិបរមារួមមាន 1550 ពាន់លានប៉ារ៉ាម៉ែត្រ និងតម្រូវឱ្យមានអង្គចងចាំវីដេអូ 10 GB ។ វ៉ារ្យ៉ង់អប្បបរមាគឺលឿនជាងអតិបរមា 32 ដង។

ប្រព័ន្ធនេះប្រើស្ថាបត្យកម្មបណ្តាញសរសៃប្រសាទ "Transformer" ដែលរួមបញ្ចូលឧបករណ៍បំលែងកូដ និងឧបករណ៍ឌិកូដដែលមានអន្តរកម្មជាមួយគ្នា។ អូឌីយ៉ូ​ត្រូវ​បាន​បំបែក​ជា​កំណាត់​រយៈពេល 30 វិនាទី ដែល​ត្រូវ​បាន​បំប្លែង​ទៅ​ជា log-Mel spectrogram ហើយ​បាន​ផ្ញើ​ទៅ​កម្មវិធី​បំប្លែង​កូដ។

លទ្ធផលនៃការងាររបស់ឧបករណ៍បំប្លែងកូដត្រូវបានបញ្ជូនទៅអ្នកឌិកូដដែលព្យាករណ៍ពីតំណាងអត្ថបទដែលលាយឡំជាមួយសញ្ញាសម្ងាត់ពិសេសដែលអនុញ្ញាតឱ្យដោះស្រាយកិច្ចការដូចជាការរកឃើញភាសា ការគណនាការចេញសំឡេងប្រយោគ ការកំណត់កាលប្បវត្តិ ការសរសេរប្រតិចារឹកជាភាសាផ្សេងៗ និងការបកប្រែភាសាអង់គ្លេសតាមគំរូទូទៅ។

គួរបញ្ជាក់ផងដែរថា ការសម្តែងរបស់ Whisper មានភាពខុសប្លែកគ្នាច្រើនអាស្រ័យលើភាសា ដូច្នេះអ្វីដែលបង្ហាញពីការយល់ដឹងកាន់តែប្រសើរឡើងគឺភាសាអង់គ្លេសដែលមានតែបួនកំណែជាភាសាអង់គ្លេសប៉ុណ្ណោះ ដែលដូចជាម៉ូដែលផ្សេងទៀតនៃភាសាផ្សេងទៀតផ្តល់នូវគុណសម្បត្តិ និងគុណវិបត្តិ។ នៃល្បឿននិងភាពត្រឹមត្រូវ។

ទីបំផុត ប្រសិនបើអ្នកចាប់អារម្មណ៍ចង់ដឹងបន្ថែមអំពីវា។ អ្នកអាចពិនិត្យមើលការបោះពុម្ពដើមនៅក្នុង តំណនេះខណៈពេលដែលប្រសិនបើអ្នកចាប់អារម្មណ៍លើកូដប្រភព និងគំរូដែលបានបណ្តុះបណ្តាល អ្នកអាចពិគ្រោះជាមួយពួកគេ។ តំណនេះ

លេខកូដការអនុវត្តយោងដោយផ្អែកលើក្របខ័ណ្ឌ PyTorch និងសំណុំនៃគំរូដែលបានបណ្តុះបណ្តាលរួចហើយគឺបើកចំហ រួចរាល់ក្នុងការប្រើប្រាស់។ កូដគឺជាប្រភពបើកចំហក្រោមអាជ្ញាប័ណ្ណ MIT ហើយវាមានតម្លៃក្នុងការនិយាយថាការប្រើប្រាស់បណ្ណាល័យ ffmpeg ត្រូវបានទាមទារ។


ខ្លឹមសារនៃអត្ថបទប្រកាន់ខ្ជាប់នូវគោលការណ៍របស់យើង ក្រមសីលធម៌វិចារណកថា។ ដើម្បីរាយការណ៍ការចុចកំហុស នៅទីនេះ.

ធ្វើជាយោបល់ដំបូង

ទុកឱ្យយោបល់របស់អ្នក

អាសយដ្ឋានអ៊ីមែលរបស់អ្នកនឹងមិនត្រូវបានបោះពុម្ភ។

*

*

  1. ទទួលខុសត្រូវចំពោះទិន្នន័យ: មីហ្គែល - ហ្គែលហ្គេតថន
  2. គោលបំណងនៃទិន្នន័យ៖ គ្រប់គ្រង SPAM ការគ្រប់គ្រងមតិយោបល់។
  3. ភាពស្របច្បាប់៖ ការយល់ព្រមរបស់អ្នក
  4. ការប្រាស្រ័យទាក់ទងទិន្នន័យ៖ ទិន្នន័យនឹងមិនត្រូវបានទាក់ទងទៅភាគីទីបីឡើយលើកលែងតែកាតព្វកិច្ចផ្នែកច្បាប់។
  5. ការផ្ទុកទិន្នន័យ៖ មូលដ្ឋានទិន្នន័យដែលរៀបចំដោយបណ្តាញ Occentus (EU)
  6. សិទ្ធិ៖ នៅពេលណាដែលអ្នកអាចដាក់កម្រិតទាញយកមកវិញនិងលុបព័ត៌មានរបស់អ្នក។