Si hunn de Quellcode vu Whisper verëffentlecht, en automatesche Riederkennungssystem

Hichschecht

Whisper ass en automatesche Riederkennungssystem

De Projet viru kuerzem OpenAI, déi ëffentlech Projeten am Beräich vun der kënschtlecher Intelligenz entwéckelt, huet Neiegkeeten publizéiert Zesummenhang mam Stëmmerkennungssystem geflüstert, wat ass a Automatic Speech Recognition System (ASR) trainéiert op 680.000 Stonnen méisproocheg, multitasking iwwerwaacht Daten aus dem Web gesammelt.

Et gëtt behaapt datt fir englesch Ried de System Niveaue vun der automatescher Unerkennungsverlässegkeet a Genauegkeet no der mënschlecher Unerkennung ubitt.

Mir weisen datt d'Benotzung vun sou enger grousser an diversifizéierter Dataset zu méi grousser Robustheet fir Akzenter, Hannergrondgeräischer an technesch Sprooch féiert. Zousätzlech erlaabt et Transkriptioun a verschiddene Sproochen, souwéi Iwwersetzung vun dëse Sproochen op Englesch. Mir sinn Open Source Modeller an Inferenzcode déi als Grondlag déngen fir nëtzlech Uwendungen ze bauen a fir zukünfteg Fuerschung iwwer robust Riedveraarbechtung.

Iwwer de Modell (wéi scho gesot) trainéiert mat 680 Stonnen vu Stëmmdaten gesammelt aus verschiddene Sammlungen déi verschidde Sproochen a Fachberäicher ofdecken. Ongeféier 1/3 vun de Stëmmdaten, déi am Training involvéiert sinn, sinn an anere Sproochen wéi Englesch.

Dee proposéierte System Situatioune wéi accented pronunciation korrekt behandelt, d'Präsenz vun Hannergrond Kaméidi an d'Benotzung vun technesch Jargon. Zousätzlech fir d'Ried an den Text ze transkribéieren, kann de System och Ried aus enger arbiträrer Sprooch an Englesch iwwersetzen an d'Erscheinung vu Ried am Audiostream erkennen.

Modeller ginn an zwou Representatioune trainéiert: e Modell fir déi englesch Sprooch an e méisproochege Modell deen Spuenesch, Russesch, Italienesch, Däitsch, Japanesch, Ukrainesch, Wäissrussesch, Chinesesch an aner Sproochen ënnerstëtzt. Am Tour ass all Vue op 5 Optiounen opgedeelt, déi sech an der Gréisst an der Unzuel vun de Parameteren am Modell ënnerscheeden.

D'Whisper Architektur ass eng einfach End-to-End Approche, implementéiert als Encoder-Decoder Transformator. Den Input Audio gëtt an 30 Sekonnen Stécker opgedeelt, an e Log-Mel Spektrogramm ëmgewandelt, an dann un en Encoder weiderginn. En Decoder gëtt trainéiert fir den entspriechende Text Ënnertitel virauszesoen, ofwiesselnd mat speziellen Tokens déi den eenzegaartege Modell dirigéieren fir Aufgaben ze maachen wéi Sproochidentifikatioun, Saz-Niveau Zäitstempel, méisproocheg Ried Transkriptioun, a Ried Iwwersetzung op Englesch.

Wat méi grouss d'Gréisst ass, wat méi héich d'Unerkennungsgenauegkeet a Qualitéit ass, awer och wat méi héich d'Ufuerderunge fir d'GPU Video Memory Gréisst an déi méi niddereg d'Performance sinn. Zum Beispill, enthält de Minimum Optioun 39 Millioune Parameteren a verlaangt 1 GB vun Video Erënnerung, iwwerdeems déi maximal Optioun ëmfaasst 1550 Milliarden Parameteren a verlaangt 10 GB vun Video Erënnerung. De Minimum Variant ass 32 Mol méi séier wéi de Maximum.

De System benotzt d'"Transformer" neural Netzwierkarchitektur, déi en Encoder an en Decoder enthält, déi matenee interagéieren. Den Audio gëtt an 30 Sekonnen Stécker opgedeelt, déi an e Log-Mel Spektrogramm ëmgewandelt ginn an an den Encoder geschéckt ginn.

D'Resultat vun der Aarbecht vum Encoder gëtt un den Decoder geschéckt, déi eng Textrepresentatioun virausgesot, gemëscht mat speziellen Tokens, déi et erlaben Aufgaben ze léisen wéi Sproocherkennung, Sazpronunciatioun Chronologie Accounting, Sprachtranskriptioun a verschiddene Sproochen an Englesch Iwwersetzung an engem allgemenge Modell.

Et ass derwäert ze ernimmen datt d'Performance vu Whisper vill variéiert jee no der Sprooch, sou datt deen deen e bessere Verständnis presentéiert ass Englesch, déi véier Versiounen nëmmen op Englesch huet, déi, wéi déi aner Modeller vun anere Sproochen, Virdeeler an Nodeeler ubidden. vu Geschwindegkeet a Genauegkeet.

Endlech Wann Dir interesséiert sidd méi doriwwer ze wëssen, Dir kënnt d'Original Publikatioun kontrolléieren an dësem Link, wärend wann Dir un de Quellcode an den ausgebilten Modeller interesséiert sidd, kënnt Dir se konsultéieren dëse Link

Referenz Implementéierungscode baséiert op dem PyTorch Kader an eng Rei vu scho trainéierte Modeller sinn op, prett fir ze benotzen. De Code ass Open Source ënner der MIT Lizenz an et ass derwäert ze ernimmen datt d'Benotzung vun der ffmpeg Bibliothéik erfuerderlech ass.


Den Inhalt vum Artikel hält sech un eis Prinzipie vun redaktionnell Ethik. Fir e Feeler ze mellen klickt hei.

Gitt d'éischt fir ze kommentéieren

Gitt Äre Kommentar

Är Email Adress gëtt net publizéiert ginn.

*

*

  1. Responsabel fir d'Daten: Miguel Ángel Gatón
  2. Zweck vun den Donnéeën: Kontroll SPAM, Kommentarmanagement.
  3. Legitimatioun: Är Zoustëmmung
  4. Kommunikatioun vun den Donnéeën: D'Donnéeë ginn net un Drëttubidder matgedeelt ausser duerch legal Verpflichtung.
  5. Datenspeicher: Datebank gehost vun Occentus Networks (EU)
  6. Rechter: Zu all Moment kënnt Dir Är Informatioun limitéieren, recuperéieren an läschen.