Ata lëshuan kodin burimor të Whisper, një sistem automatik i njohjes së zërit

Whisper është një sistem automatik i njohjes së të folurit

Projekti së fundmi OpenAI, e cila zhvillon projekte publike në fushën e inteligjencës artificiale, ka publikuar një lajm lidhur me sistemin e njohjes së zërit pëshpërit, e cila është një Sistemi automatik i njohjes së të folurit (ASR) të trajnuar për 680.000 orë të dhëna të mbikëqyrura shumëgjuhëshe, me shumë detyra të mbledhura nga ueb.

Pretendohet se për fjalimin në anglisht, sistemi ofron nivele të besueshmërisë dhe saktësisë së njohjes automatike afër njohjes njerëzore.

Ne tregojmë se përdorimi i një grupi kaq të madh dhe të larmishëm të dhënash çon në qëndrueshmëri më të madhe të thekseve, zhurmës së sfondit dhe gjuhës teknike. Përveç kësaj, ai lejon transkriptimin në gjuhë të ndryshme, si dhe përkthimin e atyre gjuhëve në anglisht. Ne jemi modele me burim të hapur dhe kod konkluzionesh që shërbejnë si bazë për ndërtimin e aplikacioneve të dobishme dhe për kërkime të ardhshme mbi përpunimin e fortë të të folurit.

Rreth modelit (siç është përmendur tashmë) trajnuar duke përdorur 680 orë të të dhënave zanore të mbledhura nga koleksione të ndryshme që mbulojnë gjuhë dhe fusha të ndryshme lëndore. Rreth 1/3 e të dhënave zanore të përfshira në trajnim janë në gjuhë të tjera përveç anglishtes.

Sistemi i propozuar trajton saktë situata të tilla si shqiptimi i theksuar, prania e zhurmës së sfondit dhe përdorimi i zhargonit teknik. Përveç transkriptimit të të folurit në tekst, sistemi gjithashtu mund të përkthejë fjalimin nga një gjuhë arbitrare në anglisht dhe të zbulojë shfaqjen e të folurit në transmetimin audio.

Modelet trajnohen në dy përfaqësime: një model për gjuhën angleze dhe një model shumëgjuhësh që mbështet spanjisht, rusisht, italisht, gjermanisht, japonisht, ukrainisht, bjellorusisht, kinezisht dhe gjuhë të tjera. Nga ana tjetër, çdo pamje është e ndarë në 5 opsione, të cilat ndryshojnë në madhësinë dhe numrin e parametrave të mbuluar në model.

Arkitektura Whisper është një qasje e thjeshtë nga fundi në fund, i zbatuar si një transformator kodues-dekoder. Audioja e hyrjes ndahet në copa 30 sekondash, konvertohet në një spektrogram log-Mel dhe më pas kalon në një kodues. Një dekoder është trajnuar për të parashikuar nëntitullin përkatës të tekstit, i ndërthurur me shenja të veçanta që drejtojnë modelin unik për të kryer detyra të tilla si identifikimi i gjuhës, vulat kohore në nivel fjalish, transkriptimi shumëgjuhësh i të folurit dhe përkthimi i të folurit në anglisht.

Sa më e madhe të jetë madhësia, aq më e lartë është saktësia dhe cilësia e njohjes, por edhe aq më të larta janë kërkesat për madhësinë e kujtesës video GPU dhe aq më e ulët është performanca. Për shembull, opsioni minimal përfshin 39 milionë parametra dhe kërkon 1 GB memorie video, ndërsa opsioni maksimal përfshin 1550 miliardë parametra dhe kërkon 10 GB memorie video. Varianti minimal është 32 herë më i shpejtë se maksimumi.

Sistemi përdor arkitekturën e rrjetit nervor "Transformer", i cili përfshin një kodues dhe një dekoder që ndërveprojnë me njëri-tjetrin. Audioja ndahet në copa 30 sekondash, të cilat konvertohen në një spektrogram log-Mel dhe dërgohen në kodues.

Rezultati i punës së koduesit dërgohet në dekoder, i cili parashikon një paraqitje teksti të përzier me shenja të veçanta që lejojnë zgjidhjen e detyrave të tilla si zbulimi i gjuhës, llogaritja e kronologjisë së shqiptimit të fjalive, transkriptimi i të folurit në gjuhë të ndryshme dhe përkthimi në anglisht në një model të përgjithshëm.

Vlen të theksohet se performanca e Whisper ndryshon shumë në varësi të gjuhës, kështu që ajo që paraqet një kuptim më të mirë është anglishtja, e cila ka katër versione vetëm në anglisht, të cilat, si modelet e tjera të gjuhëve të tjera, ofrojnë avantazhe dhe disavantazhe të shpejtësia dhe saktësia.

Më në fund Nëse jeni të interesuar të dini më shumë për këtë, mund të kontrolloni botimin origjinal në kjo lidhje, ndërsa nëse jeni të interesuar për kodin burimor dhe modelet e trajnuara mund t'i konsultoni në kjo lidhje

Kodi i zbatimit të referencës bazuar në kornizën PyTorch dhe një grup modelesh tashmë të trajnuara janë të hapura, gati për t'u përdorur. Kodi është me kod të hapur nën licencën MIT dhe vlen të përmendet se kërkohet përdorimi i bibliotekës ffmpeg.

DesdeLinux

Ata lëshuan kodin burimor të Whisper, një sistem automatik i njohjes së të folurit

Lini komentin tuaj Anuloni përgjigjen