Yo te pibliye kòd sous Whisper, yon sistèm rekonesans otomatik lapawòl

Briyan

Whisper se yon sistèm rekonesans lapawòl otomatik

Pwojè a dènyèman OpenAI, ki devlope pwojè piblik nan domèn entèlijans atifisyèl, te pibliye nouvèl ki gen rapò ak sistèm rekonesans vwa a chichote, ki se yon Sistèm rekonesans otomatik lapawòl (ASR) resevwa fòmasyon sou 680.000 èdtan done ki sipèvize plizyè lang ak plizyè travay yo kolekte sou entènèt la.

Yo reklame ke pou lang angle, sistèm nan bay nivo fyab rekonesans otomatik ak presizyon tou pre rekonesans imen.

Nou montre ke lè l sèvi avèk yon seri done gwo ak divès sa mennen nan pi gwo solidite aksan, bri background, ak langaj teknik. Anplis de sa, li pèmèt transkripsyon nan divès lang, osi byen ke tradiksyon lang sa yo nan lang angle. Nou se modèl sous louvri ak kòd enferans ki sèvi kòm fondasyon pou bati aplikasyon itil ak pou rechèch nan lavni sou pwosesis lapawòl solid.

Konsènan modèl la (tankou deja mansyone) antrene lè l sèvi avèk 680 èdtan done vwa yo kolekte nan divès koleksyon ki kouvri diferan lang ak matyè yo. Apeprè 1/3 nan done vwa ki enplike nan fòmasyon an se nan lang ki pa angle.

Sistèm yo pwopoze a kòrèkteman jere sitiyasyon tankou pwononsyasyon aksantye, prezans nan bri background ak itilizasyon jagon teknik. Anplis transkripsyon lapawòl nan tèks, sistèm lan ka tradui tou diskou ki soti nan yon lang abitrè nan lang angle epi detekte aparans lapawòl nan kouran odyo a.

Modèl yo resevwa fòmasyon nan de reprezantasyon: yon modèl pou lang angle a ak yon modèl plizyè lang ki sipòte Panyòl, Ris, Italyen, Alman, Japonè, Ikrenyen, Belarisyen, Chinwa, ak lòt lang. Nan vire, chak View divize an 5 opsyon, ki diferan nan gwosè ak kantite paramèt ki kouvri nan modèl la.

Achitekti Whisper a se yon senp apwòch fen-a-fen, aplike kòm yon transfòmatè encoder-decoder. Odyo a antre divize an fragman 30 segonn, konvèti nan yon espektwogram log-Mel, ak Lè sa a, pase nan yon ankode. Yon dekodeur antrene pou predi soustit tèks ki koresponn lan, antremele ak siy espesyal ki dirije modèl inik la pou fè travay tankou idantifikasyon lang, timestamps nan nivo fraz, transkripsyon lapawòl plizyè lang, ak tradiksyon lapawòl nan lang angle.

Pi gwo gwosè a, se pi wo presizyon ak bon jan kalite rekonesans, men tou, pi wo kondisyon yo pou gwosè memwa videyo GPU a ak pi ba pèfòmans lan. Pou egzanp, opsyon minimòm nan gen ladan 39 milyon paramèt epi li mande pou 1 GB memwa videyo, pandan y ap opsyon maksimòm nan gen ladan 1550 milya paramèt epi li mande pou 10 GB memwa videyo. Variant minimòm lan se 32 fwa pi vit pase maksimòm la.

Sistèm nan sèvi ak "transfòmatè" achitekti rezo neral la, ki gen ladann yon ankode ak yon dekode ki kominike youn ak lòt. Se odyo a divize an fragman 30 segonn, ki konvèti nan yon espektwogram log-Mel epi yo voye nan ankode a.

Rezilta travay ankode a voye bay dekodeur la, ki predi yon reprezantasyon tèks melanje ak siy espesyal ki pèmèt yo rezoud travay tankou deteksyon lang, pwononsyasyon fraz kontablite kwonoloji, transcription lapawòl nan diferan lang ak tradiksyon angle nan yon modèl jeneral.

Li ta dwe mansyone ke pèfòmans Whisper varye anpil selon lang nan, kidonk youn nan ki prezante yon pi bon konpreyansyon se angle, ki gen kat vèsyon sèlman nan lang angle, ki, tankou lòt modèl yo nan lòt lang, ofri avantaj ak dezavantaj nan. vitès ak presizyon.

Finalman Si ou enterese nan konnen plis bagay sou li, ou ka tcheke piblikasyon orijinal la nan lyen sa a, pandan y ap si w enterese nan kòd sous la ak modèl yo ki resevwa fòmasyon ou ka konsilte yo nan lyen sa a

Referans kòd aplikasyon ki baze sou kad PyTorch ak yon seri modèl deja antrene yo louvri, pare pou itilize. Kòd la se sous louvri anba lisans MIT la epi li vo mansyone ke itilizasyon bibliyotèk la ffmpeg obligatwa.


Kontni an nan atik la respekte prensip nou yo nan etik editoryal. Pou rapòte yon erè klike sou isit la.

Se pou premye a fè kòmantè

Kite kòmantè ou

Adrès imèl ou pa pral dwe pibliye.

*

*

  1. Responsab pou done yo: Miguel Ángel Gatón
  2. Objektif done yo: Kontwòl SPAM, jesyon kòmantè.
  3. Lejitimasyon: konsantman ou
  4. Kominikasyon nan done yo: done yo pa pral kominike bay twazyèm pati eksepte pa obligasyon legal.
  5. Done depo: baz done anime pa rezo Occentus (Inyon Ewopeyen)
  6. Dwa: Nenpòt ki lè ou ka limite, refè ak efase enfòmasyon ou yo.