Fons codicem Whisper dimiserunt, systema recognitionis latae locutionis

vix parvam stillam

Susurro est cognitio latae orationis ratio

Nuper in project OpenAIquae res publicas in agro artificiali intelligentiae explicat; has editis nuntium vox ad agnitionem system susurri; quae est automatic ratio agnitionis sermonis (ASR) exercitata in 680.000 horis multilinguis, multitasking notitiarum praevisorum e interreti collectae.

Asseritur pro lingua Latina, systema gradus recognitionis activitatis automatice fidem et diligentiam humanam agnitioni proximam praebet.

Ostendimus quod usus tam magnae et diversae notitiases ad maiorem vim ad accentuum, strepitum background, et linguam technicam ducit. Praeterea permittit transcriptionem in variis linguis, necnon translationem illarum linguarum in Anglicam. Aperte sumus fontis exempla et consequentia codicis, qui tamquam fundamentum ad aedificandum applicationes utiles et ad investigationem futuram in processu robusti sermonis.

De exemplari (ut iam dictum est) consuetudine usus horis 680 vocum notitias collectas e variis collectionibus diversis linguis et locis subjectis. Circiter 1/3 vocis notitia quae in disciplina versatur est in linguis praeter linguam Latinam.

Et ratio propositus recte tractat condiciones ut pronuntiationem acui; praesentia background sonitus et usus technicae linguae. Praeter orationem in textum transcribenda, ratio etiam orationem ex arbitraria lingua in Anglicam transferre potest et speciem orationis in flumine audio deprehendere.

Exemplaria in duabus repraesentationibus exercentur: exemplar linguae Anglicanae et exemplar multilinguale quod sustinet Hispanica, Russica, Italica, Germanica, Iaponica, Ucraina, Belarusiana, Sinica et aliae linguae. Rursus, quaelibet sententia in 5 optiones divisa est, quae magnitudine ac numero parametrorum in exemplari obducta differunt.

Architectura susurra simplex finis-ad-finem aditus est, effecta ut transformator encoder-decoder. Initus audio in 30 secundos chunks scinditur, ad spectrogrammum-Mel convertitur, ac deinde ad encoder transiit. decoder aptatur ad praedicere textum subtituli correspondentem, intermixtis specialibus signis quae unicum exemplar dirigunt ad operas praestandas sicut identificatio linguae, temporis notae sententiae, transcriptio sermonis multilingualis, translatio sermonis in Anglicam.

Maior amplitudo, superior cognitio accurationis et qualitatis, sed etiam superiora requisita ad magnitudinem video memoriae GPU et inferioris ad effectum. Exempli gratia, optio minima 39 decies parametros includit et 1 GB memoriae video requirit, cum optio maxima 1550 miliarda parametri includit et 10 GB ipsius memoriae video requirit. Minimum variantes 32 times velocius quam maximus.

Systema "transformer" neural retis architectura utitur; quae encoder et decoder inter se occurrunt. Auditio in 30 secundos chunkis scinditur, quae convertuntur ad spectrogrammum-Mel et ad encoder mittit.

Effectus operis encoder ad decoder mittitur, qui textum repraesentationis praenuntiat mixtum cum specialibus signis, quae negotium solvere sinunt, sicut detectio linguae, sententiarum pronuntiatio ratio chronologica, sermonis transcriptio in variis linguis et translatione Anglica in exemplar generale.

Memorabile est quod Susurri perficientur multum variat secundum linguae latinae rationem, ut illa quae meliorem praebet intelligentiam Anglicam sit, quae quattuor versiones Anglicas tantum habet, quae, sicut alia exempla aliarum linguarum, utilitates et incommoda offerunt. celeritas et diligentia.

finalmente Si vos es interested in sciens magis de illa, vos can reprehendo in originali publicatione haec links, dum si fontem codicem curaris et exempla erudita consulere potes hoc link.

Relatio exsequendi codicem in compage PyTorch fundatum et copia exemplorum iam formatorum aperta, ad usum parata. Codex fons sub MIT licentia aperta est et memoria digna est usum bibliothecae ffmpeg requiri.


Contentum enim sua adhaeret unicuique nostrum principiis articulum editorial ethicam. Errorem referunt ad click hic.

Be the first to comment

Relinquite infantiam comment

Tua inscriptio electronica Quisque sit amet nisl.

*

*

  1. Responsible pro notitia: Miguel Angelus Gatón
  2. Ad in notitia: Imperium SPAM, administratione comment.
  3. Legitimation vestri consensu,
  4. Lorem notitia, notitia non communicatur nisi per alios obligationem.
  5. Notitia repono: Database hosted per Occentus Networks (EU)
  6. Iura Et quando potes limit, et delere recuperet vestri notitia.