Whisper: Sistema lliure de reconeixement automàtic de la parla

Whisper: Sistema lliure de reconeixement automàtic de la parla

Whisper: Sistema lliure de reconeixement automàtic de la parla

Durant el període 2020 – 2022, les tecnologies Blockchain i DeFi encapçalades principalment per les criptomonedes van acaparar molta de latenció de làmbit tecnològic. Sobretot, en llocs web relacionats amb tecnologies lliures i obertes, ja que, moltes de les mateixes eren generades a partir daquesta base.

I amb elles, esperem, en el moment oportú, un salt o increment en la usabilitat dels nostres sistemes operatius GNU/Linux gràcies a aplicacions i plataformes més lliures, però també més descentralitzades i segures. Mentre que, avui dia, alguna cosa s'ha avançat en això. Però, ara molt possiblement, durant els propers 3 anys o més, la tendència és l'ús de Tecnologies d'Intel·ligència Artificial (AI). Tecnologies que, molt segurament com ChatGPT, Sidney, Bard, LLAMA i altres com, Xiuxiueig, tindran loportunitat daconseguir el mateix objectiu.

OpenAI: Projectes d'Intel·ligència Artificial lliures i oberts per a tots

Però, abans de començar aquest post sobre «Whisper», un sistema lliure de reconeixement automàtic de la parla, us recomanem explorar, a posterior, la anterior publicació relacionada:

OpenAI: Projectes d'Intel·ligència Artificial lliures i oberts per a tots
Article relacionat:
OpenAI: Projectes d'Intel·ligència Artificial lliures i oberts per a tots

Whisper: Open Source + IA + ASR

Whisper: Open Source + IA + ASR

Què és Whisper?

Segurament, molts ja coneixen la tecnologia GPT (Generative Pre-trained Transformer en anglès, o Transformador preentrenat generatiu en espanyol) d'OpenAI. La qual, és un model d'intel·ligència artificial que permet generar llenguatge escrit mitjançant l'ús d'un model de llenguatge autoregressiu, és a dir, un algorisme que permet crear la paraula següent que seguiria a un text donat. I que s'ha fet extremadament famosa gràcies a ChatGPT.

Xat GPT és un sistema de processament del llenguatge natural (PLN) de codi obert desenvolupat, dissenyat per generar converses similars a les humanes a partir del text d'entrada. Per això, és àmpliament utilitzat en diverses aplicacions i plataformes, per aconseguir chatbots, comprensió del llenguatge natural (NLU) i atenció al client automatitzada, entre moltes altres.

No obstant això, OpenAI té molts projectes més d'IA, entre els quals destaca «Whisper». El qual, segons el seu lloc web oficial, és descrit com un projecte de codi obert que aporta un model versàtil de reconeixement de la parla que pot transcriure, identificar i traduir diversos idiomes.

Xiuxiueig és un sistema de reconeixement automàtic de la parla (ASR) entrenat amb 680.000 hores de dades multilingües i multitasca supervisades recollides de la web. Demostrem que l'ús d'un conjunt de dades tan ampli i divers millora la solidesa davant dels accents, el soroll de fons i el llenguatge tècnic. Presentació de Whisper

Mentre que, si secció oficial a GitHub, afegeixen més detalls sobre el mateix de la manera següent:

Xiuxiueig és un model de reconeixement de veu de propòsit general. Està entrenat en un gran conjunt de dades d'àudio divers i també és un model multitasca que pot fer reconeixement de veu multilingüe, així com traducció de veu i identificació d'idioma.

Whisper un model de reconeixement de veu de propòsit general
Article relacionat:
Alliberaren el codi font de Whisper, un sistema de reconeixement automàtic de veu

Què podria aportar aquesta tecnologia IA als sistemes operatius?

Què podria aportar aquesta tecnologia IA als sistemes operatius?

Així com, Xat GPT ha arribat per quedar-se i ajudar en tasques com a cerques més precises i amigables per internet; generar, resumir i traduir textos; i sostenir xerrades o assistir persones amb diferents necessitats, tot mitjançant la introducció de text. Xiuxiueig pot fàcilment aportar-li a aquestes mateixes tasques les orelles i la boca que tan necessàries poden ser per fer molt més amigable la tasca de fer tot això mitjançant un ratolí (mouse) i teclat.

Per tant, tant a Linux com a d'altres Sistemes Operatius d'Escriptori i Mòbils, poguéssim estar aviat veient una nova generació d'aplicacions AI, amb un nivell extremadament avançat dinteracció, les quals poguessin fàcilment prescindir de la introducció manual de text. És a dir, que poguessin escoltar, entendre i respondre el seu usuari interlocutor, mitjançant un micròfon i unes cornetes.

Per tant, no seria gens estrany que, en la propera dècada, al encendre el teu ordinador amb GNU/Linux, el primer que surti en pantalla sigui el rostre (GUI) d'una IA, donant-nos una salutació de benvinguda, i preguntant-nos què desitgem fer, per a ella mateixa obrir les aplicacions i començar a executar les ordres sol·licitades.

Com ara: Realitzar una cerca a Internet, prendre un dictat per escriure un document, obrir un editor d'imatges o vídeos per crear o carregar un fitxer a modificar, entre moltíssimes més.

Finalment, Whisper actualment pot ser instal·lat sobre Linux i Windows o provat en línia a la web de Playground d'OpenAI. Mentre que hi ha interessants eines que ja utilitzen aquesta tecnologia, sent 2 bons exemples les següents: Whisper Typer Tool y Speech Translate.

Projectes d'Intel·ligència Artificial 2023: Gratuïts, lliures i oberts
Article relacionat:
Projectes d'Intel·ligència Artificial 2023: Gratuïts, lliures i oberts

Resum: Banner post 2021

Resum

En resum, esperem que totes aquestes noves tecnologies d'Intel·ligència Artificial disponibles i en construcció, sobretot les que tenen un origen, base o llicenciament lliure i obert, com ChatGPT i Whisper d'OpenAI, contribueixin a moltes coses positives per a la humanitat. Però, sobretot, que els nostres sistemes operatius lliures i oberts actuals puguin seguir millorant en usabilitat i accessibilitat, en comptar amb apps i característiques molt més avançades i amigables per a qualsevol tipus d'usuari.

Si t'ha agradat aquesta publicació, no deixis de compartir-la amb altres als vostres llocs web, canals, grups o comunitats preferides de xarxes socials o sistemes de missatgeria. I, finalment, recorda visitar la nostra pàgina d'inici per explorar més notícies, a més de, unir-te al nostre canal oficial de Telegram de DesdeLinux, O aquest grup per a més informació sobre el tema actual.


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: Miguel Ángel Gatón
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.