Google allibero el codi font de la seva AI "TAPES"

Google va donar a conèixer l'alliberament del codi font de “TAPES” (TAble PArSing), una xarxa neuronal (intel·ligència artificial) desenvolupada internament amb la finalitat de respondre una pregunta en llenguatge natural i obtenir la resposta duna base de dades relacional o un full de càlcul.

Per poder obtenir resultats òptims a TAPES, els desenvolupadors a càrrec del projecte es van dedicar a entrenar la xarxa neuronal amb 6.2 milions de parells de taula a text presos de Wikipedia. Per verificar, la xarxa neuronal va haver de restaurar les paraules que faltaven tant a les taules com als textos en què no havia estat entrenada. La precisió de la recuperació va ser del 71,4% ja que una prova de referència va mostrar que la xarxa neuronal proporciona respostes precises o comparables que els algorismes rivals als tres conjunts de dades.

Sobre TAPES

bàsicament l'enfocament d'aquest projecte és consultar, processar i mostrar informació relacionada amb els termes de la consulta realitzada per l'usuari en llenguatge natural, facilitant a gran escala l'obtenció de la informació.

Un exemple bàsic de l'ús de TAPAS és si un usuari vol avaluar dades de vendes, ingressos, sol·licituds, entre altres coses. A més que cal tenir en compte que TAPES no només està limitat a obtenir informació d'una base de dades, sinó que també són capes de fer càlculs, l'algorisme cerca la resposta a les cel·les de les taules, tant directament com mitjançant suma, promediació i altres operadors, a més que també pot buscar la resposta entre diverses taules alhora.

Google diu que Tapas supera o coincideix amb els tres principals algorismes de codi obert per analitzar dades relacionals. La capacitat de Tapes per extreure elements específics de grans dipòsits de dades també es podria prestar per millorar les capacitats de resposta.

Sota el capó, Tapes empra una variació de la tècnica de processament de llenguatge natural BERT utilitzada a les cerques que realitza el motor de Google.

BERT proporciona més precisió que els enfocaments tradicionals perquè permet que una IA avaluï una seqüència de text no només d'esquerra a dreta o de dreta a esquerra com és la pràctica habitual, sinó que fa totes dues coses alhora.

La versió que Google va implementar per a TAPAS permet a la IA considerar no només la pregunta plantejada pels usuaris i les dades que desitgen consultar, sinó també l'estructura de les taules relacionals on s'emmagatzemen les dades.

Com instal·lar TAPES a Linux?

atès que TAPES és essencialment un model BERT i per tant, té els mateixos requisits. Això vol dir que es pot entrenar un model gran amb una longitud de seqüència de 512 que requerirà un TPU.

Per poder instal·lar TAPES a Linux requerim del compilador protoc, el qual es pot trobar a la majoria de les distribucions de Linux.

A Debian, Ubuntu i derivats d'aquests, podem instal·lar el compilador amb la següent ordre:

sudo apt-get install protobuf-compiler

En el cas d'Arch Linux, Manjaro, Arco Linux o qualsevol altre derivat d'Arch Linux, instal·lem amb:

sudo pacman -S protobuf

Ara per poder instal·lar TAPES, només hem d'obtenir el codi font i realitzar la compilació amb les ordres següents:

git clone https://github.com/google-research/tapas
cd tapas
pip install -e .

I per executar el conjunt de proves, utilitzem la biblioteca tox que es pot executar trucant a:

pip install tox
tox

A partir d'aquí caldrà entrenar l'AI a l'àrea d'interès. Tot i que al repositori de GitHub s'ofereixen alguns models ja entrenats.

A més, es poden utilitzar diferents opcions de configuració, com ara l'opció max_seq_length per crear seqüències més curtes. Això reduirà la precisió però també farà que el model sigui entrenable a GPU. Una altra opció és reduir la mida del lot (train_batch_size), però això probablement també afectarà la precisió.

Finalment si vols conèixer més a l'respecte sobre aquesta AI, podeu consultar els detalls d'ús, execució i altres informacions en el següent enllaç.


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: Miguel Ángel Gatón
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.