Els models més nous de OpenAI ja dibuixen i reconeixen objectes de manera més eficient

Els investigadors d'OpenAI han desenvolupat dues xarxes neuronals que poden dibuixar objectes segons les indicacions de lusuari en llenguatge natural i descriure imatges amb un alt grau de precisió.

Els projectes que es van donar a conèixer fa pocs dies amplien el ventall de tasques a què es pot aplicar la intel·ligència artificial, a més que també promouen l'objectiu de la comunitat de recerca d'IA de crear models més versàtils que requereixin menys ajustaments manuals per part dels enginyers per produir resultats precisos.

DALL · E, la primera xarxa neuronal nova, és una versió miniaturitzada del model de processament de llenguatge natural GPT-3 que OpenAI va debutar el 2020. GPT-3, una de les xarxes neuronals més complexes creades fins ara, pot generar text i fins i tot codi de programari a partir de descripcions simples. DALL · E aplica la mateixa capacitat per dibuixar imatges segons les indicacions de lusuari.

La capacitat excel·lent del model és que pot produir imatges fins i tot en resposta a descripcions que troba per primer cop i que normalment són difícils d'interpretar per a una IA.

Durant les proves realitzades pels investigadors d'OpenAI van aconseguir demostrar que el model pot generar dibuixos amb èxit en resposta a descripcions com, a més a més, el model és capaç de generar imatges en diversos estils diferents.

Els investigadors dvan escriure provar exactament què tan versàtil és la IA en fer que abordi diverses tasques addicionals de diversa dificultat.

En una sèrie dexperiments, el model va demostrar ser summament eficaç en tenir la capacitat de generar la mateixa imatge des de múltiples angles i amb diferents nivells de resolució.

Una altra prova que es va realitzar a l'AI també va mostrar que el model és prou sofisticat per personalitzar detalls individuals de la imatge que se li demana que generi.

"El control simultani de diversos objectes, els seus atributs i les seves relacions espacials presenta un nou desafiament", van escriure els investigadors d'OpenAI en una publicació de bloc . «Per exemple, considereu la frase» un eriçó amb barret vermell, guants grocs, camisa blava i pantalons verds». Per interpretar correctament aquesta oració, DALL · E no només ha de compondre correctament cada peça amb l'animal, sinó també formar les associacions (barret, vermell), (guants, groc), (camisa, blau) i (pantalons, verds) sense barrejar-los «.

L'altra xarxa neuronal recentment detallada d'OpenAI, Clip, s'enfoca a reconèixer objectes en imatges existents en lloc de dibuixar-ne de noves.

I tot i que ja hi ha models de visió per ordinador que classifiquen les imatges d'aquesta manera, és important tenir en compte que la majoria només poden identificar un conjunt reduït d'objectes per als que estan entrenats específicament.

Una IA que classifica animals en fotos de vida silvestre, per exemple, s'ha d'entrenar en una gran quantitat de fotos de vida silvestre per produir resultats precisos. Cosa que distingeix Clip d'OpenAI és que és capaç de crear una descripció dun objecte que no ha trobat abans.

La versatilitat de Clip és fruit d'un nou enfocament de capacitació que el laboratori ha desenvolupat per construir el model.

Per al procés de capacitació, OpenAI no va fer servir un conjunt de dades d'imatges elaborat manualment, sinó imatges obtingudes de la web pública i les seues llegendes de text adjuntes. Els subtítols van permetre a Clip construir un ampli lèxic de paraules associades amb diferents tipus d'objectes, associacions que després podria fer servir per descriure objectes que no havia vist abans.

"L'aprenentatge profund necessita una gran quantitat de dades, i els models de visió tradicionalment s'han entrenat en conjunts de dades etiquetades manualment que són costosos de construir i només brinden supervisió per a un nombre limitat de conceptes visuals predeterminats", han detallat els investigadors darrere de Clip. «Al contrari, CLIP aprèn dels parells de text i imatge que ja estan disponibles públicament a Internet».

Finalment, si vols conèixer més a l'respecte sobre els models d'OpenAI, podeu consultar els detalls en el següent enllaç.


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: Miguel Ángel Gatón
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.