Les nouveaux modèles OpenAI dessinent et reconnaissent déjà les objets plus efficacement

Les chercheurs d'OpenAI ont développé deux réseaux de neurones Ils peuvent dessiner des objets selon les instructions de l'utilisateur en langage naturel et décrire des images avec un haut degré de précision.

Les projets qui ils sont devenus connus il y a quelques jours élargir la gamme de tâches auxquelles l'intelligence artificielle peut être appliquée et faire progresser davantage l'objectif de la communauté de recherche en IA de créer des modèles plus polyvalents qui nécessitent moins d'ajustements manuels de la part des ingénieurs pour produire des résultats précis.

DALL E, le premier réseau de neurones Nouveau, est une version miniaturisée du modèle de traitement du langage naturel GPT-3 qu'OpenAI a fait ses débuts en 2020. GPT-3, l'un des réseaux de neurones les plus complexes créés à ce jour, peut générer du texte et même du code logiciel à partir de simples descriptions. DALL E applique la même capacité à dessiner des images comme indiqué par l'utilisateur.

La capacité exceptionnelle du modèle est que peut produire des images même en réponse à des descriptions qu'il rencontre pour la première fois et qui sont normalement difficiles à interpréter pour une IA.

Pendant les tests par les chercheurs d'OpenAI ils ont pu démontrer que le modèle peut générer des dessins avec succès en réponse à des descriptions telles que, en plus de cela, le modèle est capable de rendre des images dans plusieurs styles différents.

Les chercheurs da décidé de tester exactement la polyvalence de l'IA en lui faisant entreprendre plusieurs tâches supplémentaires de difficulté variable.

Dans une série d'expériences, le modèle s'est avéré très efficace, ayant la capacité de générer la même image sous plusieurs angles et à différents niveaux de résolution.

Un autre test d'IA a également montré que le modèle est suffisamment sophistiqué pour personnaliser les détails individuels de l'image qu'il est invité à générer.

«Le contrôle simultané de plusieurs objets, de leurs attributs et de leurs relations spatiales présente un nouveau défi», ont écrit les chercheurs d'OpenAI dans un article de blog. "Par exemple, considérez l'expression" un hérisson avec un chapeau rouge, des gants jaunes, une chemise bleue et un pantalon vert ". Pour interpréter correctement cette phrase, DALL · E doit non seulement composer correctement chaque vêtement avec l'animal, mais aussi former les associations (chapeau, rouge), (gants, jaune), (chemise, bleu) et (pantalon, vert) sans les mélanger «.

L'autre réseau de neurones OpenAI récemment détaillé, Clip, se concentre sur la reconnaissance des objets dans les images existantes au lieu d'en dessiner de nouveaux.

Et s'il existe déjà des modèles de vision par ordinateur qui classent les images de cette manière, il est important de noter que la plupart d'entre eux ne peuvent identifier qu'un petit ensemble d'objets pour lesquels ils sont spécifiquement formés.

Une IA qui classe les animaux dans des photos d'animaux sauvages, par exemple, doit être formée sur un grand nombre de photos d'animaux sauvages pour produire des résultats précis. Ce qui distingue Clip d'OpenAI est qu'il est capable de créer une description d'un objet qu'il n'a pas trouvé auparavant.

La polyvalence de Clip est le fruit d'une nouvelle approche de formation que le laboratoire a développée pour construire le modèle.

Pour le processus de formation, OpenAI n'a pas utilisé de jeu de données d'image dessiné manuellement, mais des images obtenu sur le Web public et ses légendes de texte jointes. Les légendes permettaient à Clip de construire un large lexique de mots associés à différents types d'objets, associations qu'il pouvait ensuite utiliser pour décrire des objets qu'il n'avait pas vus auparavant.

«L'apprentissage en profondeur nécessite une grande quantité de données, et les modèles de vision ont traditionnellement été formés sur des ensembles de données étiquetés manuellement qui sont coûteux à construire et ne permettent de superviser qu'un nombre limité de concepts visuels prédéterminés», ont détaillé les chercheurs. Agrafe. "CLIP apprend plutôt à partir des paires de texte et d'images qui sont déjà accessibles au public sur Internet."

Enfin, si vous voulez en savoir plus À propos des modèles OpenAI, vous pouvez vérifier les détails dans le lien suivant.


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec *

*

*

  1. Responsable des données: Miguel Ángel Gatón
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.