spaCy, une bibliothèque de traitement du langage naturel

Explosion AI a dévoilé le lancement de la nouvelle version de la bibliothèque gratuite «SpaCy»Qui a une implémentation de algorithmes de traitement du langage naturel (PNL). Dans la pratique, le projet peut être utilisé pour créer des répondeurs automatiques, des robots, des classificateurs de texte et divers systèmes de dialogue qui déterminent la signification des phrases.

La bibliothèque est conçu pour fournir une API persistante Il n'est pas lié aux algorithmes utilisés et prêts à l'emploi dans des produits réels. La bibliothèque utilise les dernières avancées de la PNL et les algorithmes les plus efficaces disponible pour traiter les informations.

Si un algorithme plus efficace apparaît, la bibliothèque lui est transmise, mais cette transition n'affecte ni l'API ni les applications.

Une caractéristique de spaCy c'est aussi une architecture conçue pour traiter des documents complets, sans prétraitement dans les préprocesseurs qui divisent le document en phrases. Les modèles sont proposés en deux versions: pour une productivité maximale et une précision maximale.

Les principales caractéristiques de spaCy:

  • Prise en charge d'environ 60 langues.
  • Modèles déjà formés disponibles pour différentes langues et applications.
  • Apprentissage multitâche à l'aide de transformateurs préalablement formés comme BERT (Bidirectional Encoder Renderings of Transformers).
  • Prise en charge de vecteurs pré-entraînés et d'intégration de mots.
  • Haut rendement.
  • Modèle de système de formation prêt à l'emploi sur le tas.
  • Tokenisation à motivation linguistique.
  • Des composants prêts à l'emploi sont disponibles pour relier des entités nommées, marquer des parties de discours, classer du texte, analyser des dépendances basées sur des balises, diviser des phrases, marquer des parties de discours, une analyse morphologique, une racine, etc.
  • Prise en charge de l'extension des fonctionnalités avec des composants et des attributs personnalisés.
  • Aide à créer vos propres modèles basés sur PyTorch, TensorFlow et d'autres frameworks.
  • Outils intégrés pour la liaison d'entités nommées et la visualisation de la syntaxe (NER, reconnaissance d'entités nommées).
  • Processus simple d'empaquetage et de déploiement de modèles et de gestion du flux de travail.
  • Haute précision.

La bibliothèque est écrit en Python avec des éléments en Cython, une extension Python qui permet l'appel direct de fonction en langage C.

Le code du projet est distribué sous la licence MIT. Les modèles de langues sont prêts pour 58 langues.

À propos de la nouvelle version de spaCy 3.0

La version spaCy 3.0 se distingue par la mise en œuvre de familles de modèles recyclé pour 18 langues et 59 pipelines formés au total, dont 5 nouveaux pipelines à base de transformateurs

Le modèle est proposé en trois versions (16 Mo, 41 Mo - 20 mille vecteurs et 491 Mo - 500 mille vecteurs) et est optimisé pour fonctionner sous la charge du processeur et inclut les composants tok2vec, morphologizer, parser, senter, ner, attribute_ruler et lemmatizer.

Nous travaillons sur spaCy v3.0 depuis plus d'un an, et presque deux ans si vous comptez tout le travail effectué sur Thinc. Notre objectif principal avec le lancement est de faciliter l'importation de vos propres modèles dans SPACY, en particulier les modèles de pointe comme les transformateurs. Vous pouvez écrire des modèles qui alimentent les composants spaCy dans des frameworks tels que PyTorch ou TensorFlow, en utilisant notre nouveau système de configuration génial pour décrire tous vos paramètres. Et comme les flux de travail PNL modernes se composent souvent de plusieurs étapes, il existe un nouveau système de flux de travail pour vous aider à garder votre travail organisé.

Autres innovations importantes qui se démarquent de la nouvelle version:

  • Nouveau flux de travail pour les modèles de formation.
  • Nouveau système de configuration.
  • Prise en charge des modèles de pipeline basés sur des transformateurs, adaptés à l'apprentissage multitâche.
  • La possibilité de connecter vos propres modèles à l'aide de divers frameworks d'apprentissage automatique, tels que PyTorch, TensorFlow et MXNet.
  • Support de projet pour gérer toutes les étapes des workflows, du pré-traitement à la mise en œuvre du modèle.
  • Prise en charge de l'intégration avec les packages Data Version Control (DVC), Streamlit, Weights & Biases et Ray.
  • Nouveaux composants intégrés: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler et Transformer.
  • Nouvelle API pour créer vos propres composants.

Enfin, si vous souhaitez en savoir plus de cette nouvelle version ou à propos de spaCy, vous pouvez vérifier les détails dans le lien suivant.


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec *

*

*

  1. Responsable des données: Miguel Ángel Gatón
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.