spaCy, eine Bibliothek zur Verarbeitung natürlicher Sprache

Explosion AI enthüllte den Start von die neue Version der kostenlosen Bibliothek «SpaCy»Welches hat eine Implementierung von Algorithmen zur Verarbeitung natürlicher Sprache (NLP). In der Praxis, Mit dem Projekt können Autoresponder erstellt werden, Bots, Textklassifizierer und verschiedene Dialogsysteme, die die Bedeutung von Phrasen bestimmen.

Die Bibliothek wurde entwickelt, um eine dauerhafte API bereitzustellen Es ist nicht an die verwendeten Algorithmen gebunden und in realen Produkten einsatzbereit. Bibliothek verwendet die neuesten Fortschritte in NLP und die effizientesten Algorithmen verfügbar, um Informationen zu verarbeiten.

Wenn ein effizienterer Algorithmus angezeigt wird, wird die Bibliothek an ihn übergeben, dieser Übergang wirkt sich jedoch nicht auf die API oder die Anwendungen aus.

Eine Funktion von spaCy Es ist auch eine Architektur zur Verarbeitung vollständiger Dokumente. ohne Vorverarbeitung in Präprozessoren, die das Dokument in Phrasen unterteilen. Die Modelle werden in zwei Versionen angeboten: für maximale Produktivität und maximale Präzision.

Die Hauptmerkmale von spaCy:

  • Unterstützung für rund 60 Sprachen.
  • Bereits geschulte Modelle für verschiedene Sprachen und Anwendungen verfügbar.
  • Multitasking-Lernen mit zuvor trainierten Transformatoren wie BERT (Bidirectional Encoder Renderings of Transformers).
  • Unterstützung für vorab trainierte Vektoren und Worteinbettungen.
  • Hohe leistung
  • Gebrauchsfertiges On-the-Job-Schulungssystemmodell.
  • Sprachlich motivierte Tokenisierung.
  • Gebrauchsfertige Komponenten stehen zur Verfügung, um benannte Entitäten zu verknüpfen, Teile der Sprache zu markieren, Text zu klassifizieren, tagbasierte Abhängigkeiten zu analysieren, Sätze zu teilen, Teile der Sprache zu markieren, morphologische Analysen durchzuführen, Stemming usw.
  • Unterstützung für die Erweiterung der Funktionalität mit benutzerdefinierten Komponenten und Attributen.
  • Unterstützung für die Erstellung eigener Modelle basierend auf PyTorch, TensorFlow und anderen Frameworks.
  • Integrierte Tools für die Bindung benannter Entitäten und die Syntaxvisualisierung (NER, Named Entity Recognition).
  • Einfacher Prozess zum Packen und Bereitstellen von Modellen und Verwalten des Workflows.
  • Hohe Genauigkeit.

Die Bibliothek ist in Python mit Elementen in Cython geschrieben, eine Python-Erweiterung, die den direkten Funktionsaufruf in der Sprache C ermöglicht.

Der Projektcode wird unter der MIT-Lizenz vertrieben. Die Sprachmodelle sind für 58 Sprachen bereit.

Über die neue Version von spaCy 3.0

Die spaCy 3.0-Version zeichnet sich durch die Implementierung von aus Modellfamilien umgeschult für 18 Sprachen und 59 Pipelines trainiert Insgesamt 5 neue transformatorbasierte Pipelines

Das Modell wird in drei Versionen angeboten (16 MB, 41 MB - 20 Vektoren und 491 MB - 500 Vektoren) und ist für die Arbeit unter CPU-Last optimiert und enthält die Komponenten tok2vec, morphologizer, parser, senter, ner, attribute_ruler und lemmatizer.

Wir arbeiten seit über einem Jahr an spaCy v3.0 und fast zwei Jahre, wenn Sie alle Arbeiten an Thinc mitzählen. Unser Hauptziel bei der Einführung ist es, es einfacher zu machen, Ihre eigenen Modelle in SPACY zu bringen, insbesondere die neuesten Modelle wie Transformatoren. Sie können Modelle schreiben, die die spaCy-Komponenten in Frameworks wie PyTorch oder TensorFlow einspeisen, indem Sie unser fantastisches neues Konfigurationssystem verwenden, um alle Ihre Einstellungen zu beschreiben. Und da moderne NLP-Workflows häufig aus mehreren Schritten bestehen, gibt es ein neues Workflow-System, mit dem Sie Ihre Arbeit besser organisieren können.

Andere wichtige Innovationen das hebt sich von der neuen Version ab:

  • Neuer Workflow für Trainingsmodelle.
  • Neues Konfigurationssystem.
  • Unterstützung für transformatorbasierte Pipeline-Modelle, die für Multitasking-Lernen geeignet sind.
  • Die Möglichkeit, Ihre eigenen Modelle mithilfe verschiedener Frameworks für maschinelles Lernen wie PyTorch, TensorFlow und MXNet zu verbinden.
  • Projektunterstützung zur Verwaltung aller Phasen von Workflows, von der Vorverarbeitung bis zur Modellimplementierung.
  • Unterstützung für die Integration mit DVC- (Data Version Control), Streamlit-, Weights & Biases- und Ray-Paketen.
  • Neue integrierte Komponenten: Satzerkenner, Morphologizer, Lemmatizer,
  • AttributeRuler und Transformer.
  • Neue API zum Erstellen eigener Komponenten.

Schließlich wenn Sie mehr darüber wissen möchten Von dieser neuen Version oder über spaCy können Sie die Details überprüfen im folgenden Link.


Hinterlasse einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert mit *

*

*

  1. Verantwortlich für die Daten: Miguel Ángel Gatón
  2. Zweck der Daten: Kontrolle von SPAM, Kommentarverwaltung.
  3. Legitimation: Ihre Zustimmung
  4. Übermittlung der Daten: Die Daten werden nur durch gesetzliche Verpflichtung an Dritte weitergegeben.
  5. Datenspeicherung: Von Occentus Networks (EU) gehostete Datenbank
  6. Rechte: Sie können Ihre Informationen jederzeit einschränken, wiederherstellen und löschen.