spaCy、自然言語処理ライブラリ

ExplosionAIはの発売を発表しました 無料ライブラリの新しいバージョン «スパシー»の実装があります 自然言語処理アルゴリズム (NLP)。 実際には、 プロジェクトを使用して自動応答を構築できます、ボット、テキスト分類子、およびフレーズの意味を決定するさまざまなダイアログシステム。

図書館 永続的なAPIを提供するように設計されています これは、実際の製品で使用され、すぐに使用できるアルゴリズムにリンクされていません。 図書館 NLPの最新の進歩と最も効率的なアルゴリズムを使用 情報を処理するために利用できます。

より効率的なアルゴリズムが表示された場合、ライブラリはそのアルゴリズムに渡されますが、この移行はAPIやアプリケーションには影響しません。

spaCyの特徴 また、完全なドキュメントを処理するように設計されたアーキテクチャでもあります。 ドキュメントをフレーズに分割するプリプロセッサでの前処理なし。 モデルは、最大の生産性と最大の精度のXNUMXつのバージョンで提供されます。

spaCyの主な機能:

  • 約60言語のサポート。
  • さまざまな言語やアプリケーションで利用できる、すでにトレーニング済みのモデル。
  • BERT(トランスフォーマーの双方向エンコーダーレンダリング)のような以前にトレーニングされたトランスフォーマーを使用したマルチタスク学習。
  • 事前にトレーニングされたベクトルと単語の埋め込みのサポート。
  • ハイパフォーマンス。
  • すぐに使用できる実地訓練システムモデル。
  • 言語的に動機付けられたトークン化。
  • 既製のコンポーネントは、名前付きエンティティのリンク、品詞のマーキング、テキストの分類、タグベースの依存関係の分析、文の分割、品詞のマーキング、形態素解析、ステミングなどに使用できます。
  • カスタムコンポーネントと属性を使用して機能を拡張するためのサポート。
  • PyTorch、TensorFlow、その他のフレームワークに基づいて独自のモデルを作成するためのサポート。
  • 名前付きエンティティのバインドと構文の視覚化(NER、名前付きエンティティの認識)用の組み込みツール。
  • モデルをパッケージ化して展開し、ワークフローを管理する簡単なプロセス。
  • 高い正確性。

図書館 Cythonの要素を使用してPythonで記述されています、C言語での直接関数呼び出しを可能にするPython拡張機能。

プロジェクトコード MITライセンスの下で配布されます。 言語モデルは58言語に対応しています。

spaCy3.0の新バージョンについて

spaCy 3.0バージョンは、の実装で際立っています モデルファミリ 18の言語のために再訓練されました 訓練された59のパイプライン 5つの新しい変圧器ベースのパイプラインを含む合計

モデルはXNUMXつのバージョンで提供されます (16 MB、41 MB-20万ベクトルおよび491MB-500万ベクトル)および CPU負荷の下で動作するように最適化されています また、tok2vec、morphologizer、parser、sender、ner、attribute_ruler、およびlemmatizerコンポーネントが含まれています。

私たちはspaCyv3.0にXNUMX年以上取り組んできましたが、Thincで行われたすべての作業を数えるとほぼXNUMX年になります。 発売の主な目標は、独自のモデル、特にトランスフォーマーなどの最先端モデルをより簡単にSPACYに導入できるようにすることです。 素晴らしい新しい構成システムを使用してすべての設定を記述し、spaCyコンポーネントをPyTorchやTensorFlowなどのフレームワークにフィードするモデルを作成できます。 また、最新のNLPワークフローは複数のステップで構成されることが多いため、作業を整理するのに役立つ新しいワークフローシステムがあります。

その他の重要な革新 新しいバージョンから際立っている:

  • モデルをトレーニングするための新しいワークフロー。
  • 新しい構成システム。
  • マルチタスク学習に適したトランスフォーマーベースのパイプラインモデルのサポート。
  • PyTorch、TensorFlow、MXNetなどのさまざまな機械学習フレームワークを使用して独自のモデルを接続する機能。
  • 前処理からモデルの実装まで、ワークフローのすべての段階を管理するためのプロジェクトサポート。
  • データバージョン管理(DVC)、Streamlit、Weights&Biases、およびRayパッケージとの統合のサポート。
  • 新しい組み込みコンポーネント:SentenceRecognizer、Morphologizer、Lemmatizer、
  • AttributeRulerおよびTransformer。
  • 独自のコンポーネントを作成するための新しいAPI。

最後に、 あなたがそれについてもっと知りたいのなら この新しいバージョンまたはspaCyについては、詳細を確認できます 次のリンクで。


コメントを最初に

コメントを残す

あなたのメールアドレスが公開されることはありません。 必須フィールドには付いています *

*

*

  1. データの責任者:MiguelÁngelGatón
  2. データの目的:SPAMの制御、コメント管理。
  3. 正当化:あなたの同意
  4. データの伝達:法的義務がある場合を除き、データが第三者に伝達されることはありません。
  5. データストレージ:Occentus Networks(EU)がホストするデータベース
  6. 権利:いつでも情報を制限、回復、削除できます。