spaCy,一種自然語言處理庫

爆炸AI揭幕 新版本的免費庫 «空間»具有以下實現 自然語言處理算法 (NLP)。 在實踐中, 該項目可用於構建自動回复器,漫遊器,文本分類器以及確定短語含義的各種對話框系統。

圖書館 旨在提供持久的API 它沒有鏈接到實際產品中已使用並準備使用的算法。 圖書館 使用NLP的最新進展和最有效的算法 可用於處理信息。

如果出現了更有效的算法,則將庫傳遞給它,但是此過渡不會影響API或應用程序。

空間的功能 它也是一種用於處理完整文檔的架構, 無需在將文檔劃分為短語的預處理器中進行預處理。 型號提供兩種版本:最大的生產率和最大的精度。

spaCy的主要功能:

  • 支持大約60種語言。
  • 已經訓練有素的模型可用於不同的語言和應用程序。
  • 使用先前受過訓練的變壓器(例如BERT(變壓器的雙向編碼器渲染))進行多任務學習。
  • 支持預先訓練的向量和單詞嵌入。
  • 高性能。
  • 即用型在職培訓系統模型。
  • 語言驅動的標記化。
  • 即用型組件可用於鏈接命名實體,標記語音部分,對文本分類,分析基於標籤的依存關係,劃分句子,標記語音部分,形態分析,詞乾等。
  • 支持使用自定義組件和屬性擴展功能。
  • 支持基於PyTorch,TensorFlow和其他框架創建自己的模型。
  • 用於命名實體綁定和語法可視化(NER,命名實體識別)的內置工具。
  • 打包和部署模型以及管理工作流的簡單過程。
  • 高精確度。

圖書館 用Python和Cython中的元素編寫,這是Python擴展,允許使用C語言直接調用函數。

項目代碼 根據MIT許可證分發。 語言模型已準備好支持58種語言。

關於新版本的spaCy 3.0

spaCy 3.0版本在以下方面的實現方面引人注目 模范家庭 再培訓了18種語言並 培訓了59條管道 總共包括5條新的基於變壓器的管道

該模型提供三種版本 (16 MB,41 MB-20萬個向量和491 MB-500萬個向量)和 經過優化可在CPU負載下工作 包括tok2vec,morphologizer,解析器,sender,ner,attribute_ruler和lemmatizer組件。

我們從事spaCy v3.0的開發已有一年多了,如果算上在Thinc上完成的所有工作,則將近兩年。 此次發布的主要目的是使您更輕鬆地將自己的模型帶入SPACY,尤其是最先進的模型,例如變壓器。 您可以編寫模型,使用我們出色的新配置系統來描述所有設置,從而將spaCy組件提供給PyTorch或TensorFlow等框架。 而且,由於現代NLP工作流程通常包含多個步驟,因此有一個新的工作流程系統可以幫助您保持工作井井有條。

其他重要創新 在新版本中脫穎而出:

  • 培訓模型的新工作流程。
  • 新的配置系統。
  • 支持基於變壓器的管道模型,適用於多任務學習。
  • 使用各種機器學習框架(例如PyTorch,TensorFlow和MXNet)連接自己的模型的能力。
  • 項目支持可管理從預處理到模型實施的工作流的所有階段。
  • 支持與數據版本控制(DVC),Streamlit,權重和偏差以及Ray包集成。
  • 新的內置組件:SentenceRecognizer,Morphologizer,Lemmatizer,
  • AttributeRuler和Transformer。
  • 新的API可創建您自己的組件。

最後, 如果您有興趣了解更多信息 新版本或有關spaCy的信息,您可以查看詳細信息 在下面的鏈接中。


成為第一個發表評論

發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責數據:MiguelÁngelGatón
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。