spaCy,一种自然语言处理库

爆炸AI揭幕 新版本的免费库 «空间»具有以下实现 自然语言处理算法 (NLP)。 在实践中, 该项目可用于构建自动回复器,漫游器,文本分类器以及确定短语含义的各种对话框系统。

图书馆 旨在提供持久的API 它没有链接到实际产品中已使用并准备使用的算法。 图书馆 使用NLP的最新进展和最有效的算法 可用于处理信息。

如果出现了更有效的算法,则将库传递给它,但是此过渡不会影响API或应用程序。

空间的功能 它也是一种用于处理完整文档的架构, 无需在将文档划分为短语的预处理器中进行预处理。 型号提供两种版本:最大的生产率和最大的精度。

spaCy的主要功能:

  • 支持大约60种语言。
  • 已经训练有素的模型可用于不同的语言和应用程序。
  • 使用先前受过训练的变压器(例如BERT(变压器的双向编码器渲染))进行多任务学习。
  • 支持预训练的向量和单词嵌入。
  • 高性能。
  • 即用型在职培训系统模型。
  • 语言驱动的标记化。
  • 现成的组件可用于链接命名实体,标记语音部分,对文本进行分类,分析基于标签的依存关系,划分句子,标记语音部分,形态分析,词干等。
  • 支持使用自定义组件和属性扩展功能。
  • 支持基于PyTorch,TensorFlow和其他框架创建自己的模型。
  • 用于命名实体绑定和语法可视化(NER,命名实体识别)的内置工具。
  • 打包和部署模型以及管理工作流的简单过程。
  • 高精确度。

图书馆 用Python和Cython中的元素编写,这是Python扩展,允许使用C语言直接调用函数。

项目代码 根据MIT许可证分发。 语言模型已准备好支持58种语言。

关于新版本的spaCy 3.0

spaCy 3.0版本在以下方面的实现上引人注目 模范家庭 再培训了18种语言并 培训了59条管道 总共包括5条新的基于变压器的管道

该模型提供三种版本 (16 MB,41 MB-20万个向量和491 MB-500万个向量)和 经过优化可在CPU负载下工作 包括tok2vec,morphologizer,解析器,sender,ner,attribute_ruler和lemmatizer组件。

我们从事spaCy v3.0的开发已有一年多了,如果算上在Thinc上完成的所有工作,则将近两年。 此次发布的主要目的是使您更轻松地将自己的模型带入SPACY,尤其是最先进的模型,例如变压器。 您可以编写模型,使用我们出色的新配置系统来描述所有设置,从而将spaCy组件提供给PyTorch或TensorFlow等框架。 而且,由于现代的NLP工作流程通常包含多个步骤,因此有一个新的工作流程系统可以帮助您使工作井井有条。

其他重要创新 在新版本中脱颖而出:

  • 培训模型的新工作流程。
  • 新的配置系统。
  • 支持基于变压器的管道模型,适用于多任务学习。
  • 使用各种机器学习框架(例如PyTorch,TensorFlow和MXNet)连接自己的模型的能力。
  • 项目支持可管理从预处理到模型实施的工作流的所有阶段。
  • 支持与数据版本控制(DVC),Streamlit,权重和偏差以及Ray包集成。
  • 新的内置组件:SentenceRecognizer,Morphologizer,Lemmatizer,
  • AttributeRuler和Transformer。
  • 新的API可创建您自己的组件。

最后, 如果您有兴趣了解更多信息 新版本或有关spaCy的信息,您可以查看详细信息 在下面的链接中。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责数据:MiguelÁngelGatón
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。