spaCy，自然语言处理库

爆炸AI揭幕 新版本的免费库 «空间»具有以下实现 自然语言处理算法 （NLP）。在实践中， 该项目可用于构建自动回复器，漫游器，文本分类器以及确定短语含义的各种对话框系统。

图书馆 旨在提供持久的API 它没有链接到实际产品中已使用并准备使用的算法。图书馆 使用NLP的最新进展和最有效的算法 可用于处理信息。

如果出现了更有效的算法，则将库传递给它，但是此过渡不会影响API或应用程序。

空间的功能 它也是一种用于处理完整文档的架构， 无需在将文档划分为短语的预处理器中进行预处理。型号提供两种版本：最大的生产率和最大的精度。

spaCy的主要功能：

支持大约60种语言。
已经训练有素的模型可用于不同的语言和应用程序。
使用先前受过训练的变压器（例如BERT（变压器的双向编码器渲染））进行多任务学习。
支持预训练的向量和单词嵌入。
高性能。
即用型在职培训系统模型。
语言驱动的标记化。
现成的组件可用于链接命名实体，标记语音部分，对文本进行分类，分析基于标签的依存关系，划分句子，标记语音部分，形态分析，词干等。
支持使用自定义组件和属性扩展功能。
支持基于PyTorch，TensorFlow和其他框架创建自己的模型。
用于命名实体绑定和语法可视化（NER，命名实体识别）的内置工具。
打包和部署模型以及管理工作流的简单过程。
高精确度。

图书馆 用Python和Cython中的元素编写，这是Python扩展，允许使用C语言直接调用函数。

项目代码 根据MIT许可证分发。语言模型已准备好支持58种语言。

关于新版本的spaCy 3.0

spaCy 3.0版本在以下方面的实现上引人注目模范家庭再培训了18种语言并 培训了59条管道 总共包括5条新的基于变压器的管道

该模型提供三种版本 （16 MB，41 MB-20万个向量和491 MB-500万个向量）和 经过优化可在CPU负载下工作 包括tok2vec，morphologizer，解析器，sender，ner，attribute_ruler和lemmatizer组件。

我们从事spaCy v3.0的开发已有一年多了，如果算上在Thinc上完成的所有工作，则将近两年。此次发布的主要目的是使您更轻松地将自己的模型带入SPACY，尤其是最先进的模型，例如变压器。您可以编写模型，使用我们出色的新配置系统来描述所有设置，从而将spaCy组件提供给PyTorch或TensorFlow等框架。而且，由于现代的NLP工作流程通常包含多个步骤，因此有一个新的工作流程系统可以帮助您使工作井井有条。

其他重要创新 在新版本中脱颖而出：

培训模型的新工作流程。
新的配置系统。
支持基于变压器的管道模型，适用于多任务学习。
使用各种机器学习框架（例如PyTorch，TensorFlow和MXNet）连接自己的模型的能力。
项目支持可管理从预处理到模型实施的工作流的所有阶段。
支持与数据版本控制（DVC），Streamlit，权重和偏差以及Ray包集成。
新的内置组件：SentenceRecognizer，Morphologizer，Lemmatizer，
AttributeRuler和Transformer。
新的API可创建您自己的组件。

最后， 如果您有兴趣了解更多信息 新版本或有关spaCy的信息，您可以查看详细信息在下面的链接中。

DesdeLinux

spaCy，一种自然语言处理库

关于新版本的spaCy 3.0

发表您的评论取消回复

关于新版本的spaCy 3.0

发表您的评论 取消回复

发表您的评论取消回复