spaCy, библиотека обработки естественного языка

Explosion AI представила запуск новая версия бесплатной библиотеки «SpaCy»В котором реализована алгоритмы обработки естественного языка (НЛП). На практике, проект можно использовать для создания автоответчиков, боты, классификаторы текста и различные диалоговые системы, определяющие значение фраз.

Библиотека предназначен для обеспечения постоянного API Он не связан с используемыми алгоритмами и готов к использованию в реальных продуктах. Библиотека использует последние достижения НЛП и самые эффективные алгоритмы доступны для обработки информации.

Если появляется более эффективный алгоритм, библиотека передается ему, но этот переход не влияет на API или приложения.

Особенность spaCy это также архитектура, предназначенная для обработки полных документов, без предварительной обработки в препроцессорах, которые делят документ на фразы. Предлагаются модели в двух вариантах: для максимальной производительности и максимальной точности.

Основные особенности spaCy:

  • Поддержка около 60 языков.
  • Уже обученные модели доступны для разных языков и приложений.
  • Многозадачное обучение с использованием ранее обученных преобразователей, таких как BERT (двунаправленное отображение преобразователей с кодировкой).
  • Поддержка предварительно обученных векторов и встраивания слов.
  • Высокая производительность.
  • Готовая модель системы обучения на рабочем месте.
  • Лингвистически мотивированная токенизация.
  • Доступны готовые к использованию компоненты для связывания именованных сущностей, маркировки частей речи, классификации текста, анализа зависимостей на основе тегов, разделения предложений, маркировки частей речи, морфологического анализа, выделения корней и т. Д.
  • Поддержка расширения функциональности с помощью настраиваемых компонентов и атрибутов.
  • Поддержка создания собственных моделей на основе PyTorch, TensorFlow и других фреймворков.
  • Встроенные инструменты для привязки именованных сущностей и визуализации синтаксиса (NER, распознавание именованных сущностей).
  • Простой процесс упаковки и развертывания моделей и управления рабочим процессом.
  • Высокая точность.

Библиотека написан на Python с элементами на Cython, расширение Python, которое позволяет напрямую вызывать функции на языке C.

Код проекта распространяется по лицензии MIT. Готовы языковые модели для 58 языков.

О новой версии spaCy 3.0

Версия spaCy 3.0 отличается реализацией модельные семейства переподготовка на 18 языков и Обучено 59 трубопроводов всего, в том числе 5 новых трансформаторных трубопроводов

Модель предлагается в трех вариантах. (16 МБ, 41 МБ - 20 тысяч векторов и 491 МБ - 500 тысяч векторов) и оптимизирован для работы при загрузке процессора и включает компоненты tok2vec, morphologizer, parser, senter, ner, attribute_ruler и lemmatizer.

Мы работаем над spaCy v3.0 больше года и почти два года, если считать всю работу, проделанную над Thinc. Наша главная цель при запуске - упростить доставку ваших собственных моделей в SPACY, особенно таких современных моделей, как трансформаторы. Вы можете писать модели, которые загружают компоненты spaCy в такие фреймворки, как PyTorch или TensorFlow, используя нашу новую потрясающую систему конфигурации для описания всех ваших настроек. А поскольку современные рабочие процессы НЛП часто состоят из нескольких этапов, существует новая система рабочих процессов, которая поможет вам организовать вашу работу.

Другие важные нововведения которые выделяются из новой версии:

  • Новый рабочий процесс для обучения моделей.
  • Новая система конфигурации.
  • Поддержка трансформаторных моделей трубопроводов, подходящих для многозадачного обучения.
  • Возможность подключать собственные модели с использованием различных фреймворков машинного обучения, таких как PyTorch, TensorFlow и MXNet.
  • Поддержка проекта для управления всеми этапами рабочих процессов, от предварительной обработки до реализации модели.
  • Поддержка интеграции с пакетами Data Version Control (DVC), Streamlit, Weights & Biases и Ray.
  • Новые встроенные компоненты: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler и Transformer.
  • Новый API для создания собственных компонентов.

Наконец, если вам интересно узнать об этом больше этой новой версии или о spaCy, вы можете проверить подробности По следующей ссылке.


Содержание статьи соответствует нашим принципам редакционная этика. Чтобы сообщить об ошибке, нажмите здесь.

Будьте первым, чтобы комментировать

Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: Мигель Анхель Гатон
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.