spaCy, бібліотека для обробки природних мов

Explosion AI представив запуск нову версію безкоштовної бібліотеки «SpaCy»Що має реалізацію алгоритми обробки природної мови (НЛП). На практиці, проект може бути використаний для побудови автовідповідачів, боти, класифікатори тексту та різні діалогові системи, що визначають значення фраз.

Бібліотека призначений для забезпечення постійного API Це не пов'язано з алгоритмами, які використовуються і готові до використання в реальних продуктах. Бібліотека використовує останні досягнення НЛП та найефективніші алгоритми доступні для обробки інформації.

Якщо з'являється більш ефективний алгоритм, бібліотека передається йому, але цей перехід не впливає на API або додатки.

Особливість spaCy це також архітектура, призначена для обробки повних документів, без попередньої обробки в препроцесорах, які ділять документ на фрази. Моделі пропонуються у двох версіях: для максимальної продуктивності та максимальної точності.

Основні особливості spaCy:

  • Підтримка близько 60 мов.
  • Вже навчені моделі доступні для різних мов та програм.
  • Багатозадачність навчання за допомогою попередньо навчених трансформаторів, таких як BERT (двонаправлений рендеринг кодера трансформаторів).
  • Підтримка попередньо навчених векторів та вбудованих слів.
  • Висока продуктивність.
  • Готова до використання модель системи навчання на виробництві.
  • Токенізація з мовною мотивацією.
  • Готові компоненти доступні для зв'язування іменованих сутностей, позначення частин мови, класифікації тексту, аналізу залежностей на основі тегів, розділення речень, позначення частин мови, морфологічного аналізу, стемінгу тощо.
  • Підтримка розширення функціональності за допомогою спеціальних компонентів та атрибутів.
  • Підтримка для створення власних моделей на основі PyTorch, TensorFlow та інших фреймворків.
  • Вбудовані інструменти для прив’язки іменованих об’єктів та візуалізації синтаксису (NER, розпізнавання іменованих об’єктів).
  • Простий процес упаковки та розгортання моделей та управління робочим процесом.
  • Висока точність.

Бібліотека написано на Python з елементами на Cython, розширення Python, яке дозволяє здійснювати прямі виклики функцій мовою C.

Код проекту поширюється за ліцензією MIT. Мовні моделі готові для 58 мов.

Про нову версію spaCy 3.0

Версія spaCy 3.0 виділяється реалізацією модельні сім'ї перекваліфіковано на 18 мов та Навчено 59 трубопроводів загалом, включаючи 5 нових трубопроводів на основі трансформаторів

Модель пропонується у трьох варіантах (16 Мб, 41 Мб - 20 тис. Векторів і 491 Мб - 500 тис. Векторів) і оптимізовано для роботи під навантаженням процесора і включає компоненти tok2vec, морфологізатор, синтаксичний аналізатор, сентер, нер, атрибут_лінера та лематизатор.

Ми працюємо над spaCy v3.0 більше року і майже два роки, якщо врахувати всю роботу, виконану на Thinc. Наша головна мета з запуском - спростити перенесення власних моделей у SPACY, особливо таких сучасних моделей, як трансформатори. Ви можете писати моделі, які подають компоненти spaCy у такі фреймворки, як PyTorch або TensorFlow, використовуючи нашу чудову нову систему конфігурації для опису всіх ваших налаштувань. Оскільки сучасні робочі процеси NLP часто складаються з декількох етапів, існує нова система робочих процесів, яка допоможе вам організувати свою роботу.

Інші важливі нововведення що виділяються з нової версії:

  • Новий робочий процес для навчальних моделей.
  • Нова система конфігурації.
  • Підтримка моделей трубопроводів на основі трансформаторів, придатних для багатозадачного навчання.
  • Можливість підключення власних моделей за допомогою різних систем машинного навчання, таких як PyTorch, TensorFlow та MXNet.
  • Підтримка проектів для управління всіма етапами робочих процесів, від попередньої обробки до реалізації моделі.
  • Підтримка інтеграції з Data Control Control (DVC), Streamlit, Weights & Biases і пакетами Ray.
  • Нові вбудовані компоненти: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler і Transformer.
  • Новий API для створення власних компонентів.

Нарешті, якщо вам цікаво дізнатись більше про це цієї нової версії або про spaCy, ви можете перевірити деталі У наступному посиланні.


Залиште свій коментар

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

*

*

  1. Відповідальний за дані: Мігель Анхель Гатон
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.