spaCy, бібліятэка апрацоўкі натуральнай мовы

Explosion AI прадставіў запуск новая версія бясплатнай бібліятэкі «SpaCy»Які мае рэалізацыю алгарытмы апрацоўкі натуральнай мовы (НЛП). На практыцы, праект можа быць выкарыстаны для стварэння аўтаадказчыкаў, боты, класіфікатары тэксту і розныя дыялогавыя сістэмы, якія вызначаюць значэнне фраз.

Бібліятэка распрацаваны для забеспячэння пастаяннага API Гэта не звязана з алгарытмамі, якія выкарыстоўваюцца і гатовыя да выкарыстання ў рэальных прадуктах. Бібліятэка выкарыстоўвае апошнія дасягненні NLP і найбольш эфектыўныя алгарытмы даступныя для апрацоўкі інфармацыі.

Калі з'яўляецца больш эфектыўны алгарытм, бібліятэка перадаецца яму, але гэты пераход не ўплывае на API і дадаткі.

Асаблівасць spaCy гэта таксама архітэктура, прызначаная для апрацоўкі поўных дакументаў, без папярэдняй апрацоўкі ў прэпрацэсарах, якія дзеляць дакумент на фразы. Мадэлі прапануюцца ў двух версіях: для максімальнай прадукцыйнасці і максімальнай дакладнасці.

Асноўныя характарыстыкі spaCy:

  • Падтрымка каля 60 моў.
  • Ужо падрыхтаваныя мадэлі, даступныя для розных моў і прыкладанняў.
  • Шматзадачнасць навучання з выкарыстаннем раней падрыхтаваных трансфарматараў, такіх як BERT (Двунакіраваны рэндэрынг кадавальнікаў трансфарматараў).
  • Падтрымка папярэдне падрыхтаваных вектараў і ўбудоўвання слоў.
  • Высокая прадукцыйнасць.
  • Гатовая мадэль сістэмы навучання на працоўным месцы.
  • Токізацыя з лінгвістычнай матывацыяй.
  • Гатовыя да выкарыстання кампаненты даступныя для звязвання названых сутнасцей, маркіроўкі часцін мовы, класіфікацыі тэксту, аналізу залежнасцей на аснове тэгаў, падзелу прапаноў, маркіроўкі часцін мовы, марфалагічнага аналізу, вывядзення і г.д.
  • Падтрымка пашырэння функцыянальнасці з дапамогай уласных кампанентаў і атрыбутаў.
  • Падтрымка для стварэння ўласных мадэляў на аснове PyTorch, TensorFlow і іншых фреймворкаў.
  • Убудаваныя інструменты для прывязкі названых аб'ектаў і візуалізацыі сінтаксісу (NER, распазнаванне названых аб'ектаў).
  • Просты працэс упакоўкі і разгортвання мадэляў і кіраванне працоўным працэсам.
  • Высокая дакладнасць.

Бібліятэка напісана на Python з элементамі на Cython, пашырэнне Python, якое дазваляе непасрэдна выклікаць функцыі на мове C.

Код праекта распаўсюджваецца па ліцэнзіі MIT. Моўныя мадэлі гатовыя для 58 моў.

Аб новай версіі spaCy 3.0

Версія spaCy 3.0 вылучаецца рэалізацыяй мадэльныя сем'і перакваліфікавана на 18 моў і Навучана 59 трубаправодаў усяго, у тым ліку 5 новых трубаправодаў на базе трансфарматараў

Мадэль прапануецца ў трох варыянтах (16 МБ, 41 МБ - 20 тысяч вектараў і 491 МБ - 500 тысяч вектараў) і аптымізаваны для працы пад нагрузкай працэсара і ўключае ў сябе кампаненты tok2vec, марфалагізатар, аналізатар, сэнтэр, нер, атрыбут_рулера і лематызатара.

Мы працуем над spaCy v3.0 больш за год і амаль два гады, калі ўлічыць усю працу над Thinc. Наша галоўная мэта з запускам - палегчыць перанос уласных мадэляў у SPACY, асабліва такіх сучасных мадэляў, як трансфарматары. Вы можаце пісаць мадэлі, якія падаюць кампаненты spaCy ў такія структуры, як PyTorch ці TensorFlow, выкарыстоўваючы нашу дзіўную новую сістэму канфігурацыі, каб апісаць усе вашы налады. І паколькі сучасныя рабочыя працэсы NLP часта складаюцца з некалькіх этапаў, ёсць новая сістэма працоўных працэсаў, якая дапаможа вам арганізаваць працу.

Іншыя важныя новаўвядзенні якія вылучаюцца з новай версіі:

  • Новы працоўны працэс для навучальных мадэляў.
  • Новая сістэма канфігурацыі.
  • Падтрымка мадэляў трубаправодаў на аснове трансфарматараў, прыдатных для навучання шматзадачнасці.
  • Магчымасць падключэння ўласных мадэляў пры дапамозе розных сістэм машыннага навучання, такіх як PyTorch, TensorFlow і MXNet.
  • Падтрымка праекта для кіравання на ўсіх этапах працоўных працэсаў, ад папярэдняй апрацоўкі да рэалізацыі мадэлі.
  • Падтрымка інтэграцыі з Data Control Control (DVC), Streamlit, Weights & Biases і пакетамі Ray.
  • Новыя ўбудаваныя кампаненты: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler і трансфарматар.
  • Новы API для стварэння ўласных кампанентаў.

Нарэшце, калі вам цікава даведацца пра гэта больш гэтай новай версіі альбо пра spaCy, вы можаце праверыць дэталі Па наступнай спасылцы.


Змест артыкула адпавядае нашым прынцыпам рэдакцыйная этыка. Каб паведаміць пра памылку, націсніце тут.

Будзьце першым, каб каментаваць

Пакіньце свой каментар

Ваш электронны адрас не будзе апублікаваны. Абавязковыя для запаўнення палі пазначаныя *

*

*

  1. Адказны за дадзеныя: Мігель Анхель Гатон
  2. Прызначэнне дадзеных: Кантроль спаму, кіраванне каментарыямі.
  3. Легітымнасць: ваша згода
  4. Перадача дадзеных: Дадзеныя не будуць перададзены трэцім асобам, за выключэннем юрыдычных абавязкаў.
  5. Захоўванне дадзеных: База дадзеных, размешчаная Occentus Networks (ЕС)
  6. Правы: у любы час вы можаце абмежаваць, аднавіць і выдаліць сваю інфармацыю.