спаЦи, библиотека за обраду природног језика

Екплосион АИ је представио лансирање нова верзија бесплатне библиотеке «СпаЦи»Који има примену алгоритми за обраду природног језика (НЛП). У пракси, пројекат се може користити за изградњу аутоматских одговора, ботови, класификатори текста и разни дијалошки системи који одређују значење фраза.

Библиотека је дизајниран да обезбеди постојани АПИ Није повезан са алгоритмима који се користе и спреман за употребу у стварним производима. Библиотека користи најновија достигнућа у НЛП-у и најефикасније алгоритме доступни за обраду информација.

Ако се појави ефикаснији алгоритам, библиотека му се прослеђује, али овај прелаз не утиче на АПИ или апликације.

Карактеристика спаЦи-а то је такође архитектура дизајнирана за обраду комплетних докумената, без претходне обраде у претпроцесорима који документ деле на фразе. Модели се нуде у две верзије: за максималну продуктивност и максималну прецизност.

Главне карактеристике спаЦи-а:

  • Подршка за око 60 језика.
  • Већ обучени модели доступни за различите језике и апликације.
  • Мултитаск учење помоћу претходно обучених трансформатора попут БЕРТ-а (двосмерни прикази кодера трансформатора).
  • Подршка за унапред обучене векторе и уграђивање речи.
  • Високих перформанси.
  • Спремни за употребу модел система обуке на радном месту.
  • Лингвистички мотивисана токенизација.
  • Готове компоненте су доступне за повезивање именованих целина, обележавање делова говора, класификовање текста, анализирање зависности заснованих на ознакама, поделу реченица, обележавање делова говора, морфолошку анализу, темељење итд.
  • Подршка за проширивање функционалности помоћу прилагођених компоненти и атрибута.
  • Подршка за креирање сопствених модела заснованих на ПиТорцх, ТенсорФлов и другим оквирима.
  • Уграђени алати за везивање именованих ентитета и визуализацију синтаксе (НЕР, препознавање именованих ентитета).
  • Једноставан поступак паковања и примене модела и управљање током рада.
  • Високе прецизности.

Библиотека је написан на Питхон-у са елементима на Цитхон-у, Питхон екстензија која омогућава директно позивање функција на језику Ц.

Код пројекта дистрибуира се под лиценцом МИТ. Језички модели су спремни за 58 језика.

О новој верзији спаЦи 3.0

Верзија спаЦи 3.0 издваја се по примени узор породице преквалификован за 18 језика и Обучено 59 цевовода укупно, укључујући 5 нових цевовода на бази трансформатора

Модел се нуди у три верзије (16 МБ, 41 МБ - 20 хиљада вектора и 491 МБ - 500 хиљада вектора) и је оптимизован за рад под оптерећењем процесора и укључује компоненте ток2вец, морфологизатор, парсер, сентер, нер, аттрибуте_рулер и лематизатор.

На спаЦи в3.0 радимо више од годину дана, и готово две године ако рачунате сав посао урађен на Тхинцу. Наш главни циљ представљањем је да олакшамо доношење властитих модела у СПАЦИ, посебно најсавременије моделе попут трансформатора. Можете да напишете моделе који спаЦи компоненте уносе у оквире попут ПиТорцх или ТенсорФлов, користећи наш сјајни нови систем за конфигурацију да опише сва ваша подешавања. А пошто се модерни НЛП токови рада често састоје од више корака, постоји нови систем токова посла који ће вам помоћи да рад одржавате организованим.

Остале важне иновације који се истичу у новој верзији:

  • Нови ток рада за моделе обуке.
  • Нови систем за конфигурацију.
  • Подршка за моделе цевовода заснованих на трансформаторима, погодне за учење мултитаскинга.
  • Могућност повезивања сопствених модела помоћу различитих оквира за машинско учење, као што су ПиТорцх, ТенсорФлов и МКСНет.
  • Пројектна подршка за управљање свим фазама токова посла, од претходне обраде до имплементације модела.
  • Подршка за интеграцију са Дата Версион Цонтрол (ДВЦ), Стреамлит, Веигхтс & Биасес и Раи пакетима.
  • Нове уграђене компоненте: СентенцеРецогнизер, Морпхологизер, Лемматизер,
  • АттрибутеРулер и Трансформер.
  • Нови АПИ за креирање сопствених компоненти.

Коначно, ако сте заинтересовани да сазнате више о томе ове нове верзије или о спаЦи, можете проверити детаље У следећем линку.


Садржај чланка се придржава наших принципа уређивачка етика. Да бисте пријавили грешку, кликните овде.

Будите први који ће коментарисати

Оставите свој коментар

Ваша емаил адреса неће бити објављена.

*

*

  1. За податке одговоран: Мигуел Ангел Гатон
  2. Сврха података: Контрола нежељене поште, управљање коментарима.
  3. Легитимација: Ваш пристанак
  4. Комуникација података: Подаци се неће преносити трећим лицима, осим по законској обавези.
  5. Похрана података: База података коју хостује Оццентус Нетворкс (ЕУ)
  6. Права: У било ком тренутку можете ограничити, опоравити и избрисати своје податке.