Екплосион АИ је представио лансирање нова верзија бесплатне библиотеке «СпаЦи»Који има примену алгоритми за обраду природног језика (НЛП). У пракси, пројекат се може користити за изградњу аутоматских одговора, ботови, класификатори текста и разни дијалошки системи који одређују значење фраза.
Библиотека је дизајниран да обезбеди постојани АПИ Није повезан са алгоритмима који се користе и спреман за употребу у стварним производима. Библиотека користи најновија достигнућа у НЛП-у и најефикасније алгоритме доступни за обраду информација.
Ако се појави ефикаснији алгоритам, библиотека му се прослеђује, али овај прелаз не утиче на АПИ или апликације.
Карактеристика спаЦи-а то је такође архитектура дизајнирана за обраду комплетних докумената, без претходне обраде у претпроцесорима који документ деле на фразе. Модели се нуде у две верзије: за максималну продуктивност и максималну прецизност.
Главне карактеристике спаЦи-а:
- Подршка за око 60 језика.
- Већ обучени модели доступни за различите језике и апликације.
- Мултитаск учење помоћу претходно обучених трансформатора попут БЕРТ-а (двосмерни прикази кодера трансформатора).
- Подршка за унапред обучене векторе и уграђивање речи.
- Високих перформанси.
- Спремни за употребу модел система обуке на радном месту.
- Лингвистички мотивисана токенизација.
- Готове компоненте су доступне за повезивање именованих целина, обележавање делова говора, класификовање текста, анализирање зависности заснованих на ознакама, поделу реченица, обележавање делова говора, морфолошку анализу, темељење итд.
- Подршка за проширивање функционалности помоћу прилагођених компоненти и атрибута.
- Подршка за креирање сопствених модела заснованих на ПиТорцх, ТенсорФлов и другим оквирима.
- Уграђени алати за везивање именованих ентитета и визуализацију синтаксе (НЕР, препознавање именованих ентитета).
- Једноставан поступак паковања и примене модела и управљање током рада.
- Високе прецизности.
Библиотека је написан на Питхон-у са елементима на Цитхон-у, Питхон екстензија која омогућава директно позивање функција на језику Ц.
Код пројекта дистрибуира се под лиценцом МИТ. Језички модели су спремни за 58 језика.
О новој верзији спаЦи 3.0
Верзија спаЦи 3.0 издваја се по примени узор породице преквалификован за 18 језика и Обучено 59 цевовода укупно, укључујући 5 нових цевовода на бази трансформатора
Модел се нуди у три верзије (16 МБ, 41 МБ - 20 хиљада вектора и 491 МБ - 500 хиљада вектора) и је оптимизован за рад под оптерећењем процесора и укључује компоненте ток2вец, морфологизатор, парсер, сентер, нер, аттрибуте_рулер и лематизатор.
На спаЦи в3.0 радимо више од годину дана, и готово две године ако рачунате сав посао урађен на Тхинцу. Наш главни циљ представљањем је да олакшамо доношење властитих модела у СПАЦИ, посебно најсавременије моделе попут трансформатора. Можете да напишете моделе који спаЦи компоненте уносе у оквире попут ПиТорцх или ТенсорФлов, користећи наш сјајни нови систем за конфигурацију да опише сва ваша подешавања. А пошто се модерни НЛП токови рада често састоје од више корака, постоји нови систем токова посла који ће вам помоћи да рад одржавате организованим.
Остале важне иновације који се истичу у новој верзији:
- Нови ток рада за моделе обуке.
- Нови систем за конфигурацију.
- Подршка за моделе цевовода заснованих на трансформаторима, погодне за учење мултитаскинга.
- Могућност повезивања сопствених модела помоћу различитих оквира за машинско учење, као што су ПиТорцх, ТенсорФлов и МКСНет.
- Пројектна подршка за управљање свим фазама токова посла, од претходне обраде до имплементације модела.
- Подршка за интеграцију са Дата Версион Цонтрол (ДВЦ), Стреамлит, Веигхтс & Биасес и Раи пакетима.
- Нове уграђене компоненте: СентенцеРецогнизер, Морпхологизер, Лемматизер,
- АттрибутеРулер и Трансформер.
- Нови АПИ за креирање сопствених компоненти.
Коначно, ако сте заинтересовани да сазнате више о томе ове нове верзије или о спаЦи, можете проверити детаље У следећем линку.