Експлозија АИ го откри лансирањето на новата верзија на бесплатната библиотека «СпаСи»Кој има имплементација на алгоритми за обработка на природен јазик (НЛП). Во пракса, проектот може да се искористи за изградба на автоматски одговор, ботови, класификатори на текст и разни дијалог-системи што го одредуваат значењето на фразите.
Библиотека е дизајниран да обезбеди постојан API Не е поврзана со алгоритмите што се користат и се подготвени за употреба во вистински производи. Библиотека ги користи најновите достигнувања во НЛП и најефикасните алгоритми достапни за обработка на информации.
Ако се појави поефикасен алгоритам, библиотеката се пренесува на неа, но оваа транзиција не влијае на API или апликациите.
Карактеристика на spaCy тоа е исто така архитектура дизајнирана да обработува целосни документи, без претходна обработка во пред-обработувачите кои го делат документот на фрази. Моделите се нудат во две верзии: за максимална продуктивност и максимална прецизност.
Главните карактеристики на спа-центар:
- Поддршка за околу 60 јазици.
- Веќе обучени модели достапни за различни јазици и апликации.
- Повеќенаменско учење со користење на претходно обучени трансформатори како BERT (Bidirectional Encoder Renderings of Transformers).
- Поддршка за претходно обучени вектори и вградувања на зборови.
- Високи перформанси.
- Модел на систем за обука на работа подготвен за употреба.
- Јазично мотивирана токенизација.
- Готови компоненти се достапни за поврзување на именувани ентитети, обележување делови од говор, класифицирање на текст, анализа на зависности засновани на тагови, разделување на реченици, обележување делови на говор, морфолошка анализа, потекло, итн
- Поддршка за проширување на функционалноста со прилагодени компоненти и атрибути.
- Поддршка за креирање сопствени модели базирани на PyTorch, TensorFlow и други рамки.
- Вградени алатки за врзување на називот на ентитет и визуелизација на синтаксата (NER, признавање на називот на субјектот).
- Едноставен процес на пакување и распоредување модели и управување со работниот тек.
- Висока точност.
Библиотека е напишано на Пајтон со елементи на Китон, продолжување на Пајтон што овозможува директно повикување на функцијата на јазикот Ц.
Кодот на проектот се дистрибуира под лиценцата на МИТ. Јазичните модели се подготвени за 58 јазици.
За новата верзија на spaCy 3.0
Верзијата spaCy 3.0 се издвојува за имплементација на семејни модели преквалификувана на 18 јазици и Обучени 59 цевководи вкупно, вклучително и 5 нови цевководи базирани на трансформатори
Моделот се нуди во три верзии (16 MB, 41 MB - 20 илјади вектори и 491 MB - 500 илјади вектори) и е оптимизиран да работи под оптоварување на процесорот и ги вклучува компонентите tok2vec, morphologizer, parser, senter, ner, attribute_ruler и лематизатор.
Работиме на spaCy v3.0 повеќе од една година и скоро две години ако ја сметате целата работа направена на Thinc. Нашата главна цел со лансирањето е да го олесниме носењето на сопствените модели во SPACY, особено најсовремените модели како трансформатори. Може да напишете модели кои ги хранат spaCy компонентите во рамки како PyTorch или TensorFlow, користејќи го нашиот одличен нов систем за конфигурација за да ги опишете сите ваши поставки. И бидејќи современите работни процеси во НЛП често се состојат од повеќе чекори, има нов систем на работни текови што ќе ви помогне да ја одржувате работата организирана.
Други важни иновации кои се издвојуваат од новата верзија:
- Нов тек на работа за модели на обука.
- Нов систем за конфигурација.
- Поддршка за модели на цевководи базирани на трансформатори, погодни за учење со повеќе задачи.
- Способност да ги поврзете вашите сопствени модели користејќи различни рамки за машинско учење, како што се PyTorch, TensorFlow и MXNet.
- Поддршка на проектот за управување со сите фази на работните текови, од пред-обработка до примена на моделот.
- Поддршка за интеграција со пакетите за контрола на верзија на податоци (DVC), Streamlit, Weights & Biases и Ray.
- Нови вградени компоненти: SentenceRecognizer, Morphologizer, Lemmatizer,
- AttributeRuler и Transformer.
- Нов API за да креирате свои компоненти.
Конечно, ако сте заинтересирани да знаете повеќе за тоа на оваа нова верзија или за spaCy, можете да ги проверите деталите На следниот линк.
Биди прв да коментираш