spaCy, табиғи тілдерді өңдеу кітапханасы

Жарылыс жасанды интеллект іске қосуды ашты тегін кітапхананың жаңа нұсқасы «SpaCy»Қайсысының орындалуы бар табиғи тілді өңдеу алгоритмдері (NLP). Тәжірибеде, жоба автожауаптар құруға пайдаланылуы мүмкін, боттар, мәтін жіктеуіштері және сөз тіркестерінің мағынасын анықтайтын әртүрлі диалогтық жүйелер.

Кітапхана тұрақты API ұсынуға арналған Ол қолданылған және нақты өнімдерде пайдалануға дайын алгоритмдермен байланыстырылмайды. Кітапхана NLP-дің соңғы жетістіктерін және тиімді алгоритмдерді қолданады ақпаратты өңдеу үшін қол жетімді.

Егер тиімдірек алгоритм пайда болса, кітапхана оған беріледі, бірақ бұл ауысу API немесе қолданбаларға әсер етпейді.

SpaCy ерекшелігі бұл сонымен қатар толық құжаттарды өңдеуге арналған сәулет, құжатты фразаларға бөлетін алдын-ала өңдеушілерде алдын-ала өңдеусіз. Модельдер екі нұсқада ұсынылады: максималды өнімділік пен максималды дәлдік үшін.

СПА-ның негізгі ерекшеліктері:

  • 60-қа жуық тілді қолдау.
  • Қазірдің өзінде әртүрлі тілдер мен қосымшалар үшін дайын модельдер.
  • BERT (трансформерлердің екі бағытты кодтаушысы) сияқты бұрын оқытылған трансформаторларды қолдана отырып, көп тапсырманы оқыту.
  • Алдын-ала дайындалған векторлар мен сөз тіркестерін қолдау.
  • Жоғары өнімділік.
  • Өндірісте пайдалануға дайын оқыту жүйесінің моделі.
  • Лингвистикалық түрдегі токенизация.
  • Қолдануға дайын компоненттер атаулы заттарды байланыстыру, сөйлеу бөліктерін белгілеу, мәтінді жіктеу, тегтерге байланысты тәуелділіктерді талдау, сөйлемдерді бөлу, сөйлеу бөліктерін белгілеу, морфологиялық талдау, дәнекерлеу және т.б.
  • Реттелетін компоненттер мен атрибуттармен функционалдылықты кеңейтуге қолдау.
  • PyTorch, TensorFlow және басқа құрылымдар негізінде өзіңіздің жеке модельдеріңізді құруға қолдау.
  • Атаулы тұлғаны байланыстыруға және синтаксистік көрнекілікке арналған кіріктірілген құралдар (NER, атаулы тұлғаны тану).
  • Үлгілерді орау және орналастыру және жұмыс процесін басқарудың қарапайым процесі.
  • Жоғары дәлдік.

Кітапхана Python-да Cython-да элементтерімен жазылған, C тілінде тікелей функцияны шақыруға мүмкіндік беретін Python кеңейтімі.

Жоба коды MIT лицензиясы бойынша таратылады. Тілдік модельдер 58 тілге дайын.

SpaCy 3.0 жаңа нұсқасы туралы

SpaCy 3.0 нұсқасы оны жүзеге асыруға арналған үлгілі отбасылар 18 тілге қайта оқытылды және 59 құбыр өткізілді барлығы, оның ішінде 5 жаңа трансформаторлық құбырлар

Модель үш нұсқада ұсынылған (16 МБ, 41 МБ - 20 мың вектор және 491 МБ - 500 мың вектор) және процессор жүктемесімен жұмыс істеуге оңтайландырылған және tok2vec, морфологизатор, талдау, senter, ner, attribute_ruler және lemmatizer компоненттерін қамтиды.

Біз spaCy v3.0-де бір жылдан астам уақыт жұмыс істеп келеміз, егер сіз Thinc-те жасалған барлық жұмыстарды есептесеңіз екі жылға жуық уақыт. Біздің іске қосылуымыздың басты мақсаты - SPACY-де өз модельдеріңізді, әсіресе трансформаторлар сияқты заманауи модельдерді тасымалдауды жеңілдету. Сіз өзіңіздің барлық параметрлеріңізді сипаттау үшін біздің керемет конфигурация жүйесін пайдаланып, SpaCy компоненттерін PyTorch немесе TensorFlow сияқты құрылымдарға беретін модельдерді жаза аласыз. Қазіргі заманғы NLP жұмыс ағындары көбінесе бірнеше қадамдардан тұратындықтан, жұмысыңызды жүйелеуге көмектесетін жаңа жұмыс процесі жүйесі бар.

Басқа маңызды жаңалықтар жаңа нұсқасынан ерекшеленетін:

  • Оқу модельдеріне арналған жаңа жұмыс процесі.
  • Жаңа конфигурация жүйесі.
  • Трансформаторлы құбыр желісінің моделін қолдау, көп міндет жүктеуге арналған.
  • PyTorch, TensorFlow және MXNet сияқты әртүрлі машиналық оқыту шеңберлерін қолдана отырып, өзіңіздің модельдеріңізді қосу мүмкіндігі.
  • Алдын ала өңдеуден бастап модельді енгізуге дейінгі жұмыс процестерінің барлық кезеңдерін басқаруға арналған жобалық қолдау.
  • Data Version Control (DVC), Streamlit, Weights & Biases және Ray пакеттерімен біріктіруді қолдау.
  • Жаңа кіріктірілген компоненттер: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler және Transformer.
  • Өзіңіздің компоненттеріңізді құруға арналған жаңа API.

Соңында, егер сіз бұл туралы көбірек білгіңіз келсе осы жаңа нұсқасының немесе spaCy туралы егжей-тегжейін тексере аласыз Келесі сілтемеде.


Бірінші болып пікір айтыңыз

Пікіріңізді қалдырыңыз

Сіздің электрондық пошта мекен-жайы емес жарияланады. Міндетті өрістер таңбаланған *

*

*

  1. Деректерге жауапты: Мигель Анхель Гатан
  2. Деректердің мақсаты: СПАМ-ны басқару, түсініктемелерді басқару.
  3. Заңдылық: Сіздің келісіміңіз
  4. Деректер туралы ақпарат: заңды міндеттемелерді қоспағанда, деректер үшінші тұлғаларға жіберілмейді.
  5. Деректерді сақтау: Occentus Networks (ЕО) орналастырған мәліметтер базасы
  6. Құқықтар: Сіз кез-келген уақытта ақпаратты шектей, қалпына келтіре және жоя аласыз.