자연어 처리 라이브러리 spaCy

Explosion AI는 무료 라이브러리의 새 버전 «스파시»구현되어있는 자연어 처리 알고리즘 (NLP). 실제로, 프로젝트는 자동 응답을 구축하는 데 사용할 수 있습니다., 봇, 텍스트 분류기 및 구문의 의미를 결정하는 다양한 대화 시스템.

도서관 영구 API를 제공하도록 설계되었습니다. 실제 제품에서 사용되는 알고리즘과 연결되지 않고 바로 사용할 수 있습니다. 도서관 NLP의 최신 기술과 가장 효율적인 알고리즘을 사용합니다. 정보 처리에 사용할 수 있습니다.

보다 효율적인 알고리즘이 나타나면 라이브러리가 전달되지만이 전환은 API 또는 응용 프로그램에 영향을주지 않습니다.

spaCy의 특징 전체 문서를 처리하도록 설계된 아키텍처이기도합니다. 문서를 구로 나누는 전 처리기에서 전처리없이. 모델은 최대 생산성과 최대 정밀도를 위해 두 가지 버전으로 제공됩니다.

spaCy의 주요 기능 :

  • 약 60 개 언어를 지원합니다.
  • 다양한 언어 및 애플리케이션에 대해 이미 훈련 된 모델을 사용할 수 있습니다.
  • BERT (변압기의 양방향 인코더 렌더링)와 같이 이전에 훈련 된 변환기를 사용한 멀티 태스킹 학습.
  • 사전 훈련 된 벡터 및 단어 삽입 지원.
  • 고성능.
  • 즉시 사용 가능한 실무 교육 시스템 모델.
  • 언어 적으로 동기 부여 된 토큰 화.
  • 명명 된 엔티티 연결, 품사 표시, 텍스트 분류, 태그 기반 종속성 분석, 문장 분할, 품사 표시, 형태 학적 분석, 형태소 분석 등에 미리 만들어진 구성 요소를 사용할 수 있습니다.
  • 사용자 지정 구성 요소 및 특성을 사용하여 기능 확장을 지원합니다.
  • PyTorch, TensorFlow 및 기타 프레임 워크를 기반으로 자체 모델을 생성 할 수 있도록 지원합니다.
  • 명명 된 엔터티 바인딩 및 구문 시각화 (NER, 명명 된 엔터티 인식)를위한 기본 제공 도구입니다.
  • 모델을 패키징 및 배포하고 워크 플로를 관리하는 간단한 프로세스입니다.
  • 높은 정밀도.

도서관 Cython의 요소와 함께 Python으로 작성되었습니다., C 언어로 직접 함수 호출을 허용하는 Python 확장입니다.

프로젝트 코드 MIT 라이선스에 따라 배포됩니다.. 언어 모델은 58 개 언어를 지원합니다.

spaCy 3.0의 새 버전 정보

spaCy 3.0 버전은 모델 패밀리 18 개 언어에 대한 재교육 및 훈련 된 파이프 라인 59 개 총 5 개의 새로운 변압기 기반 파이프 라인 포함

이 모델은 세 가지 버전으로 제공됩니다. (16MB, 41MB-20 만 벡터 및 491MB-500 만 벡터) 및 CPU 부하에서 작동하도록 최적화되었습니다. tok2vec, morphologizer, parser, senter, ner, attribute_ruler 및 lemmatizer 구성 요소를 포함합니다.

우리는 3.0 년 넘게 spaCy vXNUMX을 작업 해 왔으며 Thinc에서 수행 한 모든 작업을 계산하면 거의 XNUMX 년 동안 작업 해 왔습니다. 출시와 함께 우리의 주요 목표는 SPACY에서 자신의 모델, 특히 변압기와 같은 최첨단 모델을 더 쉽게 가져올 수 있도록하는 것입니다. 모든 설정을 설명하는 멋진 새 구성 시스템을 사용하여 spaCy 구성 요소를 PyTorch 또는 TensorFlow와 같은 프레임 워크에 공급하는 모델을 작성할 수 있습니다. 최신 NLP 워크 플로는 종종 여러 단계로 구성되기 때문에 작업을 체계적으로 유지하는 데 도움이되는 새로운 워크 플로 시스템이 있습니다.

기타 중요한 혁신 새 버전에서 눈에 띄는 :

  • 모델 훈련을위한 새로운 워크 플로우.
  • 새로운 구성 시스템.
  • 멀티 태스킹 학습에 적합한 변환기 기반 파이프 라인 모델을 지원합니다.
  • PyTorch, TensorFlow 및 MXNet과 같은 다양한 기계 학습 프레임 워크를 사용하여 자체 모델을 연결하는 기능.
  • 사전 처리에서 모델 구현에 이르기까지 모든 단계의 워크 플로를 관리하기위한 프로젝트 지원.
  • DVC (Data Version Control), Streamlit, Weights & Biases 및 Ray 패키지와의 통합 지원.
  • 새로운 내장 구성 요소 : SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler 및 Transformer.
  • 고유 한 구성 요소를 만들기위한 새로운 API.

마지막으로, 그것에 대해 더 많이 알고 싶다면 이 새 버전 또는 spaCy에 대한 세부 정보를 확인할 수 있습니다. 다음 링크에서.


기사의 내용은 우리의 원칙을 준수합니다. 편집 윤리. 오류를보고하려면 여기에.

코멘트를 첫번째로 올려

코멘트를 남겨주세요

귀하의 이메일 주소는 공개되지 않습니다. 필수 필드가 표시되어 있습니다 *

*

*

  1. 데이터 책임자 : Miguel Ángel Gatón
  2. 데이터의 목적 : 스팸 제어, 댓글 관리.
  3. 합법성 : 귀하의 동의
  4. 데이터 전달 : 법적 의무에 의한 경우를 제외하고 데이터는 제 XNUMX 자에게 전달되지 않습니다.
  5. 데이터 저장소 : Occentus Networks (EU)에서 호스팅하는 데이터베이스
  6. 권리 : 귀하는 언제든지 귀하의 정보를 제한, 복구 및 삭제할 수 있습니다.