spaCy, байгалийн хэл боловсруулах сан

Тэсрэлт хиймэл оюун ухаан нээлтийн үйл ажиллагааг танилцууллаа үнэгүй номын сангийн шинэ хувилбар «SpaCy»Аль нь хэрэгжиж байна байгалийн хэл боловсруулах алгоритмууд (NLP). Бодит амьдрал дээр, төслийг автомат хариулагч бүтээхэд ашиглаж болно, ботууд, текст ангилагч, хэллэгүүдийн утгыг тодорхойлдог төрөл бүрийн харилцах системүүд.

Номын сан нь байнгын API-г хангахад зориулагдсан болно Энэ нь ашигласан алгоритмуудтай холбоогүй бөгөөд бодит бүтээгдэхүүнд ашиглахад бэлэн болно. Номын сан NLP-ийн хамгийн сүүлийн үеийн дэвшил, хамгийн үр дүнтэй алгоритмуудыг ашигладаг мэдээлэл боловсруулах боломжтой.

Хэрэв илүү үр дүнтэй алгоритм гарч ирвэл номын санг түүнд дамжуулдаг боловч энэ шилжилт нь API эсвэл програмд ​​нөлөөлөхгүй.

SpaCy-ийн онцлог шинж чанарууд энэ нь бүрэн баримт бичгийг боловсруулахад зориулагдсан архитектур, баримт бичгийг хэллэг болгон хуваах урьдчилсан боловсруулагчид урьдчилсан боловсруулалт хийхгүйгээр. Загварыг хоёр хувилбараар санал болгодог: хамгийн их бүтээмж, хамгийн нарийвчлалтай байх.

SpaCy-ийн үндсэн шинж чанарууд:

  • 60 орчим хэлний дэмжлэг.
  • Янз бүрийн хэл, хэрэглээнд зориулж аль хэдийн бэлтгэгдсэн загварууд.
  • BERT (Bidirectional Encoder Renderings of Transformers) гэх мэт урьд өмнө сургагдсан трансформаторуудыг ашиглан олон талт сургалтанд хамрагдах.
  • Урьдчилан бэлтгэгдсэн векторууд болон үг оруулах хэрэгслийг дэмжих.
  • Маш сайн гүйцэтгэл.
  • Ажлын байран дээрх сургалтын системийн загварыг ашиглахад бэлэн болно.
  • Хэлний сэдэлтэй токенжуулалт.
  • Нэрлэсэн байгууллагуудыг хооронд нь холбох, ярианы хэсгүүдийг тэмдэглэх, текстийг ангилах, шошгонд суурилсан хамаарлыг шинжлэх, өгүүлбэр хуваах, ярианы хэсгүүдийг тэмдэглэх, морфологийн шинжилгээ, ишлэл гэх мэт ашиглахад бэлэн бүрэлдэхүүн хэсгүүд байдаг.
  • Гаалийн бүрэлдэхүүн хэсэг, шинж чанар бүхий функцийг өргөжүүлэхэд дэмжлэг үзүүлэх.
  • PyTorch, TensorFlow болон бусад хүрээн дээр суурилсан өөрийн загварыг бий болгоход дэмжлэг үзүүлэх.
  • Named Enttion Binding and Syntax Visualization (NER, Named Entity Recognition) -д зориулагдсан барьсан хэрэгслүүд.
  • Загварыг савлах, байрлуулах, ажлын урсгалыг удирдах энгийн процесс.
  • Өндөр нарийвчлалтай.

Номын сан нь Python дээр Cython дахь элементүүдээр бичигдсэн байдаг, C хэлээр шууд функц дуудах боломжийг олгодог Python өргөтгөл.

Төслийн код MIT лицензийн дагуу тараагддаг. Хэлний загвар 58 хэл дээр бэлэн болсон байна.

SpaCy 3.0-ийн шинэ хувилбарын тухай

SpaCy 3.0 хувилбарыг хэрэгжүүлэхэд онцгой анхаарч байна загвар гэр бүл 18 хэл дээр давтан сургагдсан ба 59 дамжуулах хоолойг сургасан нийт 5 трансформаторт суурилсан шинэ шугам хоолой орно

Энэхүү загварыг гурван хувилбараар санал болгож байна (16 MB, 41 MB - 20 мянган вектор ба 491 MB - 500 мянган вектор) ба нь CPU-ийн ачаалал дор ажиллахаар оновчтой болсон tok2vec, morphologizer, parser, senter, ner, attribute_ruler, lemmatizer бүрэлдэхүүн хэсгүүдийг багтаасан болно.

Бид spaCy v3.0 дээр жил гаруй ажиллаж байгаа бөгөөд Thinc дээр хийсэн бүх ажлыг тооцвол бараг хоёр жил болж байна. Нээлттэй байгаа бидний гол зорилго бол өөрийн загвар, ялангуяа трансформатор гэх мэт орчин үеийн загваруудыг SPACY-д авчрахад хялбар болгох явдал юм. Та бүх тохиргоог тайлбарлахын тулд манай гайхалтай шинэ тохиргооны системийг ашиглан spaCy-ийн бүрэлдэхүүн хэсгүүдийг PyTorch эсвэл TensorFlow гэх мэт хүрээ болгон тэжээх загваруудыг бичиж болно. Орчин үеийн NLP ажлын урсгал нь ихэвчлэн олон үе шатуудаас бүрддэг тул ажлын зохион байгуулалттай байлгахад туслах ажлын урсгалын шинэ систем бий болсон.

Бусад чухал шинэчлэлүүд шинэ хувилбараас ялгаатай:

  • Сургалтын загварт зориулсан шинэ ажлын урсгал.
  • Шинэ тохиргооны систем.
  • Трансформатор дээр суурилсан дамжуулах хоолойн загварыг дэмжих, олон талт ажилд суралцахад тохиромжтой.
  • PyTorch, TensorFlow, MXNet гэх мэт янз бүрийн машин сургалтын хүрээг ашиглан өөрийн загваруудаа холбох чадвар.
  • Урьдчилан боловсруулалтаас загварыг хэрэгжүүлэх хүртэлх ажлын урсгалын бүх үе шатыг удирдах төслийн дэмжлэг.
  • Data Version Control (DVC), Streamlit, Weights & Biases, Ray багцуудтай нэгтгэх дэмжлэг.
  • Шинэ суурилуулсан бүрэлдэхүүн хэсгүүд: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler ба Transformer.
  • Өөрийн бүрэлдэхүүн хэсгүүдийг бий болгох шинэ API.

Эцэст нь, Хэрэв та энэ талаар илүү ихийг мэдэхийг хүсч байвал Энэ шинэ хувилбар эсвэл spaCy-ийн тухай дэлгэрэнгүйг шалгаж болно Дараах холбоос дээр.


Нийтлэлийн агуулга нь бидний зарчмуудыг баримталдаг редакцийн ёс зүй. Алдааны талаар мэдээлэхийн тулд товшино уу энд байна.

Сэтгэгдэл бичих эхний хүн бай

Сэтгэгдэлээ үлдээгээрэй

Таны и-мэйл хаяг хэвлэгдсэн байх болно. Шаардлагатай талбарууд нь тэмдэглэгдсэн байна *

*

*

  1. Мэдээллийг хариуцах: Мигель Анхель Гатан
  2. Мэдээллийн зорилго: СПАМ-ыг хянах, сэтгэгдлийн менежмент.
  3. Хууль ёсны байдал: Таны зөвшөөрөл
  4. Мэдээллийн харилцаа холбоо: Хуулийн үүргээс бусад тохиолдолд мэдээллийг гуравдагч этгээдэд дамжуулахгүй.
  5. Өгөгдөл хадгалах: Occentus Networks (ЕХ) -с зохион байгуулсан мэдээллийн сан
  6. Эрх: Та хүссэн үедээ мэдээллээ хязгаарлаж, сэргээж, устгаж болно.