Explosioun AI huet de Start vum déi nei Versioun vun der gratis Bibliothéik «SpaCy»Déi eng Ëmsetzung huet vun natierlech Sproochveraarbechtung Algorithmen (NLP). An der Praxis, de Projet ka benotzt ginn fir Autoresponder ze bauen, Bots, Text Classeuren, a verschidde Dialogsystemer déi d'Bedeitung vu Sätz bestëmmen.
Bibliothéik ass entwéckelt fir eng persistent API ze bidden Et ass net mat den Algorithmen verbonne benotzt a prett fir an echte Produkter ze benotzen. Bibliothéik benotzt déi lescht Fortschrëtter an NLP an déi effizientst Algorithmen verfügbar fir Informatioun ze verarbeiten.
Wann e méi effizienten Algorithmus erschéngt, gëtt d'Bibliothéik dozou weiderginn, awer dësen Iwwergang beaflosst net d'API oder d'Applikatiounen.
Eng Feature vu spaCy et ass och eng Architektur entwéckelt fir komplett Dokumenter ze verarbeiten, ouni Virveraarbechtung a Virveraarbechter, déi d'Dokument a Sätz deelen. Modeller ginn an zwou Versiounen ugebueden: fir maximal Produktivitéit a maximal Präzisioun.
D'Haaptmerkmale vu spaCy:
- Ënnerstëtzung fir ongeféier 60 Sproochen.
- Scho trainéiert Modeller verfügbar fir verschidde Sproochen an Uwendungen.
- Multitask Léiere mat virdrun ausgebilten Transformatoren wéi BERT (Bidirektional Encoder Renderings vun Transformers).
- Ënnerstëtzung fir virausgebilte Vektoren a Wuertbetten.
- Staark Leeschtung.
- Prett-ze-benotzen Training System Modell op der Aarbecht.
- Linguistesch motivéiert Tokeniséierung.
- Fäerdeg gemaachte Komponente si verfügbar fir benannten Entitéiten ze verknëppelen, Deeler vun der Ried ze markéieren, Text ze klasséieren, Tagbaséiert Ofhängegkeeten ze analyséieren, Sätz ze deelen, Deeler vun der Ried ze markéieren, morphologesch Analyse, stemming, etc.
- Ënnerstëtzung fir Funktionalitéit mat personaliséierte Komponenten an Attributer ze verlängeren.
- Ënnerstëtzung fir Är eege Modeller ze kreéieren baséiert op PyTorch, TensorFlow an aner Frameworks.
- Built-in Tools fir Named Entity Binding a Syntax Visualization (NER, Named Entity Recognition).
- Einfach Prozess vu Verpakung an Asaz vu Modeller a Gestioun vum Workflow.
- Héich Genauegkeet.
Bibliothéik gëtt am Python mat Elementer am Cython geschriwwen, eng Python-Extensioun déi direkt Funktioun an der C Sprooch urufft.
De Projet Code gëtt ënner der MIT Lizenz verdeelt. Sproochmodelle si prett fir 58 Sproochen.
Iwwer déi nei Versioun vu spaCy 3.0
D'SpaCy 3.0 Versioun steet fir d'Ëmsetzung vun modell Famillen fir 18 Sproochen nei trainéiert an 59 Pipelines trainéiert am Ganzen, abegraff 5 nei transformerbaséiert Pipelines
De Modell gëtt an dräi Versiounen ugebueden (16 MB, 41 MB - 20 Dausend Vektoren an 491 MB - 500 Dausend Vektoren) an ass optimiséiert fir ënner CPU Laascht ze schaffen an enthält de tok2vec, morphologizer, parser, senter, ner, attribute_ruler a lemmatizer Komponenten.
Mir schaffen op spaCy v3.0 fir méi wéi ee Joer, a bal zwee Joer wann Dir all d'Aarbechten op Thinc zielt. Eist Haaptziel mam Start ass et méi einfach ze maachen Är eege Modeller a SPACY ze droen, besonnesch déi modernste Modeller wéi Transformatoren. Dir kënnt Modeller schreiwen déi de spaCy Komponente féieren a Kadere wéi PyTorch oder TensorFlow, mat eisem fantasteschen neie Konfiguratiounssystem fir all Är Astellungen ze beschreiwen. A well modern NLP Workflows oft aus méi Schrëtt bestinn, gëtt et en neie Workflow System fir Iech ze hëllefen Är Aarbecht organiséiert ze halen.
Aner wichteg Innovatiounen déi aus der neier Versioun erausstinn:
- Neien Workflow fir Trainingsmodeller.
- Neie Konfiguratiounssystem.
- Ënnerstëtzung fir transformerbaséiert Pipeline Modeller, passend fir Multitasking Léieren.
- D'Kapazitéit fir Är eege Modeller mat verschiddene Maschinneléiere Frameworks ze verbannen, wéi PyTorch, TensorFlow a MXNet.
- Projet Ënnerstëtzung fir all Etappe vu Workflows ze managen, vu Virveraarbechtung bis zur Implementéierung vum Modell.
- Ënnerstëtzung fir Integratioun mat Data Version Control (DVC), Streamlit, Weights & Biases a Ray Packagen.
- Nei agebaute Komponenten: SentenceRecognizer, Morphologizer, Lemmatizer,
- AttributeRuler an Transformer.
- Nei API fir Är eege Komponenten ze kreéieren.
Endlech wann Dir interesséiert sidd méi doriwwer ze wëssen vun dëser neier Versioun oder iwwer spaCy, kënnt Dir d'Detailer kontrolléieren An de folgende Link.
Gitt d'éischt fir ze kommentéieren