spaCy, μια βιβλιοθήκη επεξεργασίας φυσικής γλώσσας

Το Explosion AI παρουσίασε την κυκλοφορία του τη νέα έκδοση της δωρεάν βιβλιοθήκης «SpaCy»Που έχει εφαρμογή αλγόριθμοι επεξεργασίας φυσικής γλώσσας (NLP). Στην πράξη, το έργο μπορεί να χρησιμοποιηθεί για την κατασκευή αυτόματων ανταποκριτών, bots, ταξινομητές κειμένου και διάφορα συστήματα διαλόγου που καθορίζουν την έννοια των φράσεων.

Βιβλιοθήκη έχει σχεδιαστεί για να παρέχει ένα μόνιμο API Δεν συνδέεται με τους αλγόριθμους που χρησιμοποιούνται και είναι έτοιμοι για χρήση σε πραγματικά προϊόντα. Βιβλιοθήκη χρησιμοποιεί τις τελευταίες εξελίξεις στο NLP και τους πιο αποτελεσματικούς αλγόριθμους διαθέσιμο για επεξεργασία πληροφοριών.

Εάν εμφανιστεί ένας πιο αποτελεσματικός αλγόριθμος, η βιβλιοθήκη μεταβιβάζεται σε αυτήν, αλλά αυτή η μετάβαση δεν επηρεάζει το API ή τις εφαρμογές.

Ένα χαρακτηριστικό του spaCy είναι επίσης μια αρχιτεκτονική σχεδιασμένη να επεξεργάζεται πλήρη έγγραφα, χωρίς προεπεξεργασία σε προεπεξεργαστές που χωρίζουν το έγγραφο σε φράσεις. Τα μοντέλα προσφέρονται σε δύο εκδόσεις: για μέγιστη παραγωγικότητα και μέγιστη ακρίβεια.

Τα κύρια χαρακτηριστικά του spaCy:

  • Υποστήριξη για περίπου 60 γλώσσες.
  • Ήδη εκπαιδευμένα μοντέλα διαθέσιμα για διαφορετικές γλώσσες και εφαρμογές.
  • Εκμάθηση πολλαπλών εργασιών χρησιμοποιώντας προηγουμένως εκπαιδευμένους μετασχηματιστές όπως το BERT (Bidirectional Encoder Renderings of Transformers).
  • Υποστήριξη για προ-εκπαιδευμένους διανύσματα και ενσωματώσεις λέξεων.
  • Υψηλή απόδοση.
  • Έτοιμο προς χρήση μοντέλο εκπαίδευσης κατά την εργασία.
  • Γλωσσικά κίνητρα.
  • Τα έτοιμα προς χρήση στοιχεία είναι διαθέσιμα για τη σύνδεση ονομαστικών οντοτήτων, τη σήμανση τμημάτων ομιλίας, την ταξινόμηση κειμένου, την ανάλυση εξαρτήσεων βάσει ετικετών, τη διαίρεση προτάσεων, τη σήμανση τμημάτων ομιλίας, τη μορφολογική ανάλυση, την καταγραφή κ.λπ.
  • Υποστήριξη για επέκταση της λειτουργικότητας με προσαρμοσμένα στοιχεία και χαρακτηριστικά.
  • Υποστήριξη για τη δημιουργία των δικών σας μοντέλων με βάση τα PyTorch, TensorFlow και άλλα πλαίσια.
  • Ενσωματωμένα εργαλεία για ονομαστική οντότητα και οπτικοποίηση σύνταξης (NER, Αναγνωρισμένη οντότητα).
  • Απλή διαδικασία συσκευασίας και ανάπτυξης μοντέλων και διαχείρισης ροής εργασίας.
  • Υψηλή ακρίβεια.

Βιβλιοθήκη είναι γραμμένο σε Python με στοιχεία στο Cython, μια επέκταση Python που επιτρέπει άμεση κλήση λειτουργίας στη γλώσσα C.

Ο κωδικός του έργου διανέμεται με άδεια MIT. Τα γλωσσικά μοντέλα είναι έτοιμα για 58 γλώσσες.

Σχετικά με τη νέα έκδοση του spaCy 3.0

Η έκδοση spaCy 3.0 ξεχωρίζει για την εφαρμογή του πρότυπες οικογένειες επανεκπαιδεύτηκε για 18 γλώσσες και 59 αγωγοί εκπαιδεύτηκαν συνολικά, συμπεριλαμβανομένων 5 νέων αγωγών που βασίζονται σε μετασχηματιστές

Το μοντέλο προσφέρεται σε τρεις εκδόσεις (16 MB, 41 MB - 20 χιλιάδες διανύσματα και 491 MB - 500 χιλιάδες διανύσματα) και έχει βελτιστοποιηθεί ώστε να λειτουργεί υπό φορτίο CPU και περιλαμβάνει τα στοιχεία tok2vec, morphologizer, parser, senter, ner, attribute_ruler και lemmatizer.

Εργαζόμαστε στο spaCy v3.0 για περισσότερο από ένα χρόνο, και σχεδόν δύο χρόνια εάν μετράτε όλη την εργασία που έγινε στο Thinc. Ο κύριος στόχος μας με την κυκλοφορία είναι να κάνουμε ευκολότερο να φέρετε τα δικά σας μοντέλα στο SPACY, ειδικά τα υπερσύγχρονα μοντέλα όπως μετασχηματιστές. Μπορείτε να γράψετε μοντέλα που τροφοδοτούν τα συστατικά του spaCy σε πλαίσια όπως το PyTorch ή το TensorFlow, χρησιμοποιώντας το εκπληκτικό νέο σύστημα διαμόρφωσης για να περιγράψετε όλες τις ρυθμίσεις σας. Και δεδομένου ότι οι σύγχρονες ροές εργασίας NLP αποτελούνται συχνά από πολλά βήματα, υπάρχει ένα νέο σύστημα ροής εργασίας που θα σας βοηθήσει να διατηρήσετε την εργασία σας οργανωμένη.

Άλλες σημαντικές καινοτομίες που ξεχωρίζουν από τη νέα έκδοση:

  • Νέα ροή εργασίας για εκπαιδευτικά μοντέλα.
  • Νέο σύστημα διαμόρφωσης.
  • Υποστήριξη για μοντέλα αγωγών με βάση μετασχηματιστές, κατάλληλα για μάθηση πολλαπλών εργασιών.
  • Η δυνατότητα σύνδεσης των δικών σας μοντέλων χρησιμοποιώντας διάφορα πλαίσια μηχανικής μάθησης, όπως PyTorch, TensorFlow και MXNet.
  • Υποστήριξη έργου για τη διαχείριση όλων των σταδίων ροών εργασιών, από την προεπεξεργασία έως την εφαρμογή μοντέλου.
  • Υποστήριξη για ενσωμάτωση με πακέτα Data Version Control (DVC), Streamlit, Weights & Biases και Ray.
  • Νέα ενσωματωμένα στοιχεία: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler και μετασχηματιστής.
  • Νέο API για να δημιουργήσετε τα δικά σας στοιχεία.

Τέλος, αν ενδιαφέρεστε να μάθετε περισσότερα γι 'αυτό αυτής της νέας έκδοσης ή σχετικά με το spaCy, μπορείτε να ελέγξετε τις λεπτομέρειες Στον ακόλουθο σύνδεσμο.


Το περιεχόμενο του άρθρου συμμορφώνεται με τις αρχές μας συντακτική ηθική. Για να αναφέρετε ένα σφάλμα κάντε κλικ Aquí.

Γίνε ο πρώτος που θα σχολιάσει

Αφήστε το σχόλιό σας

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

*

*

  1. Υπεύθυνος για τα δεδομένα: Miguel Ángel Gatón
  2. Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
  3. Νομιμοποίηση: Η συγκατάθεσή σας
  4. Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
  5. Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
  6. Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.