spaCy, एक नैसर्गिक भाषा प्रक्रिया लायब्ररी

स्फोट एआयने लाँचचे अनावरण केले विनामूल्य ग्रंथालयाची नवीन आवृत्ती A स्पासीAn ज्याची अंमलबजावणी होते नैसर्गिक भाषा प्रक्रिया अल्गोरिदम (एनएलपी) सरावात, प्रकल्प ऑटोरेस्पोन्डर्स तयार करण्यासाठी वापरला जाऊ शकतो, बॉट्स, मजकूर वर्गीकरण करणार्‍या आणि वाक्यांशांचा अर्थ ठरविणार्‍या विविध संवाद प्रणाली.

ग्रंथालय सक्तीचे एपीआय प्रदान करण्यासाठी डिझाइन केलेले आहे हे वापरल्या गेलेल्या अल्गोरिदम आणि वास्तविक उत्पादनांमध्ये वापरण्यास तयार असलेल्याशी दुवा साधलेला नाही. ग्रंथालय एनएलपीमधील नवीनतम प्रगती आणि सर्वात कार्यक्षम अल्गोरिदम वापरते प्रक्रिया माहिती उपलब्ध.

अधिक कार्यक्षम अल्गोरिदम दिसत असल्यास, लायब्ररी त्याकडे पुरविली गेली आहे, परंतु हे संक्रमण API किंवा अनुप्रयोगांवर परिणाम करीत नाही.

SpaCy चे वैशिष्ट्य पूर्ण दस्तऐवजांवर प्रक्रिया करण्यासाठी ही एक आर्किटेक्चर देखील आहे, कागदपत्रांना वाक्यांशांमध्ये विभाजित करणार्या प्रीप्रोसेसरमध्ये प्रीप्रोसेसिंगशिवाय. जास्तीत जास्त उत्पादकता आणि जास्तीत जास्त अचूकतेसाठी मॉडेल दोन आवृत्त्यांमध्ये ऑफर केले जातात.

SpaCy ची मुख्य वैशिष्ट्ये:

  • सुमारे 60 भाषांसाठी समर्थन.
  • आधीपासूनच भिन्न भाषा आणि अनुप्रयोगांसाठी प्रशिक्षित मॉडेल उपलब्ध आहेत.
  • बीईआरटी (ट्रान्सफॉर्मर्सचे द्विदिशात्मक एन्कोडर रेंडरिंग) सारख्या पूर्वी प्रशिक्षित ट्रान्सफॉर्मर्सचा वापर करून मल्टीटास्क लर्निंग.
  • पूर्व-प्रशिक्षित वेक्टर आणि शब्द एम्बेडसाठी समर्थन.
  • उच्च कार्यक्षमता.
  • नोकरीवर-वापरण्यास-तयार प्रशिक्षण प्रणालीचे मॉडेल.
  • भाषिकदृष्ट्या प्रवृत्त टोकनकरण
  • वापरण्यास सज्ज घटक नामित संस्थांना जोडण्यासाठी, भाषणाचे भाग चिन्हांकित करणे, मजकूराचे वर्गीकरण करणे, टॅग-आधारित अवलंबनांचे विश्लेषण करणे, वाक्यांचे विभाजन करणे, भाषणाचे भाग चिन्हांकित करणे, आकारिकीय विश्लेषण, स्टेमिंग इ. उपलब्ध आहेत.
  • सानुकूल घटक आणि विशेषतांसह कार्यक्षमता वाढविण्यास समर्थन.
  • पायटॉर्च, टेन्सरफ्लो आणि इतर फ्रेमवर्कवर आधारित आपले स्वतःचे मॉडेल तयार करण्यासाठी समर्थन.
  • नामांकित अस्तित्व बंधनकारक आणि वाक्यरचना व्हिज्युअलायझेशन (एनईआर, नेमलेल्या अस्तित्व ओळख) साठी अंगभूत साधने.
  • पॅकेजिंग आणि उपयोजित मॉडेल आणि कार्यप्रवाह व्यवस्थापित करण्याची सोपी प्रक्रिया.
  • उच्च अचूकता

ग्रंथालय पायथनमध्ये सायथॉनमधील घटकांसह लिहिलेले आहे, पायथन विस्तार जी सी भाषेत थेट कार्य कॉल करण्यास अनुमती देते.

प्रोजेक्ट कोड एमआयटी परवान्याअंतर्गत वितरित केले जाते. भाषेचे मॉडेल 58 भाषांसाठी तयार आहेत.

SpaCy 3.0 च्या नवीन आवृत्तीबद्दल

SpaCy 3.0 आवृत्ती अंमलबजावणीसाठी उभे आहे मॉडेल कुटुंबे 18 भाषांसाठी पुन्हा प्रशिक्षण दिले 59 पाइपलाइन प्रशिक्षित एकूण, नवीन 5 ट्रान्सफॉर्मर-आधारित पाइपलाइन समावेश

मॉडेल तीन आवृत्त्यांमध्ये दिले जाते (16 एमबी, 41 एमबी - 20 हजार वेक्टर आणि 491 एमबी - 500 हजार वेक्टर) आणि सीपीयू लोड अंतर्गत कार्य करण्यास अनुकूलित आहे आणि मध्ये टोक 2 वेक, मॉर्फोलॉजीर, पार्सर, सेन्टर, नेर, एट्रिब्यूट_रूलर आणि लेमेटाइझर घटक समाविष्ट आहेत.

आम्ही एका वर्षापासून स्पॅसी v3.0 वर कार्य करीत आहोत आणि जर आपण थिंकवर केलेली सर्व कामे मोजली तर जवळजवळ दोन वर्षे. प्रक्षेपणसह आमचे मुख्य लक्ष्य स्पॅसीमध्ये आपले स्वतःचे मॉडेल विशेषत: ट्रान्सफॉर्मर्ससारखे अत्याधुनिक मॉडेल वाहून नेणे सोपे करणे हे आहे. आपण आपल्या सर्व सेटिंग्जचे वर्णन करण्यासाठी अद्भुत नवीन कॉन्फिगरेशन सिस्टमचा वापर करुन पायटॉर्च किंवा टेन्सरफ्लो सारख्या फ्रेमवर्कमध्ये स्पॅकी घटकांना पोसणारी मॉडेल्स लिहू शकता. आणि आधुनिक एनएलपी कार्यप्रवाहात बहुतेकदा अनेक चरण असतात, आपले कार्य व्यवस्थित ठेवण्यात मदत करण्यासाठी एक नवीन कार्यप्रवाह प्रणाली आहे.

इतर महत्त्वपूर्ण नवकल्पना नवीन आवृत्तीतून उभे रहाणे:

  • प्रशिक्षण मॉडेलसाठी नवीन कार्यप्रवाह.
  • नवीन कॉन्फिगरेशन सिस्टम.
  • मल्टीटास्किंग शिकण्यासाठी उपयुक्त ट्रान्सफॉर्मर-आधारित पाइपलाइन मॉडेल्ससाठी समर्थन.
  • पायटॉर्च, टेन्सरफ्लो आणि एमएक्सनेट सारख्या विविध मशीन लर्निंग फ्रेमवर्कचा वापर करून आपले स्वतःचे मॉडेल कनेक्ट करण्याची क्षमता.
  • मॉडेल अंमलबजावणीपासून पूर्वप्रक्रियापर्यंत वर्कफ्लोच्या सर्व चरणांचे व्यवस्थापन करण्यासाठी प्रोजेक्ट समर्थन.
  • डेटा व्हर्जन कंट्रोल (डीव्हीसी), स्ट्रीमलाइट, वेट व बायसेस आणि रे पॅकेजेससह एकत्रिकरणासाठी समर्थन.
  • नवीन अंगभूत घटकः वाक्यरचनाकार, मॉर्फोलॉजीजर, लेमॅटाइझर,
  • AttributeRuler आणि Transformer.
  • आपले स्वतःचे घटक तयार करण्यासाठी नवीन API.

शेवटी, आपल्याला त्याबद्दल अधिक जाणून घेण्यात स्वारस्य असल्यास या नवीन आवृत्तीची किंवा स्पासी बद्दल, आपण तपशील तपासू शकता पुढील लिंकवर


आपली टिप्पणी द्या

आपला ई-मेल पत्ता प्रकाशित केला जाणार नाही. आवश्यक फील्ड चिन्हांकित केले आहेत *

*

*

  1. डेटा जबाबदार: मिगुएल Áन्गल गॅटन
  2. डेटाचा उद्देशः नियंत्रण स्पॅम, टिप्पणी व्यवस्थापन.
  3. कायदे: आपली संमती
  4. डेटा संप्रेषण: कायदेशीर बंधन वगळता डेटा तृतीय पक्षास कळविला जाणार नाही.
  5. डेटा संग्रहण: ओकेन्टस नेटवर्क (EU) द्वारा होस्ट केलेला डेटाबेस
  6. अधिकारः कोणत्याही वेळी आपण आपली माहिती मर्यादित, पुनर्प्राप्त आणि हटवू शकता.