SpaCy, एक प्राकृतिक भाषा प्रसंस्करण पुस्तकालय

धमाका AI ने लॉन्च की घोषणा की मुक्त पुस्तकालय का नया संस्करण «स्पासी»जिसका कार्यान्वयन है प्राकृतिक भाषा प्रसंस्करण एल्गोरिदम (एनएलपी)। व्यवहार में, प्रोजेक्ट का उपयोग ऑटोरेस्पोन्डर बनाने के लिए किया जा सकता है, बॉट्स, टेक्स्ट क्लासिफायर, और विभिन्न डायलॉग सिस्टम जो वाक्यांशों का अर्थ निर्धारित करते हैं।

पुस्तकालय एक सतत एपीआई प्रदान करने के लिए डिज़ाइन किया गया है यह उपयोग किए गए एल्गोरिदम से जुड़ा नहीं है और वास्तविक उत्पादों में उपयोग करने के लिए तैयार है। पुस्तकालय एनएलपी में नवीनतम प्रगति और सबसे कुशल एल्गोरिदम का उपयोग करता है जानकारी संसाधित करने के लिए उपलब्ध है।

यदि अधिक कुशल एल्गोरिथ्म दिखाई देता है, तो पुस्तकालय इसमें पारित हो जाता है, लेकिन यह संक्रमण एपीआई या अनुप्रयोगों को प्रभावित नहीं करता है।

स्पासी की एक विशेषता यह एक वास्तुकला भी है जिसे पूर्ण दस्तावेजों को संसाधित करने के लिए डिज़ाइन किया गया है, प्रीप्रोसेसरों में प्रीप्रोसेसिंग के बिना जो दस्तावेज़ को वाक्यांशों में विभाजित करता है। मॉडल दो संस्करणों में पेश किए जाते हैं: अधिकतम उत्पादकता और अधिकतम परिशुद्धता के लिए।

SpaCy की मुख्य विशेषताएं:

  • लगभग 60 भाषाओं के लिए समर्थन।
  • पहले से ही प्रशिक्षित मॉडल विभिन्न भाषाओं और अनुप्रयोगों के लिए उपलब्ध हैं।
  • BERT (बीडायरेक्शनल एनकोडर रेंडरिंग ऑफ ट्रांसफॉर्मर्स) जैसे पहले प्रशिक्षित ट्रांसफॉर्मर का उपयोग करके मल्टीटास्क सीखना।
  • पूर्व प्रशिक्षित वैक्टर और शब्द एम्बेड के लिए समर्थन।
  • उच्च प्रदर्शन
  • नौकरी के लिए प्रशिक्षण प्रणाली के मॉडल को तैयार करना।
  • भाषाई रूप से प्रेरित टोकन।
  • तैयार-से-उपयोग घटक नामांकित संस्थाओं को जोड़ने, भाषण के कुछ हिस्सों को चिह्नित करने, पाठ को वर्गीकृत करने, टैग-आधारित निर्भरता का विश्लेषण करने, वाक्यों को विभाजित करने, भाषण के कुछ हिस्सों को चिह्नित करने, रूपात्मक विश्लेषण, स्टेमिंग, आदि के लिए उपलब्ध हैं।
  • कस्टम घटकों और विशेषताओं के साथ कार्यक्षमता का विस्तार करने के लिए समर्थन।
  • PyTorch, TensorFlow और अन्य रूपरेखाओं के आधार पर अपने स्वयं के मॉडल बनाने के लिए समर्थन।
  • नामांकित इकाई बाइंडिंग और सिंटैक्स विज़ुअलाइज़ेशन (NER, नामांकित एंटिटी मान्यता) के लिए निर्मित उपकरण।
  • पैकेजिंग और मॉडल की तैनाती और वर्कफ़्लो की सरल प्रक्रिया।
  • उच्च सटीकता।

पुस्तकालय साइथन में तत्वों के साथ पायथन में लिखा गया है, पायथन एक्सटेंशन जो सी भाषा में सीधे फ़ंक्शन कॉलिंग की अनुमति देता है।

प्रोजेक्ट कोड एमआईटी लाइसेंस के तहत वितरित किया जाता है। भाषा मॉडल 58 भाषाओं के लिए तैयार हैं।

SpaCy 3.0 के नए संस्करण के बारे में

SpaCy 3.0 संस्करण के कार्यान्वयन के लिए बाहर खड़ा है मॉडल परिवार 18 भाषाओं और के लिए मुकर गया 59 पाइपलाइनों को प्रशिक्षित किया गया कुल मिलाकर, 5 नए ट्रांसफार्मर-आधारित पाइपलाइनों सहित

मॉडल को तीन संस्करणों में पेश किया गया है (16 एमबी, 41 एमबी - 20 हजार वैक्टर और 491 एमबी - 500 हजार वैक्टर) और सीपीयू लोड के तहत काम करने के लिए अनुकूलित है और इसमें tok2vec, morphologizer, parser, senter, ner, attribute_ruler और लेम्मेटो घटक शामिल हैं।

हम स्पासी v3.0 पर एक साल से अधिक समय से काम कर रहे हैं, और लगभग दो साल अगर आप थिंक पर किए गए सभी कामों को गिनते हैं। लॉन्च के साथ हमारा मुख्य लक्ष्य एसपीएसीवाई में अपने खुद के मॉडल लाने में आसान है, खासकर अत्याधुनिक मॉडल जैसे ट्रांसफार्मर। आप अपनी सभी सेटिंग्स का वर्णन करने के लिए हमारे भयानक नए कॉन्फ़िगरेशन सिस्टम का उपयोग करके PyTorch या TensorFlow जैसे फ्रेमवर्क में स्पासी घटकों को खिलाने वाले मॉडल लिख सकते हैं। और चूंकि आधुनिक एनएलपी वर्कफ़्लो अक्सर कई चरणों से मिलकर बनता है, इसलिए आपके काम को व्यवस्थित रखने में मदद करने के लिए एक नया वर्कफ़्लो सिस्टम है।

अन्य महत्वपूर्ण नवाचार कि नए संस्करण से बाहर खड़े हो जाओ:

  • प्रशिक्षण मॉडल के लिए नए वर्कफ़्लो।
  • नई कॉन्फ़िगरेशन प्रणाली।
  • मल्टीटास्किंग सीखने के लिए उपयुक्त, ट्रांसफार्मर आधारित पाइपलाइन मॉडल के लिए समर्थन।
  • विभिन्न मशीन लर्निंग फ्रेमवर्क का उपयोग करके अपने स्वयं के मॉडल को कनेक्ट करने की क्षमता, जैसे कि PyTorch, TensorFlow, और MXNet।
  • प्री-प्रोसेसिंग से लेकर मॉडल कार्यान्वयन तक, वर्कफ़्लोज़ के सभी चरणों को प्रबंधित करने के लिए प्रोजेक्ट सपोर्ट।
  • डेटा वर्जन कंट्रोल (डीवीसी), स्ट्रीमलाइट, वेट एंड बायसेस और रे पैकेज के साथ एकीकरण के लिए समर्थन।
  • नए अंतर्निहित घटक: सेंटेंसरोगिग्नर, मॉर्फोलोगाइज़र, लेम्मेटाइज़र,
  • एट्रिब्यूशनर और ट्रांसफार्मर।
  • अपने स्वयं के घटकों को बनाने के लिए नया एपीआई।

अंत में, यदि आप इसके बारे में अधिक जानने में रुचि रखते हैं इस नए संस्करण या SpaCy के बारे में, आप विवरण देख सकते हैं निम्नलिखित लिंक में


अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: मिगुएल elngel Gatón
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।