spaCy, ഒരു സ്വാഭാവിക ഭാഷാ പ്രോസസ്സിംഗ് ലൈബ്രറി

സ്ഫോടനം AI സമാരംഭിച്ചു സ library ജന്യ ലൈബ്രറിയുടെ പുതിയ പതിപ്പ് «സ്പാസി»ഇതിന്റെ നടപ്പാക്കൽ ഉണ്ട് സ്വാഭാവിക ഭാഷാ പ്രോസസ്സിംഗ് അൽ‌ഗോരിതംസ് (എൻ‌എൽ‌പി). പ്രായോഗികമായി, ഓട്ടോസ്‌പോണ്ടറുകൾ നിർമ്മിക്കുന്നതിന് പ്രോജക്റ്റ് ഉപയോഗിക്കാം, ബോട്ടുകൾ, ടെക്സ്റ്റ് ക്ലാസിഫയറുകൾ, ശൈലികളുടെ അർത്ഥം നിർണ്ണയിക്കുന്ന വിവിധ ഡയലോഗ് സിസ്റ്റങ്ങൾ.

പുസ്തകശാല സ്ഥിരമായ ഒരു API നൽകുന്നതിനാണ് രൂപകൽപ്പന ചെയ്‌തിരിക്കുന്നത് ഉപയോഗിച്ച അൽ‌ഗോരിതംസുമായി ഇത് ബന്ധിപ്പിച്ചിട്ടില്ല കൂടാതെ യഥാർത്ഥ ഉൽപ്പന്നങ്ങളിൽ ഉപയോഗിക്കാൻ തയ്യാറാണ്. പുസ്തകശാല എൻ‌എൽ‌പിയുടെ ഏറ്റവും പുതിയ മുന്നേറ്റങ്ങളും ഏറ്റവും കാര്യക്ഷമമായ അൽ‌ഗോരിതംസും ഉപയോഗിക്കുന്നു വിവരങ്ങൾ പ്രോസസ്സ് ചെയ്യുന്നതിന് ലഭ്യമാണ്.

കൂടുതൽ കാര്യക്ഷമമായ അൽ‌ഗോരിതം ദൃശ്യമായാൽ‌, ലൈബ്രറി അതിലേക്ക് കൈമാറുന്നു, പക്ഷേ ഈ മാറ്റം API അല്ലെങ്കിൽ‌ അപ്ലിക്കേഷനുകളെ ബാധിക്കില്ല.

സ്പാസിയുടെ ഒരു സവിശേഷത പൂർണ്ണമായ പ്രമാണങ്ങൾ പ്രോസസ്സ് ചെയ്യുന്നതിനായി രൂപകൽപ്പന ചെയ്ത ഒരു വാസ്തുവിദ്യ കൂടിയാണിത്, പ്രമാണത്തെ വാക്യങ്ങളായി വിഭജിക്കുന്ന പ്രീപ്രൊസസ്സറുകളിൽ പ്രീപ്രൊസസ്സുചെയ്യാതെ. മോഡലുകൾ രണ്ട് പതിപ്പുകളായി വാഗ്ദാനം ചെയ്യുന്നു: പരമാവധി ഉൽ‌പാദനക്ഷമതയ്ക്കും പരമാവധി കൃത്യതയ്ക്കും.

സ്പാസിയുടെ പ്രധാന സവിശേഷതകൾ:

  • 60 ഓളം ഭാഷകൾക്കുള്ള പിന്തുണ.
  • വിവിധ ഭാഷകൾക്കും അപ്ലിക്കേഷനുകൾക്കുമായി ഇതിനകം പരിശീലനം ലഭിച്ച മോഡലുകൾ ലഭ്യമാണ്.
  • മുമ്പ് പരിശീലനം ലഭിച്ച ട്രാൻസ്ഫോർമറുകൾ ഉപയോഗിച്ചുള്ള മൾട്ടിടാസ്ക് ലേണിംഗ് (ട്രാൻസ്ഫോർമറുകളുടെ ബൈഡയറക്ഷണൽ എൻകോഡർ റെൻഡറിംഗ്സ്).
  • മുൻകൂട്ടി പരിശീലിപ്പിച്ച വെക്റ്ററുകൾക്കും വേഡ് എംബഡുകൾക്കുമായുള്ള പിന്തുണ.
  • ഉയർന്ന പ്രകടനം.
  • ജോലിസ്ഥലത്തെ പരിശീലന സംവിധാനം ഉപയോഗിക്കാൻ ഉപയോഗിക്കാൻ തയ്യാറാണ്.
  • ഭാഷാപരമായി പ്രേരിത ടോക്കണൈസേഷൻ.
  • പേരുള്ള എന്റിറ്റികൾ ലിങ്കുചെയ്യൽ, സംഭാഷണത്തിന്റെ ഭാഗങ്ങൾ അടയാളപ്പെടുത്തുക, വാചകം തരംതിരിക്കുക, ടാഗ് അടിസ്ഥാനമാക്കിയുള്ള ആശ്രയത്വം വിശകലനം ചെയ്യുക, വാക്യങ്ങൾ വിഭജിക്കുക, സംഭാഷണത്തിന്റെ ഭാഗങ്ങൾ അടയാളപ്പെടുത്തൽ, രൂപാന്തര വിശകലനം, സ്റ്റെമ്മിംഗ് മുതലായവയ്ക്ക് റെഡിമെയ്ഡ് ഘടകങ്ങൾ ലഭ്യമാണ്.
  • ഇഷ്‌ടാനുസൃത ഘടകങ്ങളും ആട്രിബ്യൂട്ടുകളും ഉപയോഗിച്ച് പ്രവർത്തനം വിപുലീകരിക്കുന്നതിനുള്ള പിന്തുണ.
  • പൈടോർച്ച്, ടെൻസർഫ്ലോ, മറ്റ് ഫ്രെയിംവർക്കുകൾ എന്നിവ അടിസ്ഥാനമാക്കി നിങ്ങളുടെ സ്വന്തം മോഡലുകൾ സൃഷ്ടിക്കുന്നതിനുള്ള പിന്തുണ.
  • പേരിട്ട എന്റിറ്റി ബൈൻഡിംഗിനും സിന്റാക്സ് വിഷ്വലൈസേഷനുമുള്ള അന്തർനിർമ്മിത ഉപകരണങ്ങൾ (NER, എന്റിറ്റി റെക്കഗ്നിഷൻ എന്ന് നാമകരണം).
  • മോഡലുകൾ പാക്കേജിംഗ് ചെയ്യുന്നതിനും വിന്യസിക്കുന്നതിനും വർക്ക്ഫ്ലോ കൈകാര്യം ചെയ്യുന്നതിനുമുള്ള ലളിതമായ പ്രക്രിയ.
  • ഉയർന്ന കൃത്യത.

പുസ്തകശാല സൈത്തണിലെ ഘടകങ്ങളുമായി പൈത്തണിൽ എഴുതിയിരിക്കുന്നു, സി ഭാഷയിൽ നേരിട്ടുള്ള ഫംഗ്ഷൻ കോളിംഗ് അനുവദിക്കുന്ന പൈത്തൺ വിപുലീകരണം.

പ്രോജക്റ്റ് കോഡ് എം‌ഐ‌ടി ലൈസൻസിന് കീഴിൽ വിതരണം ചെയ്യുന്നു. 58 ഭാഷകൾക്കായി ഭാഷാ മോഡലുകൾ തയ്യാറാണ്.

സ്പാസി 3.0 ന്റെ പുതിയ പതിപ്പിനെക്കുറിച്ച്

സ്പാസി 3.0 പതിപ്പ് നടപ്പിലാക്കുന്നതിനായി വേറിട്ടുനിൽക്കുന്നു മാതൃകാ കുടുംബങ്ങൾ 18 ഭാഷകൾക്കായി വീണ്ടും പരിശീലിപ്പിച്ചു 59 പൈപ്പ്ലൈനുകൾക്ക് പരിശീലനം നൽകി മൊത്തം 5 പുതിയ ട്രാൻസ്ഫോർമർ അടിസ്ഥാനമാക്കിയുള്ള പൈപ്പ്ലൈനുകൾ ഉൾപ്പെടെ

മൂന്ന് പതിപ്പുകളിലാണ് മോഡൽ വാഗ്ദാനം ചെയ്യുന്നത് (16 MB, 41 MB - 20 ആയിരം വെക്ടറുകളും 491 MB - 500 ആയിരം വെക്ടറുകളും) കൂടാതെ സിപിയു ലോഡിന് കീഴിൽ പ്രവർത്തിക്കാൻ അനുരൂപമാക്കിയിരിക്കുന്നു ഒപ്പം ടോക്ക് 2 വെക്, മോർഫോളജിസർ, പാഴ്‌സർ, സെൻഡർ, നേർ, ആട്രിബ്യൂട്ട്_റൂലർ, ലെമ്മറ്റൈസർ ഘടകങ്ങൾ എന്നിവ ഉൾപ്പെടുന്നു.

ഞങ്ങൾ ഒരു വർഷത്തിലേറെയായി സ്പാസി v3.0- ൽ പ്രവർത്തിക്കുന്നു, കൂടാതെ തിങ്കിൽ ചെയ്ത എല്ലാ ജോലികളും നിങ്ങൾ കണക്കാക്കിയാൽ ഏകദേശം രണ്ട് വർഷവും. നിങ്ങളുടെ സ്വന്തം മോഡലുകൾ സ്പേസിയിൽ കൊണ്ടുവരുന്നത് എളുപ്പമാക്കുക എന്നതാണ് ലോഞ്ചിനുള്ള ഞങ്ങളുടെ പ്രധാന ലക്ഷ്യം, പ്രത്യേകിച്ച് ട്രാൻസ്ഫോർമറുകൾ പോലുള്ള അത്യാധുനിക മോഡലുകൾ. നിങ്ങളുടെ എല്ലാ ക്രമീകരണങ്ങളും വിവരിക്കുന്നതിന് ഞങ്ങളുടെ ആകർഷണീയമായ പുതിയ കോൺഫിഗറേഷൻ സിസ്റ്റം ഉപയോഗിച്ച് സ്പൈസി ഘടകങ്ങളെ പൈറ്റോർച്ച് അല്ലെങ്കിൽ ടെൻസർഫ്ലോ പോലുള്ള ചട്ടക്കൂടുകളിലേക്ക് നിങ്ങൾക്ക് എഴുതാൻ കഴിയും. ആധുനിക എൻ‌എൽ‌പി വർക്ക്ഫ്ലോകളിൽ പലപ്പോഴും ഒന്നിലധികം ഘട്ടങ്ങൾ അടങ്ങിയിരിക്കുന്നതിനാൽ, നിങ്ങളുടെ ജോലി ഓർഗനൈസുചെയ്യാൻ സഹായിക്കുന്നതിന് ഒരു പുതിയ വർക്ക്ഫ്ലോ സിസ്റ്റം ഉണ്ട്.

മറ്റ് പ്രധാന പുതുമകൾ അത് പുതിയ പതിപ്പിൽ നിന്ന് വേറിട്ടുനിൽക്കുന്നു:

  • പരിശീലന മോഡലുകൾക്കായി പുതിയ വർക്ക്ഫ്ലോ.
  • പുതിയ കോൺഫിഗറേഷൻ സിസ്റ്റം.
  • മൾട്ടിടാസ്കിംഗ് പഠനത്തിന് അനുയോജ്യമായ ട്രാൻസ്ഫോർമർ അടിസ്ഥാനമാക്കിയുള്ള പൈപ്പ്ലൈൻ മോഡലുകൾക്കുള്ള പിന്തുണ.
  • പൈടോർച്ച്, ടെൻസർഫ്ലോ, എംഎക്സ്നെറ്റ് എന്നിവ പോലുള്ള വിവിധ മെഷീൻ ലേണിംഗ് ഫ്രെയിംവർക്കുകൾ ഉപയോഗിച്ച് നിങ്ങളുടെ സ്വന്തം മോഡലുകൾ കണക്റ്റുചെയ്യാനുള്ള കഴിവ്.
  • പ്രീ-പ്രോസസ്സിംഗ് മുതൽ മോഡൽ നടപ്പാക്കൽ വരെ വർക്ക്ഫ്ലോയുടെ എല്ലാ ഘട്ടങ്ങളും കൈകാര്യം ചെയ്യുന്നതിനുള്ള പ്രോജക്റ്റ് പിന്തുണ.
  • ഡാറ്റാ പതിപ്പ് നിയന്ത്രണം (ഡിവിസി), സ്ട്രീംലിറ്റ്, വെയ്റ്റുകൾ, ബയസുകൾ, റേ പാക്കേജുകൾ എന്നിവയുമായി സംയോജിപ്പിക്കുന്നതിനുള്ള പിന്തുണ.
  • പുതിയ അന്തർനിർമ്മിത ഘടകങ്ങൾ: SentenceRecognizer, Morphologizer, Lemmatizer,
  • ആട്രിബ്യൂട്ട് റൂളറും ട്രാൻസ്ഫോർമറും.
  • നിങ്ങളുടെ സ്വന്തം ഘടകങ്ങൾ സൃഷ്ടിക്കുന്നതിനുള്ള പുതിയ API.

ഒടുവിൽ, നിങ്ങൾക്ക് ഇതിനെക്കുറിച്ച് കൂടുതലറിയാൻ താൽപ്പര്യമുണ്ടെങ്കിൽ ഈ പുതിയ പതിപ്പിനെക്കുറിച്ചോ അല്ലെങ്കിൽ സ്പാസിയെക്കുറിച്ചോ, നിങ്ങൾക്ക് വിശദാംശങ്ങൾ പരിശോധിക്കാൻ കഴിയും ഇനിപ്പറയുന്ന ലിങ്കിൽ.


ലേഖനത്തിന്റെ ഉള്ളടക്കം ഞങ്ങളുടെ തത്ത്വങ്ങൾ പാലിക്കുന്നു എഡിറ്റോറിയൽ എത്തിക്സ്. ഒരു പിശക് റിപ്പോർട്ടുചെയ്യാൻ ക്ലിക്കുചെയ്യുക ഇവിടെ.

അഭിപ്രായമിടുന്ന ആദ്യയാളാകൂ

നിങ്ങളുടെ അഭിപ്രായം ഇടുക

നിങ്ങളുടെ ഇമെയിൽ വിലാസം പ്രസിദ്ധീകരിച്ചു ചെയ്യില്ല.

*

*

  1. ഡാറ്റയുടെ ഉത്തരവാദിത്തം: മിഗുവൽ ഏഞ്ചൽ ഗാറ്റൻ
  2. ഡാറ്റയുടെ ഉദ്ദേശ്യം: സ്പാം നിയന്ത്രിക്കുക, അഭിപ്രായ മാനേജുമെന്റ്.
  3. നിയമസാധുത: നിങ്ങളുടെ സമ്മതം
  4. ഡാറ്റയുടെ ആശയവിനിമയം: നിയമപരമായ ബാധ്യതയല്ലാതെ ഡാറ്റ മൂന്നാം കക്ഷികളുമായി ആശയവിനിമയം നടത്തുകയില്ല.
  5. ഡാറ്റ സംഭരണം: ഒസെന്റസ് നെറ്റ്‌വർക്കുകൾ (ഇയു) ഹോസ്റ്റുചെയ്യുന്ന ഡാറ്റാബേസ്
  6. അവകാശങ്ങൾ: ഏത് സമയത്തും നിങ്ങളുടെ വിവരങ്ങൾ പരിമിതപ്പെടുത്താനും വീണ്ടെടുക്കാനും ഇല്ലാതാക്കാനും കഴിയും.