spaCy, ஒரு இயற்கை மொழி செயலாக்க நூலகம்

வெடிப்பு AI அறிமுகப்படுத்தப்பட்டது இலவச நூலகத்தின் புதிய பதிப்பு «ஸ்பேசி»இது செயல்படுத்தப்படுகிறது இயற்கை மொழி செயலாக்க வழிமுறைகள் (என்.எல்.பி). நடைமுறையில், தன்னியக்க ஸ்பாண்டர்களை உருவாக்க இந்த திட்டம் பயன்படுத்தப்படலாம், போட்கள், உரை வகைப்படுத்திகள் மற்றும் சொற்றொடர்களின் பொருளைத் தீர்மானிக்கும் பல்வேறு உரையாடல் அமைப்புகள்.

நூலகம் தொடர்ச்சியான API ஐ வழங்க வடிவமைக்கப்பட்டுள்ளது இது பயன்படுத்தப்படும் வழிமுறைகளுடன் இணைக்கப்படவில்லை மற்றும் உண்மையான தயாரிப்புகளில் பயன்படுத்த தயாராக உள்ளது. நூலகம் NLP இன் சமீபத்திய முன்னேற்றங்கள் மற்றும் மிகவும் திறமையான வழிமுறைகளைப் பயன்படுத்துகிறது தகவலை செயலாக்க கிடைக்கிறது.

மிகவும் திறமையான வழிமுறை தோன்றினால், நூலகம் அதற்கு அனுப்பப்படுகிறது, ஆனால் இந்த மாற்றம் API அல்லது பயன்பாடுகளை பாதிக்காது.

ஸ்பேசியின் அம்சம் இது முழுமையான ஆவணங்களை செயலாக்க வடிவமைக்கப்பட்ட ஒரு கட்டிடக்கலை ஆகும், ஆவணத்தை சொற்றொடர்களாகப் பிரிக்கும் முன் செயலாக்கிகளில் முன் செயலாக்கம் இல்லாமல். மாதிரிகள் இரண்டு பதிப்புகளில் வழங்கப்படுகின்றன: அதிகபட்ச உற்பத்தித்திறன் மற்றும் அதிகபட்ச துல்லியத்திற்கு.

ஸ்பேசியின் முக்கிய அம்சங்கள்:

  • சுமார் 60 மொழிகளுக்கு ஆதரவு.
  • வெவ்வேறு மொழிகள் மற்றும் பயன்பாடுகளுக்கு ஏற்கனவே பயிற்சி பெற்ற மாதிரிகள் உள்ளன.
  • BERT (டிரான்ஸ்ஃபார்மர்களின் இருதரப்பு குறியாக்கி ரெண்டரிங்ஸ்) போன்ற முன்னர் பயிற்சி பெற்ற மின்மாற்றிகளைப் பயன்படுத்தி பல்பணி கற்றல்.
  • முன் பயிற்சி பெற்ற திசையன்கள் மற்றும் சொல் உட்பொதிப்புகளுக்கான ஆதரவு.
  • உயர் செயல்திறன்.
  • வேலை பயிற்சி முறை மாதிரி பயன்படுத்த தயாராக உள்ளது.
  • மொழியியல் ரீதியாக ஊக்கப்படுத்தப்பட்ட டோக்கனைசேஷன்.
  • பெயரிடப்பட்ட நிறுவனங்களை இணைத்தல், பேச்சின் பகுதிகளைக் குறிப்பது, உரையை வகைப்படுத்துதல், குறிச்சொல் அடிப்படையிலான சார்புகளை பகுப்பாய்வு செய்தல், வாக்கியங்களைப் பிரித்தல், பேச்சின் பகுதிகளைக் குறிப்பது, உருவவியல் பகுப்பாய்வு, தண்டு போன்றவற்றுக்கு ஆயத்த கூறுகள் கிடைக்கின்றன.
  • தனிப்பயன் கூறுகள் மற்றும் பண்புகளுடன் செயல்பாட்டை விரிவாக்குவதற்கான ஆதரவு.
  • பைடார்ச், டென்சர்ஃப்ளோ மற்றும் பிற கட்டமைப்புகளின் அடிப்படையில் உங்கள் சொந்த மாதிரிகளை உருவாக்குவதற்கான ஆதரவு.
  • பெயரிடப்பட்ட நிறுவன பிணைப்பு மற்றும் தொடரியல் காட்சிப்படுத்தல் (NER, பெயரிடப்பட்ட நிறுவன அங்கீகாரம்) க்கான உள்ளமைக்கப்பட்ட கருவிகள்.
  • பேக்கேஜிங் மற்றும் மாதிரிகள் வரிசைப்படுத்துதல் மற்றும் பணிப்பாய்வுகளை நிர்வகித்தல் ஆகியவற்றின் எளிய செயல்முறை.
  • உயர் துல்லியம்.

நூலகம் சைத்தானில் உள்ள உறுப்புகளுடன் பைத்தானில் எழுதப்பட்டுள்ளது, சி மொழியில் நேரடி செயல்பாடு அழைப்பை அனுமதிக்கும் பைதான் நீட்டிப்பு.

திட்ட குறியீடு எம்ஐடி உரிமத்தின் கீழ் விநியோகிக்கப்படுகிறது. மொழி மாதிரிகள் 58 மொழிகளுக்கு தயாராக உள்ளன.

ஸ்பேசி 3.0 இன் புதிய பதிப்பைப் பற்றி

ஸ்பேசி 3.0 பதிப்பு செயல்படுத்தப்படுவதற்கு தனித்துவமானது மாதிரி குடும்பங்கள் 18 மொழிகளுக்கு மறுபரிசீலனை செய்யப்பட்டது மற்றும் 59 பைப்லைன் பயிற்சி மொத்தத்தில், 5 புதிய மின்மாற்றி அடிப்படையிலான குழாய்வழிகள் உட்பட

மாடல் மூன்று பதிப்புகளில் வழங்கப்படுகிறது (16 எம்பி, 41 எம்பி - 20 ஆயிரம் திசையன்கள் மற்றும் 491 எம்பி - 500 ஆயிரம் திசையன்கள்) மற்றும் CPU சுமை கீழ் வேலை செய்ய உகந்ததாக உள்ளது மற்றும் tok2vec, morphologizer, பாகுபடுத்தி, அனுப்புநர், ner, attribute_ruler மற்றும் lemmatizer கூறுகளை உள்ளடக்கியது.

நாங்கள் ஒரு வருடத்திற்கும் மேலாக ஸ்பேசி வி 3.0 இல் பணிபுரிந்து வருகிறோம், மேலும் கிட்டத்தட்ட இரண்டு வருடங்கள் நீங்கள் திங்கில் செய்த அனைத்து வேலைகளையும் எண்ணினால். அறிமுகத்துடன் எங்கள் முக்கிய குறிக்கோள், உங்கள் சொந்த மாடல்களை SPACY இல் கொண்டு வருவதை எளிதாக்குவது, குறிப்பாக மின்மாற்றிகள் போன்ற அதிநவீன மாதிரிகள். உங்கள் எல்லா அமைப்புகளையும் விவரிக்க எங்கள் அற்புதமான புதிய உள்ளமைவு முறையைப் பயன்படுத்தி, ஸ்பைசி கூறுகளை பைடார்ச் அல்லது டென்சர்ஃப்ளோ போன்ற கட்டமைப்பிற்குள் எழுதக்கூடிய மாதிரிகளை நீங்கள் எழுதலாம். நவீன என்.எல்.பி பணிப்பாய்வு பெரும்பாலும் பல படிகளைக் கொண்டிருப்பதால், உங்கள் வேலையை ஒழுங்கமைக்க உதவும் புதிய பணிப்பாய்வு அமைப்பு உள்ளது.

பிற முக்கியமான கண்டுபிடிப்புகள் புதிய பதிப்பிலிருந்து தனித்துவமானவை:

  • பயிற்சி மாதிரிகளுக்கான புதிய பணிப்பாய்வு.
  • புதிய உள்ளமைவு அமைப்பு.
  • மின்மாற்றி அடிப்படையிலான பைப்லைன் மாதிரிகளுக்கான ஆதரவு, பல்பணி கற்றலுக்கு ஏற்றது.
  • பைடார்ச், டென்சர்ஃப்ளோ மற்றும் எம்எக்ஸ்நெட் போன்ற பல்வேறு இயந்திர கற்றல் கட்டமைப்புகளைப் பயன்படுத்தி உங்கள் சொந்த மாதிரிகளை இணைக்கும் திறன்.
  • முன் செயலாக்கம் முதல் மாதிரி செயல்படுத்தல் வரை பணிப்பாய்வுகளின் அனைத்து நிலைகளையும் நிர்வகிப்பதற்கான திட்ட ஆதரவு.
  • தரவு பதிப்பு கட்டுப்பாடு (டி.வி.சி), ஸ்ட்ரீம்லைட், எடைகள் மற்றும் சார்பு மற்றும் ரே தொகுப்புகளுடன் ஒருங்கிணைப்பதற்கான ஆதரவு.
  • புதிய உள்ளமைக்கப்பட்ட கூறுகள்: SentenceRecognizer, Morphologizer, Lemmatizer,
  • பண்புக்கூறு மற்றும் மின்மாற்றி.
  • உங்கள் சொந்த கூறுகளை உருவாக்க புதிய API.

இறுதியாக, நீங்கள் அதைப் பற்றி மேலும் அறிய ஆர்வமாக இருந்தால் இந்த புதிய பதிப்பின் அல்லது ஸ்பாசி பற்றி, நீங்கள் விவரங்களை சரிபார்க்கலாம் பின்வரும் இணைப்பில்.


உங்கள் கருத்தை தெரிவிக்கவும்

உங்கள் மின்னஞ்சல் முகவரி வெளியிடப்பட்ட முடியாது. தேவையான புலங்கள் குறிக்கப்பட்டிருக்கும் *

*

*

  1. தரவுக்கு பொறுப்பு: மிகுவல் ஏஞ்சல் கேடன்
  2. தரவின் நோக்கம்: கட்டுப்பாட்டு ஸ்பேம், கருத்து மேலாண்மை.
  3. சட்டபூர்வமாக்கல்: உங்கள் ஒப்புதல்
  4. தரவின் தொடர்பு: சட்டபூர்வமான கடமையால் தவிர மூன்றாம் தரப்பினருக்கு தரவு தெரிவிக்கப்படாது.
  5. தரவு சேமிப்பு: ஆக்சென்டஸ் நெட்வொர்க்குகள் (EU) வழங்கிய தரவுத்தளம்
  6. உரிமைகள்: எந்த நேரத்திலும் உங்கள் தகவல்களை நீங்கள் கட்டுப்படுத்தலாம், மீட்டெடுக்கலாம் மற்றும் நீக்கலாம்.