spaCy ، مكتبة معالجة اللغات الطبيعية

كشفت شركة Explosion AI عن إطلاق الإصدار الجديد من المكتبة المجانية «سباسي»الذي لديه تنفيذ خوارزميات معالجة اللغة الطبيعية (البرمجة اللغوية العصبية). في التمرين، يمكن استخدام المشروع لبناء أجهزة الرد الآلي، وبرامج الروبوت ، ومصنفات النصوص ، وأنظمة الحوار المختلفة التي تحدد معنى العبارات.

المكتبة تم تصميمه لتوفير واجهة برمجة تطبيقات دائمة لا ترتبط بالخوارزميات المستخدمة وجاهزة للاستخدام في المنتجات الحقيقية. المكتبة يستخدم أحدث التطورات في البرمجة اللغوية العصبية والخوارزميات الأكثر كفاءة متاح لمعالجة المعلومات.

إذا ظهرت خوارزمية أكثر كفاءة ، يتم تمرير المكتبة إليها ، لكن هذا الانتقال لا يؤثر على واجهة برمجة التطبيقات أو التطبيقات.

ميزة سبايسي إنها أيضًا بنية مصممة لمعالجة المستندات الكاملة ، دون المعالجة المسبقة في المعالجات التي تقسم المستند إلى عبارات. يتم تقديم النماذج في نسختين: لتحقيق أقصى قدر من الإنتاجية والدقة القصوى.

الميزات الرئيسية لـ spaCy:

  • دعم لحوالي 60 لغة.
  • تتوفر نماذج مدربة بالفعل للغات وتطبيقات مختلفة.
  • التعلم متعدد المهام باستخدام المحولات المدربة مسبقًا مثل BERT (عمليات التشفير ثنائية الاتجاه للمحولات).
  • دعم النواقل المدربة مسبقًا وتضمين الكلمات.
  • أداء عالي.
  • نموذج نظام تدريب جاهز للاستخدام أثناء العمل.
  • الترميز ذو الدوافع اللغوية.
  • تتوفر المكونات الجاهزة للاستخدام لربط الكيانات المسماة ، وتمييز أجزاء من الكلام ، وتصنيف النص ، وتحليل التبعيات القائمة على العلامات ، وتقسيم الجمل ، ووضع علامات على أجزاء الكلام ، والتحليل الصرفي ، والاشتقاق ، إلخ.
  • دعم لتوسيع الوظائف بمكونات وسمات مخصصة.
  • دعم إنشاء النماذج الخاصة بك على أساس PyTorch و TensorFlow وأطر أخرى.
  • أدوات مدمجة لربط الكيان المحدد وتصور بناء الجملة (NER ، التعرف على الكيان المحدد).
  • عملية بسيطة لتعبئة النماذج ونشرها وإدارة سير العمل.
  • دقة عالية.

المكتبة مكتوب بلغة Python مع عناصر في Cython، وهو امتداد Python يسمح باستدعاء الوظيفة مباشرة بلغة C.

كود المشروع يتم توزيعها بموجب ترخيص MIT. نماذج اللغات جاهزة لـ 58 لغة.

حول الإصدار الجديد من spaCy 3.0

يبرز إصدار spaCy 3.0 لتطبيق عائلات نموذجية أعيد تدريبه على 18 لغة و تم تدريب 59 خط أنابيب في المجموع ، بما في ذلك 5 خطوط أنابيب جديدة قائمة على المحولات

يتم تقديم النموذج في ثلاثة إصدارات (16 ميغا بايت ، 41 ميغا بايت - 20 ألف متجه و 491 ميغا بايت - 500 ألف متجه) و تم تحسينه للعمل تحت حمل وحدة المعالجة المركزية ويتضمن tok2vec و morphologizer و parser و senter و ner و attribute_ruler و lemmatizer.

لقد عملنا على spaCy v3.0 لأكثر من عام ، وما يقرب من عامين إذا كنت تحسب كل الأعمال المنجزة في Thinc. هدفنا الرئيسي من الإطلاق هو تسهيل إحضار النماذج الخاصة بك في SPACY ، لا سيما الموديلات الحديثة مثل المحولات. يمكنك كتابة النماذج التي تغذي مكونات spaCy في أطر مثل PyTorch أو TensorFlow ، باستخدام نظام التكوين الجديد الرائع لدينا لوصف جميع إعداداتك. ونظرًا لأن مهام سير العمل الحديثة في البرمجة اللغوية العصبية غالبًا ما تتكون من خطوات متعددة ، فهناك نظام سير عمل جديد لمساعدتك في الحفاظ على تنظيم عملك.

ابتكارات مهمة أخرى التي تبرز من الإصدار الجديد:

  • سير عمل جديد لنماذج التدريب.
  • نظام التكوين الجديد.
  • دعم لنماذج خطوط الأنابيب القائمة على المحولات ، ومناسبة للتعلم متعدد المهام.
  • القدرة على توصيل النماذج الخاصة بك باستخدام العديد من أطر التعلم الآلي ، مثل PyTorch و TensorFlow و MXNet.
  • دعم المشروع لإدارة جميع مراحل سير العمل ، من المعالجة المسبقة إلى تنفيذ النموذج.
  • دعم التكامل مع حزم التحكم في إصدار البيانات (DVC) و Streamlit والأوزان والتحيزات وحزم الشعاع.
  • مكونات مدمجة جديدة: SentenceRecognizer ، Morphologizer ، Lemmatizer ،
  • AttributeRuler والمحول.
  • واجهة برمجة تطبيقات جديدة لإنشاء المكونات الخاصة بك.

وأخيرا، إذا كنت مهتمًا بمعرفة المزيد عنها من هذا الإصدار الجديد أو عن spaCy ، يمكنك التحقق من التفاصيل في الرابط التالي.


اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

*

*

  1. المسؤول عن البيانات: ميغيل أنخيل جاتون
  2. الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
  3. الشرعية: موافقتك
  4. توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
  5. تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
  6. الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.