spaCy, ספריית עיבוד שפות טבעיות

פיצוץ AI חשף את ההשקה של הגרסה החדשה של הספרייה החינמית «SpaCy»שיש לו יישום של אלגוריתמים לעיבוד שפה טבעית (NLP). בפועל, הפרויקט יכול לשמש לבניית תשובות אוטומטיות, בוטים, מסווגי טקסט ומערכות דיאלוג שונות הקובעות את משמעות הביטויים.

סִפְרִיָה נועד לספק API מתמשך זה לא מקושר לאלגוריתמים המשמשים ומוכנים לשימוש במוצרים אמיתיים. סִפְרִיָה משתמש בהתקדמות האחרונה ב- NLP ובאלגוריתמים היעילים ביותר זמין לעיבוד מידע.

אם מופיע אלגוריתם יעיל יותר, הספרייה מועברת אליו, אך מעבר זה אינו משפיע על ה- API או על היישומים.

תכונה של spaCy זוהי גם ארכיטקטורה המיועדת לעיבוד מסמכים מלאים, ללא עיבוד מקדים במעבדים מקדימים המחלקים את המסמך לביטויים. דגמים מוצעים בשתי גרסאות: לפרודוקטיביות מקסימלית ולדיוק מקסימלי.

המאפיינים העיקריים של spaCy:

  • תמיכה בכ- 60 שפות.
  • מודלים שהוכשרו כבר זמינים עבור שפות ויישומים שונים.
  • למידה רבת משימות באמצעות שנאים שהוכשרו בעבר כמו BERT (טיח מקודד דו כיווני של שנאים).
  • תמיכה בקטורים שהוכשרו מראש ובטביעות מילים.
  • ביצועים גבוהים.
  • מודל מערכת הכשרה מוכן לשימוש בתפקיד.
  • טוקניזציה מונעת לשונית.
  • רכיבים מוכנים זמינים לקישור ישויות בעלות שם, לסימון חלקי דיבור, סיווג טקסט, ניתוח תלות מבוססות תג, חלוקת משפטים, סימון חלקי דיבור, ניתוח מורפולוגי, נביעה וכו '.
  • תמיכה בהרחבת פונקציונליות עם רכיבים ותכונות מותאמים אישית.
  • תמיכה ליצירת מודלים משלך המבוססים על מסגרות PyTorch, TensorFlow ועוד.
  • כלים מובנים לכריכת ישויות בשם ויזואליזציה תחבירית (NER, זיהוי ישויות בשם).
  • תהליך פשוט של אריזה ופריסת מודלים וניהול זרימת עבודה.
  • דיוק גבוה.

סִפְרִיָה כתוב בפייתון עם אלמנטים בסיתון, סיומת פייתון המאפשרת קריאה לפונקציה ישירה בשפת C.

קוד הפרויקט מופץ ברישיון MIT. מודלים של שפות מוכנים ל -58 שפות.

אודות הגרסה החדשה של spaCy 3.0

גרסת spaCy 3.0 בולטת ביישום משפחות מודל עבר הכשרה מחודשת ל 18 שפות ו 59 צינורות שהוכשרו בסך הכל, כולל 5 צינורות חדשים מבוססי שנאים

הדגם מוצע בשלוש גרסאות (16 מגה, 41 מגה - 20 אלף וקטורים ו 491 מגה - 500 אלף וקטורים) ו מותאם לעבודה תחת עומס המעבד וכולל את הרכיבים tok2vec, morphologizer, parser, senter, ner, attribute_ruler ו- lemmatizer.

אנו עובדים על spaCy v3.0 כבר למעלה משנה וכמעט שנתיים אם אתה סופר את כל העבודות שנעשו על Thinc. המטרה העיקרית שלנו עם ההשקה היא להקל על נשיאת הדגמים שלך ב- SPACY, במיוחד המודלים החדישים כמו שנאים. אתה יכול לכתוב מודלים שמזינים את רכיבי spaCy למסגרות כמו PyTorch או TensorFlow, באמצעות מערכת התצורה החדשה והמדהימה שלנו כדי לתאר את כל ההגדרות שלך. ומכיוון שזרימות עבודה NLP מודרניות מורכבות לרוב משלבים מרובים, קיימת מערכת זרימת עבודה חדשה שתעזור לך לשמור על העבודה שלך מסודרת.

חידושים חשובים אחרים הבולטים מהגרסה החדשה:

  • זרימת עבודה חדשה למודלים להכשרה.
  • מערכת תצורה חדשה.
  • תמיכה במודלים צינוריים מבוססי שנאים, המתאימים למידה רבת משימות.
  • היכולת לחבר מודלים משלך באמצעות מסגרות למידת מכונה שונות, כגון PyTorch, TensorFlow ו- MXNet.
  • תמיכה בפרויקט לניהול כל שלבי תהליכי העבודה, החל מעיבוד מקדים וכלה ביישום המודל.
  • תמיכה באינטגרציה עם בקרת גרסאות נתונים (DVC), Streamlit, משקולות והטיות וחבילות ריי.
  • רכיבים מובנים חדשים: SentenceRecognizer, Morphologizer, Lemmatizer,
  • AttributeRuler ו- Transformer.
  • ממשק API חדש ליצירת רכיבים משלך.

לבסוף, אם אתה מעוניין לדעת יותר על כך של הגרסה החדשה הזו או על spaCy, אתה יכול לבדוק את הפרטים בקישור הבא.


תוכן המאמר עומד בעקרונותינו של אתיקה עריכתית. כדי לדווח על שגיאה לחץ כאן.

היה הראשון להגיב

השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי לנתונים: מיגל אנחל גטון
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.