spaCy ، د ژبې د طبیعي پروسس کتابتون

چاودنې AI د پرانیستلو پرانسته وکړه د وړیا کتابتون نوې نسخه a سپاکی»کوم چې تطبیق لري د طبیعي ژبې پروسس الګوریتمونه (NLP). په عمل کې ، پروژه د آټو کارډ پلورونکو جوړولو لپاره کارول کیدی شي، بوټان ، د متن ټولګیوونکي ، او د ډیالوګ بیلابیل سیسټمونه چې د جملو معنی ټاکي.

کتابتون د دوامداره API چمتو کولو لپاره ډیزاین شوی دا د کارول شوي الګوریتمونو سره تړاو نلري او په ریښتیني محصولاتو کې کارولو لپاره چمتو دي. کتابتون په NLP کې وروستي پرمختګونه او خورا مؤثره الګوریتمونه کاروي د معلوماتو د پروسې لپاره شتون لري.

که چیرې یو ډیر موثر الګوریتم څرګند شي ، کتابتون ورته ته سپارل شوی ، مګر دا لیږد په API یا غوښتنلیکونو اغیزه نه کوي.

د سپاکي یوه ب .ه دا یو جوړښت هم دی چې د بشپړ اسنادو پروسس کولو لپاره ډیزاین شوی ، پرته د پریترو پروسیسرونو کې پرته له دې چې سند په فقرو ویشلي. ماډلونه په دوه نسخو کې وړاندیز کیږي: د اعظمي تولید او اعظمي حد لپاره.

د سپاکي اصلي ب featuresې:

  • د شاوخوا 60 ژبو لپاره ملاتړ.
  • دمخه روزل شوي ماډلونه د مختلف ژبو او غوښتنلیکونو لپاره شتون لري.
  • د پخوانیو روزل شوي ټرانسفارمرونو لکه BERT (د ټرانسفرمرونو لارښود انکوډر رینډینګونه) کارولو سره د ملټي ټاسک زده کړه.
  • د مخکې روزل شوي ویکټورونو او ټکي کلمو لپاره ملاتړ.
  • لوړه کړنه.
  • د کار پر روزنې د روزنې سیسټم ماډل کارول.
  • د ژبپوهني له پلوه هڅول شوي توکیشن.
  • د کارولو لپاره چمتو اجزاوې د نومول شوي شرکتونو د اړیکې لپاره ، د وینا برخې نښه کول ، د متن طبقه بندي ، د ټاګ پر بنسټ انحصار تحلیل ، د جملو تقسیم کول ، د بیان برخې نښه کول ، مورفولوژیکي تحلیل ، سټیمینګ او داسې نورو لپاره شتون لري.
  • د دودیز اجزاو او صفاتو سره د فعالیت غځولو ملاتړ.
  • د پی ټیورچ ، ټینسور فلو او نورو چوکاټونو پراساس خپل ماډلونه رامینځته کولو کې ملاتړ.
  • د نوم لرونکي شرکت تړل او د سنټیکس لید (NER ، نومول شوي هویت پیژندنه) لپاره جوړ شوي وسیلې.
  • د بسته کولو او پلي کولو ماډلونو ساده پروسه او د کاري فلو اداره کول.
  • لوړ دقت.

کتابتون په سایتون کې د عناصرو سره په پایتون کې لیکل شوی، د پیتوون توسیع چې په C ژبه کې مستقیم فعالیت زنګ ته اجازه ورکوي.

د پروژې کوډ د MIT لایسنس لاندې توزیع شوی. د ژبې ماډلونه د 58 ژبو لپاره چمتو دي.

د spaCy 3.0 نوې نسخه په اړه

د SpaCy 3.0 نسخه د پلي کیدو لپاره ولاړ دی ماډل کورنۍ د 18 ژبو لپاره روزل شوي او 59 پایپ لاینونه روزل شوي په مجموع کې ، د 5 نوي ټرانسفارمر پراساس پایپ لاینونو په ګډون

ماډل په دریو نسخو کې وړاندیز شوی (16 MB ، 41 MB - 20 زره ویکتورونه او 491 MB - 500 زره ویکتورونه) او د CPU د کار لاندې کار کولو ته خوشبین دی او د ټیک 2 ویک ، مورفولوژر ، پارسیر ، سینټر ، اعصاب ، خاصیت_لر او لیماتیزر اجزا پکې شامل دي.

موږ د یو کال راهیسې په spaCy v3.0 کار کوو ، او نږدې دوه کاله که تاسو په Thinc کې ټول کارونه حساب کړئ. د لانچ سره زموږ اصلي هدف دا دی چې په SPACY کې ستاسو خپل ماډلونه په اسانۍ سره وړل اسانه کړئ ، په ځانګړي توګه د عصري موډلونو لکه ټرانسفارمرونه. تاسو کولی شئ داسې ماډلونه ولیکئ چې د سپای سي برخې اجزاو په पाय چوکاټونو کې تغذیه کوي لکه PyTorch یا TensorFlow ، زموږ د عالي ترتیباتو سیسټم کاروي ترڅو ستاسو ټولې تنظیمات توضیح کړي. او له هغه وخته چې د NLP عصري کاري جریان ډیری وختونه ډیری مرحلې لري ، نو د نوي کاري فلو سیسټم شتون لري ترڅو تاسو سره مرسته وکړي خپل کار تنظیم کړئ.

نور مهم بدعات چې له نوې نسخې څخه ولاړ دی:

  • د روزنې ماډلونو لپاره نوي کاري فلو.
  • د سازونې نوی سیستم.
  • د ټرانسفارمر میشته پایپ لاین موډلونو ملاتړ ، د ملټي ټاسکینګ زده کړې لپاره مناسب.
  • د بیلابیل ماشین زده کړې چوکاټونو په کارولو سره خپل ماډلونه وصل کولو وړتیا ، لکه پی ټورچ ، ټینسور فلو ، او MXNet.
  • د پروژې ملاتړ د کاري جریانونو ټولو مرحلو اداره کولو لپاره ، د ماډل پلي کولو څخه دمخه چمتو کول.
  • د ډیټا نسخه کنټرول (DVDC) ، سټریټلایټ ، وزن او تعصبونو او ریو پیکجونو سره د انسجام لپاره ملاتړ.
  • نوي جوړ شوي برخې: د سزا پېژندونکی ، مورفولوژیزر ، لیماتیزر ،
  • AttributeRuler او Transformer.
  • د خپلو اجزاو جوړولو لپاره نوی API.

په پای کې، که تاسو د دې په اړه د نورو پوهیدو سره علاقه لرئ د دې نوې نسخې یا د spaCy په اړه ، تاسو کولی شئ توضیحات چیک کړئ په لاندې لینک کې


د مقالې مینځپانګه زموږ د اصولو سره سمون لري ایډیټیک اخلاق. د غلطۍ راپور ورکولو لپاره کلیک وکړئ دلته.

لومړی د تبصره کولو لپاره وئ

خپله نظر پرېږدئ

ستاسو د بریښنا لیک پته به خپره نه شي. اړین برخو سره په نښه شوي دي *

*

*

  1. د معلوماتو لپاره مسؤل: میګیوانجل ګاتین
  2. د معلوماتو هدف: د سپیم کنټرول ، د نظر مدیریت.
  3. قانونیت: ستاسو رضایت
  4. د معلوماتو راټولول: معلومات به د قانوني مکلفیت پرته دریمې ډلې ته نه لیږدول کیږي.
  5. د معلوماتو ذخیره: ډیټابیس د Occentus شبکې (EU) لخوا کوربه شوی
  6. حقونه: په هر وخت کې تاسو کولی شئ خپل معلومات محدود ، له سره تنظیم او حذف کړئ.