Metaflow: إطار عمل Netflix لمشاريع التعلم الآلي

ميتافلو

Metaflow هو إطار عمل Netflix مكتوبة بلغة بايثون تم تصميمها لتسهيل تنفيذ مشاريع التعلم الآلي من التي يتم تشكيلها على شكل نموذجًا أوليًا للإنتاج. تهدف هذه الأداة إلى مساعدة متخصصي البيانات في تنفيذ نماذج تعلم آلي أسرع للإنتاج.

استخدمت Netflix Metaflow داخليًا خلال العامين الماضيين لإنشاء وإدارة المئات من مشاريع علوم البيانات من معالجة اللغة الطبيعية إلى بحوث العمليات. لمساعدة العلماء ببيانات من جميع الشركات ، افتتح فريق علوم البيانات في Netflix مكتبة Metaflow الخاصة بهموفقًا لمدونة نشرها الفريق يوم الثلاثاء الماضي.

ميتافلو إنه جزء أساسي من البنية التحتية للتعلم الآلي "المرتكزة على الإنسان" التي يستخدمها فريق علوم البيانات لبناء وتنفيذ مهام سير العمل كجزء من أعمالهم.

تستخدم Netflix التعلم الآلي في جميع جوانب أعمالهامن تحليل السيناريو إلى تحسين جداول الإنتاج والتنبؤ بالتخبط والتسعير والترجمة والتحسين.

Metaflow هو إطار عمل سحابي أصلي ، تعمل على زيادة مرونة تصميم السحابة لكل من الحوسبة والتخزين. و Netflix ، التي كانت واحدة من أكبر مستخدمي Amazon Web Services (AWS) لعدة سنوات، تراكمت لديه الكثير من الخبرة العملية ومعرفة الحوسبة السحابية ، وخاصة AWS. مما لا يثير الدهشة ، كجزء من إطار عمل المصدر المفتوح ، دخلت الشركة في شراكة مع AWS لدمج Metaflow بسلاسة مع خدمات AWS المختلفة.

يتكامل Metaflow مع العديد من خدمات AWS ، بما في ذلك القدرة على معاينة جميع الرموز والبيانات في Amazon S3 ، التي تستخدمها Netflix كـ "بحيرة بيانات". نتيجة لذلك ، تمتلك الشركة حلاً كاملاً لإدارة الإصدارات وتتبع التجارب دون تدخل المستخدم. يجب أن تساعد هذه الإمكانية المستخدمين على توسيع نطاق النماذج بسرعة باستخدام خدمات AWS للحوسبة والتخزين والتعلم الآلي.

التعلم الالي

بالإضافة إلى ذلك ، تأتي Metaflow مع عميل S3 عالي الأداء يمكنه تحميل البيانات بسرعة تصل إلى 10 جيجابت في الثانية. وفقًا لـ Netflix ، "لقد حظي هذا العميل بشعبية كبيرة لدى مستخدمينا ، الذين يمكنهم الآن تحميل البيانات في سير عملهم بترتيب أكبر من ذي قبل ، مما يسمح بدورات تكرار أسرع."

وفقًا لمدونة المدونة ، تقول Netflix إنها بدأت من ملاحظة رئيسية لتؤدي إلى تنفيذ إطار عملها. في الواقع ، وفقًا للشركة ، لم يكن لدى معظم المتخصصين في البيانات أي شيء ضد كتابة كود Python.

ما أرادوه هو أن يكونوا قادرين على الحفاظ على حرية استخدام التعليمات البرمجية التعسفية والاصطلاحية للتعبير عن منطق أعمالهم. يحب علماء البيانات التعبير عن منطق الأعمال من خلال كود Python ، لكنهم لا يريدون إضاعة الوقت.

"ومع ذلك ، فهم لا يرغبون في قضاء الكثير من الوقت في التفكير في التسلسل الهرمي للكائنات أو مشكلات التغليف أو التعامل مع واجهات برمجة التطبيقات (API) الغامضة غير المرتبطة بعملهم. يجب أن تسمح لهم البنية التحتية بممارسة حريتهم كمتخصصين في البيانات ، ولكن يجب أن توفر ما يكفي من حواجز الحماية والسقالات حتى لا يضطروا إلى القلق كثيرًا بشأن بنية البرامج ، كما ورد في منشور مدونة Netflix.

من هذه الملاحظة ، الفكرة من وراء Metaflow هو منح متخصصي بيانات Netflix الفرصة لـ انظر في وقت مبكر إذا كان نموذج النموذج الأولي سيفشل في الإنتاج، مما سيسمح لهم بحل أي مشاكل ومن الناحية المثالية ، تسريع عملية النشر.

يمكن لمتخصصي البيانات تنظيم سير عملهم في شكل رسم بياني دوري موجه (DAG) للخطوات. يمكن أن تكون الخطوات كود بايثون عشوائي. في هذا المثال الافتراضي ، يقوم ناقل الحركة بتشغيل نسختين من النموذج على التوازي ويختار الإصدار الذي يحقق أعلى الدرجات.

وفقًا لفريق علوم البيانات في Netflix ، هناك العديد من الأطر الحالية ، مثل Apache Airflow أو Luigi ، التي تسمح بتنفيذ DAGs المكونة من كود Python التعسفي ، مع اختلاف أنه تم تضمينها الكثير من التفاصيل حول Metaflow.


اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

*

*

  1. المسؤول عن البيانات: ميغيل أنخيل جاتون
  2. الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
  3. الشرعية: موافقتك
  4. توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
  5. تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
  6. الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.