Metaflow: структура Netflix для проектів машинного навчання

Метапотік

Metaflow - це фреймворк Netflix написаний на Python, який був розроблений для полегшення виконання проектів машинного навчання з які утворюються як прототип до виробництва. Цей інструмент призначений допомогти спеціалістам з обробки даних впровадити більш швидкі моделі машинного навчання для виробництва.

Протягом останніх двох років Netflix внутрішньо використовував Metaflow для створення та управління сотнями проектів з обробки даних від обробки природної мови до досліджень операцій. На допомогу вченим з даними всіх компаній, Команда дослідників даних Netflix відкрила свою бібліотеку Metaflow, згідно з повідомленням у блозі, яке команда опублікувала минулого вівторка.

Метапотік це ключова частина «орієнтованої на людину» інфраструктури машинного навчання, яку команда з обробки даних використовує для побудови та впровадження робочих процесів як частини свого бізнесу.

Netflix використовує машинне навчання у всіх аспектах свого бізнесувід аналізу сценаріїв до оптимізації графіків виробництва, прогнозування відтоку, ціноутворення, перекладу та оптимізації.

Metaflow - це рідна хмарна структура, що використовує проектну еластичність хмари як для обчислень, так і для зберігання. І Netflix, який був одним з найбільших користувачів Amazon Web Services (AWS) протягом багатьох років, накопичив великий досвід експлуатації та знання хмарних обчислень, особливо AWS. Як і слід було очікувати, як частина фреймворку з відкритим кодом, компанія співпрацює з AWS, щоб легко інтегрувати Metaflow з різними послугами AWS.

Metaflow інтегрується з багатьма службами AWS, включаючи можливість попереднього перегляду всього коду та даних в Amazon S3, що Netflix використовує як "озеро даних". Як результат, компанія має повне рішення для управління версіями та відстеження експериментів без втручання користувача. Ця можливість повинна допомогти користувачам швидко масштабувати моделі за допомогою служб зберігання, обчислень та машинного навчання AWS.

Машинне навчання

Крім того, Metaflow постачається з високопродуктивним клієнтом S3, який може завантажувати дані зі швидкістю до 10 Гбіт / с. За словами Netflix, "Цей клієнт був надзвичайно популярний серед наших користувачів, які тепер можуть завантажувати дані у свої робочі процеси на порядок швидше, ніж раніше, що дозволяє пришвидшити цикли ітерацій".

Згідно з повідомленням у блозі, Netflix заявляє, що це почалося з ключового спостереження, щоб призвести до впровадження його структури. Насправді, на думку компанії, більшість її фахівців з обробки даних не мали нічого проти написання коду Python.

Вони хотіли мати можливість зберегти свободу використання довільного та ідіоматичного коду для вираження своєї ділової логіки. Ці вчені-дані люблять виражати ділову логіку за допомогою коду Python, але вони не хочуть витрачати ваш час.

«Однак вони не хочуть витрачати занадто багато часу на роздуми про ієрархію об’єктів, проблеми з упаковкою або обробку незрозумілих API, не пов’язаних з їх роботою. Інфраструктура повинна дозволити їм реалізовувати свою свободу як спеціалісти з обробки даних, але вона повинна забезпечити достатньо захисних огороджень та будівельних лісів, щоб їм не довелося занадто турбуватися про архітектуру програмного забезпечення ", - йдеться у дописі блогу Netflix.

З цього спостереження ідея Metaflow полягає в тому, щоб надати спеціалістам з даних Netflix можливість на ранньому етапі переконайтеся, що модель прототипу не вийде з виробництва, що дозволило б їм вирішити будь-які проблеми, а в ідеалі - прискорити розгортання.

Фахівці з питань даних можуть структурувати свій робочий процес у вигляді спрямованого ациклічного графіку (DAG) кроків. Кроками може бути довільний код Python. У цьому гіпотетичному прикладі передача паралельно запускає дві версії моделі і вибирає ту, яка має найвищий бал.

За даними команди дослідників даних Netflix, існує багато існуючих фреймворків, таких як Apache Airflow або Luigi, які дозволяють виконувати DAG, складені з довільного коду Python, з тією різницею, що вони були включені багато подробиць про Metaflow.


Залиште свій коментар

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

*

*

  1. Відповідальний за дані: Мігель Анхель Гатон
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.