Metaflow: framework Netflix dla projektów uczenia maszynowego

Metaprzepływ

Metaflow to framework Netflix napisany w Pythonie, który został zaprojektowany aby ułatwić wykonywanie projektów uczenia maszynowego z które są utworzone jako prototyp do produkcji. To narzędzie ma pomóc specjalistom ds. Danych we wdrażaniu szybszych modeli uczenia maszynowego na potrzeby produkcji.

Netflix korzystał z Metaflow wewnętrznie przez ostatnie dwa lata do tworzenia i zarządzania setkami projektów nauki o danych, od przetwarzania języka naturalnego po badania operacyjne. Aby pomóc naukowcom z danymi wszystkich firm, Zespół analityków danych Netflix otworzył swoją bibliotekę Metaflow, zgodnie z postem na blogu, który zespół opublikował w zeszły wtorek.

Metaprzepływ Jest to kluczowy element infrastruktury uczenia maszynowego „zorientowanej na człowieka”, której zespół data science wykorzystuje do tworzenia i wdrażania przepływów pracy w ramach swojej działalności.

Netflix wykorzystuje uczenie maszynowe we wszystkich aspektach swojej działalnościod analizy scenariuszy do optymalizacji harmonogramów produkcji, prognozowania rezygnacji, wyceny, tłumaczenia i optymalizacji.

Metaflow to natywna platforma chmurowa, która wykorzystuje elastyczność projektowania chmury zarówno pod kątem przetwarzania, jak i przechowywania. I Netflix, który był jednym z największych użytkowników Amazon Web Services (AWS) przez wiele lat, ma duże doświadczenie operacyjne oraz znajomość przetwarzania w chmurze, zwłaszcza AWS. Nic dziwnego, że w ramach platformy open source firma nawiązała współpracę z AWS, aby bezproblemowo zintegrować Metaflow z różnymi usługami AWS.

Metaflow integruje się z wieloma usługami AWS, w tym możliwość podglądu całego kodu i danych w Amazon S3, którego Netflix wykorzystuje jako „jezioro danych”. W rezultacie firma posiada kompletne rozwiązanie do zarządzania wersjami i śledzenia eksperymentów bez interwencji użytkownika. Ta funkcja powinna pomóc użytkownikom w szybkim skalowaniu modeli przy użyciu usług obliczeniowych, pamięci masowej i uczenia maszynowego AWS.

Nauczanie maszynowe

Dodatkowo Metaflow jest wyposażony w wysokowydajnego klienta S3, który może przesyłać dane z prędkością do 10 Gb / s. Według Netflix: „Ten klient cieszy się ogromną popularnością wśród naszych użytkowników, którzy mogą teraz ładować dane do swoich przepływów pracy o rząd wielkości szybciej niż wcześniej, umożliwiając szybsze cykle iteracji”.

Według wpisu na blogu Netflix twierdzi, że rozpoczął się od kluczowej obserwacji, która doprowadziła do wdrożenia jego struktury. W rzeczywistości, według firmy, większość jej specjalistów od danych nie miała nic przeciwko pisaniu kodu w Pythonie.

Chcieli zachować swobodę używania arbitralnego i idiomatycznego kodu do wyrażania swojej logiki biznesowej. Ci analitycy danych lubią wyrażać logikę biznesową za pomocą kodu Pythona, ale nie chcą tracić czasu.

„Jednak nie chcą spędzać zbyt wiele czasu na myśleniu o hierarchiach obiektów, problemach z pakowaniem lub obsługiwaniu niejasnych interfejsów API niezwiązanych z ich pracą. Infrastruktura powinna umożliwiać im korzystanie z wolności jako specjalistów od danych, ale powinna zapewniać wystarczającą ilość poręczy i rusztowań, aby nie musieli zbytnio martwić się architekturą oprogramowania ”- czytamy w blogu Netflix.

Z tej obserwacji idea stojąca za Metaflow jest umożliwienie specjalistom od danych Netflix zobacz wcześnie, czy prototypowy model zawiedzie w produkcjico pozwoliłoby im rozwiązać wszelkie problemy i najlepiej przyspieszyć wdrożenie.

Specjaliści od danych mogą uporządkować swój przepływ pracy w postaci skierowanego acyklicznego wykresu (DAG) kroków. Kroki mogą być dowolnym kodem Pythona. W tym hipotetycznym przykładzie transmisja prowadzi równolegle dwie wersje modelu i wybiera tę, która uzyska najwyższą ocenę.

Według zespołu analityków danych Netflix istnieje wiele istniejących frameworków, takich jak Apache Airflow lub Luigi, które umożliwiają wykonywanie DAGów składających się z dowolnego kodu Pythona, z tą różnicą, że zostały one uwzględnione wiele szczegółów na temat Metaflow.


Zostaw swój komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

*

*

  1. Odpowiedzialny za dane: Miguel Ángel Gatón
  2. Cel danych: kontrola spamu, zarządzanie komentarzami.
  3. Legitymacja: Twoja zgoda
  4. Przekazywanie danych: Dane nie będą przekazywane stronom trzecim, z wyjątkiem obowiązku prawnego.
  5. Przechowywanie danych: baza danych hostowana przez Occentus Networks (UE)
  6. Prawa: w dowolnym momencie możesz ograniczyć, odzyskać i usunąć swoje dane.