Metaflow: Netflix's ramme for maskinlæringsprojekter

Metaflow

Metaflow er en Netflix-ramme skrevet i Python, der blev designet at lette udførelsen af ​​maskinlæringsprojekter fra der er dannet som en prototype til produktion. Dette værktøj er beregnet til at hjælpe dataspecialister med at implementere hurtigere maskinlæringsmodeller til produktion.

Netflix har brugt Metaflow internt i de sidste to år at skabe og administrere hundredvis af datavidenskabelige projekter fra naturlig sprogbehandling til operationsforskning. At hjælpe forskere med data fra alle virksomheder, Netflix datavidenskabsteam har åbnet deres Metaflow-bibliotek, ifølge et blogindlæg, som holdet frigav sidste tirsdag.

Metaflow det er en vigtig del af den "menneskelige" maskinlæringsinfrastruktur, som datavidenskabsteamet bruger til at opbygge og implementere arbejdsgange som en del af deres forretning.

Netflix bruger maskinlæring i alle aspekter af sin virksomhedfra scenarianalyse til optimering af produktionsplaner, prognoser for churn, prisfastsættelse, oversættelse og optimering.

Metaflow er en native cloud-ramme, der udnytter skyens designelasticitet til både beregning og opbevaring. OG Netflix, som har været en af ​​de største brugere af Amazon Web Services (AWS) i mange år, har akkumuleret en masse driftserfaring og viden om cloud computing, især AWS. Som du ville forvente, som en del af open source-rammen, virksomheden samarbejdede med AWS for problemfrit at integrere Metaflow med de forskellige AWS-tjenester.

Metaflow integreres med mange AWS-tjenester, inklusive muligheden for at få vist alle koder og data i Amazon S3, som Netflix bruger som sin "datasø". Som et resultat har virksomheden en komplet løsning til styring af versioner og sporing af eksperimenter uden brugerintervention. Denne funktion skal hjælpe brugerne med hurtigt at skalere modeller, der bruger AWS-opbevaring, beregning og maskinindlæringstjenester.

Maskinelæring

Derudover leveres Metaflow med en højtydende S3-klient, der kan uploade data op til 10 Gbps. Ifølge Netflix, "Denne klient har været meget populær blandt vores brugere, som nu kan indlæse data i deres arbejdsgange i en størrelsesorden hurtigere end før, hvilket giver mulighed for hurtigere iterationscyklusser."

Ifølge blogindlægget, Netflix siger, at det startede fra en nøgleobservation for at føre til implementeringen af ​​dets rammer. Faktisk, ifølge virksomheden, havde de fleste af dets dataspecialister intet imod at skrive Python-kode.

Hvad de ønskede var at være i stand til at bevare friheden til at bruge vilkårlig og idiomatisk kode til at udtrykke deres forretningslogik. Disse dataforskere kan lide at udtrykke forretningslogik gennem Python-kode, men de ønsker ikke at spilde din tid.

”De ønsker imidlertid ikke at bruge for meget tid på at tænke på objekthierarkier, emballageproblemer eller håndtering af obskure API'er, der ikke er relateret til deres arbejde. Infrastrukturen skal give dem mulighed for at udøve deres frihed som dataspecialister, men det skal give tilstrækkeligt beskyttelseslister og stilladser, så de ikke behøver at bekymre sig for meget om softwarearkitektur, 'læser Netflix-blogindlægget.

Fra denne observation ideen bag Metaflow er at give Netflix dataspecialister mulighed for se tidligt, om en prototypemodel mislykkes i produktionen, som gør det muligt for dem at løse eventuelle problemer og ideelt set fremskynde implementeringen.

Dataspecialister kan strukturere deres arbejdsgang i form af en dirigeret acyklisk graf (DAG) af trin. Trinene kan være vilkårlig Python-kode. I dette hypotetiske eksempel kører transmissionen parallelt to versioner af en model og vælger den der scorer højest.

Ifølge Netflix datavidenskabsteam er der mange eksisterende rammer, såsom Apache Airflow eller Luigi, der tillader udførelse af DAG'er, der består af vilkårlig Python-kode med den forskel, at de er inkluderet masser af detaljer om Metaflow.


Indholdet af artiklen overholder vores principper for redaktionel etik. Klik på for at rapportere en fejl her.

Vær den første til at kommentere

Efterlad din kommentar

Din e-mailadresse vil ikke blive offentliggjort. Obligatoriske felter er markeret med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Control SPAM, management af kommentarer.
  3. Legitimering: Dit samtykke
  4. Kommunikation af dataene: Dataene vil ikke blive kommunikeret til tredjemand, undtagen ved juridisk forpligtelse.
  5. Datalagring: Database hostet af Occentus Networks (EU)
  6. Rettigheder: Du kan til enhver tid begrænse, gendanne og slette dine oplysninger.