Metaflow: framework da Netflix para projetos de aprendizado de máquina

Metafluxo

Metaflow é uma estrutura Netflix escrito em Python que foi projetado para facilitar a execução de projetos de aprendizado de máquina de que são formados como um protótipo para produção. Essa ferramenta tem como objetivo ajudar os especialistas em dados a implementar modelos de aprendizado de máquina mais rápidos para produção.

A Netflix usou o Metaflow internamente nos últimos dois anos para criar e gerenciar centenas de projetos de ciência de dados, desde processamento de linguagem natural até pesquisa operacional. Para ajudar cientistas com dados de todas as empresas, A equipe de ciência de dados da Netflix abriu sua biblioteca Metaflow, de acordo com um post de blog que a equipe divulgou na última terça-feira.

Metafluxo é uma parte essencial da infraestrutura de aprendizado de máquina "centrada no ser humano" que a equipe de ciência de dados usa para criar e implementar fluxos de trabalho como parte de seus negócios.

A Netflix usa aprendizado de máquina em todos os aspectos de seus negóciosda análise de cenários à otimização de cronogramas de produção, previsão de churn, preços, tradução e otimização.

Metaflow é uma estrutura de nuvem nativa, que aproveita a elasticidade do design da nuvem para computação e armazenamento. E Netflix, que tem sido um dos maiores usuários da Amazon Web Services (AWS) durante muitos anos, acumulou muita experiência operacional e conhecimento de computação em nuvem, especialmente AWS. Sem surpresa, como parte da estrutura de código aberto, a empresa fez parceria com a AWS para integrar perfeitamente o Metaflow com os vários serviços da AWS.

Metaflow se integra com muitos serviços AWS, incluindo a capacidade de visualizar todos os códigos e dados no Amazon S3, que a Netflix usa como seu "data lake". Como resultado, a empresa tem uma solução completa para gerenciamento de versões e acompanhamento de experimentos sem intervenção do usuário. Esse recurso deve ajudar os usuários a dimensionar modelos rapidamente usando serviços de armazenamento, computação e aprendizado de máquina da AWS.

Aprendizado de máquina

Além disso, o Metaflow vem com um cliente S3 de alto desempenho que pode fazer upload de dados a até 10 Gbps. De acordo com a Netflix, "Este cliente tem sido extremamente popular entre nossos usuários, que agora podem carregar dados em seus fluxos de trabalho uma ordem de magnitude mais rápido do que antes, permitindo ciclos de iteração mais rápidos."

De acordo com a postagem do blog, A Netflix diz que partiu de uma observação-chave para levar à implementação de seu framework. Na verdade, de acordo com a empresa, a maioria de seus especialistas em dados não tinha nada contra escrever código Python.

O que eles queriam era ser capaz de preservar a liberdade de usar código arbitrário e idiomático para expressar sua lógica de negócios. Esses cientistas de dados gostam de expressar a lógica de negócios por meio do código Python, mas não querem perder seu tempo.

“No entanto, eles não querem perder muito tempo pensando sobre hierarquias de objetos, problemas de empacotamento ou manipulando APIs obscuras não relacionadas ao seu trabalho. A infraestrutura deve permitir que eles exerçam sua liberdade como especialistas em dados, mas deve fornecer proteções e andaimes suficientes para que eles não tenham que se preocupar muito com a arquitetura de software ”, diz a postagem do blog da Netflix.

A partir desta observação, a ideia por trás do Metaflow é dar aos especialistas em dados da Netflix a oportunidade de ver logo se um modelo de protótipo falhará na produção, o que lhes permitiria resolver quaisquer problemas e, idealmente, acelerar a implantação.

Os especialistas em dados podem estruturar seu fluxo de trabalho na forma de um gráfico acíclico direcionado (DAG) de etapas. As etapas podem ser código Python arbitrário. Neste exemplo hipotético, a transmissão executa duas versões de um modelo em paralelo e escolhe aquela que obtém a pontuação mais alta.

De acordo com a equipe de ciência de dados da Netflix, existem muitos frameworks, como Apache Airflow ou Luigi, que permitem a execução de DAGs compostos de código Python arbitrário, com a diferença de que foram incluídos muitos detalhes sobre Metaflow.


Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: Miguel Ángel Gatón
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.