Metaflow: Khuôn khổ của Netflix cho các dự án máy học

dòng chảy meta

Metaflow là một khung Netflix được viết bằng Python đã được thiết kế để tạo điều kiện thực hiện các dự án học máy từ được hình thành như một nguyên mẫu để sản xuất. Công cụ này nhằm giúp các chuyên gia dữ liệu triển khai các mô hình máy học nhanh hơn để sản xuất.

Netflix đã sử dụng Metaflow nội bộ trong hai năm qua để tạo và quản lý hàng trăm dự án khoa học dữ liệu từ xử lý ngôn ngữ tự nhiên đến nghiên cứu hoạt động. Để giúp các nhà khoa học với dữ liệu từ tất cả các công ty, Nhóm khoa học dữ liệu của Netflix đã mở thư viện Metaflow của họ, theo một bài đăng trên blog mà nhóm phát hành vào thứ Ba tuần trước.

dòng chảy meta nó là một phần quan trọng của cơ sở hạ tầng học máy "lấy con người làm trung tâm" mà nhóm khoa học dữ liệu sử dụng để xây dựng và triển khai quy trình công việc như một phần của hoạt động kinh doanh của họ.

Netflix sử dụng máy học trong tất cả các khía cạnh kinh doanh của mìnhtừ phân tích kịch bản đến tối ưu hóa lịch trình sản xuất, dự báo thời gian, định giá, dịch thuật và tối ưu hóa.

Metaflow là một khuôn khổ đám mây gốc, thúc đẩy độ co giãn thiết kế của đám mây cho cả tính toán và lưu trữ. VÀ Netflix, đã là một trong những người dùng lớn nhất của Amazon Web Services (AWS) trong nhiều năm, đã tích lũy được nhiều kinh nghiệm hoạt động và kiến ​​thức về điện toán đám mây, đặc biệt là AWS. Không có gì ngạc nhiên khi là một phần của khung mã nguồn mở, công ty đã hợp tác với AWS để tích hợp liền mạch Metaflow với các dịch vụ AWS khác nhau.

Metaflow tích hợp với nhiều dịch vụ AWS, bao gồm khả năng xem trước tất cả mã và dữ liệu trong Amazon S3, mà Netflix sử dụng làm "hồ dữ liệu". Nhờ đó, công ty có một giải pháp hoàn chỉnh để quản lý các phiên bản và theo dõi các thử nghiệm mà không cần sự can thiệp của người dùng. Khả năng này sẽ giúp người dùng mở rộng quy mô mô hình nhanh chóng bằng cách sử dụng các dịch vụ lưu trữ, máy tính và máy học AWS.

Máy học

Ngoài ra, Metaflow đi kèm với một ứng dụng khách S3 hiệu suất cao có thể tải lên dữ liệu với tốc độ lên đến 10Gbps. Theo Netflix, "Ứng dụng khách này đã rất phổ biến với người dùng của chúng tôi, những người hiện có thể tải dữ liệu vào quy trình công việc của họ nhanh hơn trước, cho phép chu kỳ lặp lại nhanh hơn."

Theo bài đăng trên blog, Netflix cho biết họ bắt đầu từ một quan sát chính để dẫn đến việc triển khai khuôn khổ của nó. Trên thực tế, theo công ty, hầu hết các chuyên gia dữ liệu của họ không có gì chống lại việc viết mã Python.

Những gì họ muốn là có thể duy trì quyền tự do sử dụng mã tùy ý và thành ngữ để thể hiện logic kinh doanh của họ. Các nhà khoa học dữ liệu này thích thể hiện logic kinh doanh thông qua mã Python, nhưng họ không muốn lãng phí thời gian của bạn.

“Tuy nhiên, họ không muốn mất quá nhiều thời gian để suy nghĩ về phân cấp đối tượng, các vấn đề đóng gói hoặc xử lý các API tối nghĩa không liên quan đến công việc của họ. Cơ sở hạ tầng phải cho phép họ thực hiện quyền tự do của mình với tư cách là chuyên gia dữ liệu, nhưng nó phải cung cấp đủ lan can và giàn giáo để họ không phải lo lắng quá nhiều về kiến ​​trúc phần mềm, ”bài đăng trên blog Netflix.

Từ quan sát này, ý tưởng đằng sau Metaflow là cung cấp cho các chuyên gia dữ liệu Netflix cơ hội để xem sớm liệu một mô hình nguyên mẫu có bị lỗi trong quá trình sản xuất không, điều này sẽ cho phép họ giải quyết mọi vấn đề và lý tưởng là đẩy nhanh việc triển khai.

Các chuyên gia dữ liệu có thể cấu trúc quy trình làm việc của họ dưới dạng một biểu đồ vòng có hướng (DAG) các bước. Các bước có thể là mã Python tùy ý. Trong ví dụ giả định này, bộ truyền chạy song song hai phiên bản của một mô hình và chọn một phiên bản có điểm cao nhất.

Theo nhóm khoa học dữ liệu Netflix, có nhiều khuôn khổ hiện có, chẳng hạn như Apache Airflow hoặc Luigi, cho phép thực thi các DAG được tạo thành từ mã Python tùy ý, với sự khác biệt là chúng đã được đưa vào rất nhiều chi tiết trên Metaflow.


Hãy là người đầu tiên nhận xét

Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.