Databricks ออกรหัสสำหรับ Delta Lake และ MLflow

ระหว่างการประชุมสุดยอดข้อมูล + AI Databricks เปิดตัว ผ่านโฆษณา ซึ่งจะทำให้เฟรมเวิร์กการจัดเก็บข้อมูลของ Delta Lake ว่างทั้งหมด โอเพ่นซอร์สภายใต้การดูแลของ Linux Foundation

เป็นมูลค่าการกล่าวขวัญว่า Delta Lake เป็นโครงการ Linux Foundation ตั้งแต่เดือนตุลาคม 2019 และเป็นเลเยอร์การจัดเก็บข้อมูลแบบเปิดที่นำความน่าเชื่อถือและประสิทธิภาพมาสู่ data lake ผ่าน "สถาปัตยกรรมทะเลสาบ" ซึ่งเป็นคลังข้อมูลที่ดีที่สุดและ data lakes ภายใต้หลังคาเดียวกัน

ในช่วงสามปีที่ผ่านมา Lakehouses ได้กลายเป็นโซลูชันที่น่าสนใจสำหรับวิศวกรข้อมูล นักวิเคราะห์ และนักวิทยาศาสตร์ข้อมูลที่ต้องการความยืดหยุ่นในการรันปริมาณงานที่แตกต่างกันบนข้อมูลเดียวกันโดยมีความซับซ้อนน้อยที่สุดและไม่มีความซ้ำซ้อน ตั้งแต่การวิเคราะห์ตั้งแต่ข้อมูลไปจนถึงการพัฒนาเครื่องเรียนรู้ . Delta Lake เป็นรูปแบบบ้านริมทะเลสาบที่ใช้มากที่สุดในโลก และปัจจุบันมีการดาวน์โหลดมากกว่า 7 ล้านครั้งต่อเดือน (และเพิ่มขึ้นเรื่อยๆ)

“ตั้งแต่เริ่มต้น Databricks มุ่งมั่นสู่มาตรฐานแบบเปิดและชุมชนโอเพ่นซอร์ส เราได้สร้าง สนับสนุน ส่งเสริมการเติบโต และบริจาคนวัตกรรมที่มีผลกระทบมากที่สุดในเทคโนโลยีโอเพ่นซอร์สสมัยใหม่” อาลี กอดส์ กล่าว

นั่นหมายความว่า จะไม่มีความแตกต่างในการใช้งานระหว่างแบรนด์ Databricks ของ Delta Lake และเวอร์ชันโอเพ่นซอร์สอีกต่อไป. บริษัทกล่าวว่าจะปล่อยการปรับปรุงล่าสุดในลักษณะเดียวกันสำหรับแพลตฟอร์มปฏิบัติการการเรียนรู้ของเครื่อง MLflow และเฟรมเวิร์กการวิเคราะห์โอเพ่นซอร์ส Apache Spark Databricks ได้เปิดตัวคุณสมบัติใหม่หลายอย่างใน Data Lake หลักของ Lakehouse

“ก่อนที่เดลต้าเลค เทคโนโลยีอย่าง Spark จะประมวลผลข้อมูลจำนวนมหาศาล เดลต้าเลคช่วยให้คุณประมวลผลเดลต้าขนาดเล็กที่มีการเปลี่ยนแปลงทั้งหมดที่จัดเก็บไว้ในประวัติศาสตร์ ดังนั้นคุณสามารถกลับไปกลับมาได้” Ali Ghodsi ผู้ร่วมก่อตั้ง Databricks และ CEO ของ Databricks กล่าว "นี่เป็นสิ่งสำคัญสำหรับเส้นทางการตรวจสอบและการปฏิบัติตามข้อกำหนด เพื่อให้คุณสามารถย้อนกลับและค้นหาการตัดสินใจที่คุณทำเมื่อปีที่แล้วได้"

นอกจากนี้ ควรสังเกตว่า Delta Lake เวอร์ชันใหม่ 2.0 มีประสิทธิภาพการสืบค้นที่ดีขึ้น และเป็นรากฐานบนพื้นฐานของมาตรฐานเปิด ผู้สมัครรุ่นวางจำหน่ายแล้วและคาดว่าจะวางจำหน่ายทั่วไปในปลายปีนี้

Databricks กล่าวว่า การอัปเดตสะท้อนให้เห็นถึงการมีส่วนร่วมจากนักพัฒนากว่า 6400 คน และสังเกตว่าคอมมิตทั้งหมดเพิ่มขึ้น 95% โดยจำนวนบรรทัดของโค้ดโดยเฉลี่ยต่อการคอมมิตเพิ่มขึ้น 900% จากปีที่แล้ว

บริษัท ยังประกาศเวอร์ชัน 2.0 ของ MLflow แพลตฟอร์มสำหรับจัดการโครงการแมชชีนเลิร์นนิง การเปิดตัว รวมถึงไปป์ไลน์ ซึ่งเป็นฟีเจอร์ใหม่ที่เพิ่มความเร็วและลดความซับซ้อนในการปรับใช้โมเดลแมชชีนเลิร์นนิง. ไปป์ไลน์จัดเตรียมเทมเพลตที่พร้อมสำหรับการผลิตที่กำหนดไว้ล่วงหน้าสำหรับนักวิทยาศาสตร์ข้อมูลตามประเภทของแบบจำลองที่พวกเขากำลังสร้าง เพื่อให้สามารถพัฒนาแบบจำลองได้รวดเร็วและเชื่อถือได้มากขึ้นโดยไม่ต้องมีการแทรกแซงจากวิศวกรการผลิต

ผู้ใช้สามารถกำหนดองค์ประกอบไปป์ไลน์ในไฟล์การกำหนดค่าและ MLflow Pipelines จะจัดการการดำเนินการโดยอัตโนมัติ บริษัท กล่าว Databricks ยังได้เพิ่มเทอร์มินัลโมเดลแบบไร้เซิร์ฟเวอร์เพื่อรองรับการโฮสต์โมเดลที่ใช้งานจริงโดยตรง เช่นเดียวกับแดชบอร์ดการตรวจสอบโมเดลในตัว เพื่อช่วยให้ทีมวิเคราะห์ประสิทธิภาพของโมเดลในโลกแห่งความเป็นจริง

“โครงการเดลต้าเลคกำลังประสบกับกิจกรรมมหัศจรรย์และแนวโน้มการเติบโตที่บ่งชี้ว่าชุมชนนักพัฒนาต้องการเป็นส่วนหนึ่งของโครงการ ความแข็งแกร่งของ Contributor เพิ่มขึ้น 60% ในปีที่แล้ว และการเติบโตของ Contributor ทั้งหมดเพิ่มขึ้น 95% และบรรทัดโค้ดเฉลี่ยต่อการคอมมิตเพิ่มขึ้น 900% เราเห็นความเร็วที่เพิ่มขึ้นนี้จากองค์กรที่มีส่วนร่วม เช่น Uber Technologies, Walmart และ CloudBees, Inc. เป็นต้น” —จิม เซมลิน กรรมการบริหารมูลนิธิลินุกซ์

ถ้าคุณเป็น สนใจทราบข้อมูลเพิ่มเติม เกี่ยวกับเรื่องนี้คุณสามารถตรวจสอบรายละเอียด ในลิงค์ต่อไปนี้.


แสดงความคิดเห็นของคุณ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

*

*

  1. ผู้รับผิดชอบข้อมูล: Miguel ÁngelGatón
  2. วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
  3. ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
  4. การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
  5. การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
  6. สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา