BlazingSQL ได้เปิดตัวซอร์สโค้ดสำหรับใช้ GPUS เพื่อเพิ่มความเร็วในการประมวลผลข้อมูล

โครงการโอเพนซอร์สใหม่ต้องการยกระดับการวิเคราะห์ไปอีกขั้นและเป็นผู้ที่อยู่เบื้องหลัง BlazingSQL เพิ่งประกาศว่าได้เปิดตัวซอร์สโค้ดสำหรับเอ็นจิ้น SQL ซึ่งใช้ใน GPU เพื่อเร่งความเร็วในการประมวลผลข้อมูล. BlazingSQL ไม่ใช่ DBMS ที่สมบูรณ์ แต่ถูกวางตำแหน่งเป็นเครื่องมือในการวิเคราะห์และประมวลผลชุดข้อมูลขนาดใหญ่ซึ่งเทียบได้กับงานของมันกับ Apache Spark

สำหรับผู้ที่ไม่คุ้นเคยกับ BlazingSQL ควรทราบ นี่คือเอ็นจิ้น SQL เร่ง GPU ที่สร้างขึ้นบนระบบนิเวศ RAPIDS ซึ่งเป็นชุดของไลบรารีซอฟต์แวร์โอเพนซอร์สสำหรับเรียกใช้การวิเคราะห์แบบ end-to-end และท่อส่งข้อมูลวิทยาศาสตร์บน GPU

ตามที่ทีมงานระบุ BlazingSQL ถูกสร้างขึ้นเพื่อจัดการกับค่าใช้จ่ายความซับซ้อนและการก้าวช้าที่ผู้ใช้พบเมื่อทำงานในแอสเซมบลีขนาดใหญ่ ของข้อมูล BlazingSQL เหมาะสำหรับการดำเนินการสืบค้นเชิงวิเคราะห์แต่ละชุดในชุดข้อมูลขนาดใหญ่ (หลายสิบกิกะไบต์) ที่จัดเก็บในรูปแบบตาราง (เช่นบันทึกสถิติ NetFlow เป็นต้น)

ในการทำงานกับ GPU จะใช้ชุดของไลบรารี RAPIDS abบางตัวได้รับการพัฒนาโดยการมีส่วนร่วมของ NVIDIA ทำให้คุณสามารถสร้างแอปพลิเคชันการประมวลผลและวิเคราะห์ข้อมูลที่ทำงานบนฝั่ง GPU ได้ทั้งหมด (อินเทอร์เฟซ Python มีไว้เพื่อใช้ CUDA แบบดั้งเดิมระดับต่ำและการคำนวณแบบขนาน)

BlazingSQL ให้ความสามารถในการใช้ SQL แทน API การประมวลผลข้อมูล cuUDF (ขึ้นอยู่กับ Apache Arrow) ที่ RAPIDS ใช้ BlazingSQL เป็นเลเยอร์เพิ่มเติมที่ทำงานบน cuDF และใช้ไลบรารี cuIO เพื่ออ่านข้อมูลจากดิสก์

แบบสอบถาม SQL คือ แปลเป็นการเรียกฟังก์ชัน cuUDF ซึ่งอนุญาตให้โหลดข้อมูลลงใน GPU และดำเนินการผสานรวมและกรองการดำเนินการกับพวกเขา รองรับการสร้างการกำหนดค่าแบบกระจายซึ่งครอบคลุม GPU หลายพันตัว

การใช้ SQL ช่วยให้ RAPIDS สามารถรวมเข้ากับระบบวิเคราะห์ที่มีอยู่ได้โดยไม่ต้องเขียนโปรเซสเซอร์ โดยไม่ต้องใช้การโหลดข้อมูลระดับกลางไปยัง DBMS เพิ่มเติมในขณะที่ยังรักษาความเข้ากันได้อย่างสมบูรณ์กับทุกส่วนของ RAPIDS แปลฟังก์ชันการทำงานที่มีอยู่เป็น SQL และรับรองประสิทธิภาพระดับ cuDF รวมถึงการสนับสนุนการทำงานร่วมกับไลบรารี XGBoost และ cuML เพื่อแก้ปัญหาการวิเคราะห์และการเรียนรู้ของเครื่อง

BlazingSQL สามารถเรียกใช้การสืบค้นจากไฟล์แบบแบนในรูปแบบ CSV และ Apache Parquet อยู่ในระบบเครือข่ายและระบบคลาวด์เช่น HDSF และ AWS S3 ถ่ายโอนผลลัพธ์ไปยังหน่วยความจำ GPU โดยตรง

ด้วยการทำงานแบบขนานบน GPU และการใช้หน่วยความจำวิดีโอที่เร็วขึ้นการดำเนินการค้นหาใน BlazingSQL จึงเร็วกว่า Apache Spark ถึง 20 เท่า

BlazingSQL ช่วยลดความยุ่งยากในการทำงานกับข้อมูลอย่างมาก - แทนที่จะเรียกใช้ฟังก์ชัน cuDF หลายร้อยครั้งคุณสามารถทำได้ด้วยแบบสอบถาม SQL เพียงคำเดียว

"BlazingSQL จัดการกับข้อกังวลของลูกค้าเหล่านี้ไม่เพียง แต่ด้วยเอ็นจิ้น SQL GPU แบบกระจายที่รวดเร็วเหลือเชื่อ แต่ยังให้ความสำคัญกับความเรียบง่ายด้วย" Rodrigo Aramburu ซีอีโอของ BlazingSQL เขียนไว้ในบล็อกถัดไป "ด้วยโค้ดเพียงไม่กี่บรรทัด BlazingSQL สามารถสืบค้นข้อมูลดิบของคุณไม่ว่าจะอยู่ที่ใดและทำงานร่วมกับ RAPIDS และชุดการวิเคราะห์ที่คุณมีอยู่"

BlazingSQL ช่วยให้ผู้ใช้สามารถค้นหาชุดข้อมูล Data Lake ขององค์กรได้โดยตรงในหน่วยความจำ GPU เป็น GPU DataFrame (GDF) GDF เป็นโครงการที่รองรับการทำงานร่วมกันระหว่างแอปพลิเคชัน GPU นอกจากนี้ยังกำหนดชั้นข้อมูลหน่วยความจำ GPU ทั่วไป

"ด้วยการใช้ประโยชน์จาก Apache Arrow บน GPU และการทำงานร่วมกับ Dask BlazingSQL จะขยายฟังก์ชันการทำงานแบบโอเพนซอร์สและขับเคลื่อนการทำงานร่วมกันในระบบนิเวศ Data Science ที่กำลังดำเนินไปอย่างรวดเร็ว"

สำหรับผู้ที่สนใจควรรู้ไว้ว่า รหัสถูกเขียนด้วย C ++ พร้อมกับอินเตอร์เฟส python สำหรับผู้ใช้ และโอเพ่นซอร์สอยู่ภายใต้ใบอนุญาต Apache 2.0

ลิงค์คือนี่


แสดงความคิดเห็นของคุณ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

*

*

  1. ผู้รับผิดชอบข้อมูล: Miguel ÁngelGatón
  2. วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
  3. ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
  4. การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
  5. การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
  6. สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา