Big Data เป็นแนวคิดทางเทคโนโลยีที่เกี่ยวข้องกับการจัดการข้อมูลจำนวนมากมีโครงสร้างและไม่มีโครงสร้างซึ่งปัจจุบันได้รับการจัดการโดยภาคธุรกิจขนาดใหญ่เทคโนโลยีวิทยาศาสตร์และแม้แต่ภาครัฐ
แม้ว่าเมื่อพูดถึง Big Data ไม่ใช่จำนวนข้อมูลที่มีความสำคัญ แต่สิ่งที่องค์กรทำกับข้อมูล เนื่องจาก Big Data ซึ่งเป็นเทคโนโลยีที่เกี่ยวข้องสามารถวิเคราะห์เพื่อให้ได้แนวคิดที่นำไปสู่การตัดสินใจการเคลื่อนไหวและกลยุทธ์ที่ดีขึ้น และในแง่มุมนี้ ซอฟต์แวร์เสรี (SL) และโอเพ่นซอร์ส (CA) มีส่วนอย่างมากในเทคโนโลยีนี้เนื่องจากมีการนำแอปพลิเคชันที่พัฒนาแล้วจำนวนมากมาใช้ในรูปแบบการพัฒนานี้
ข้อมูลขนาดใหญ่และซอฟต์แวร์ฟรี
สำหรับผู้ที่มีฝีมือในด้านศิลปะนั้นคงจะทราบกันดีอยู่แล้วว่า ซอฟต์แวร์เสรีซึ่งเป็นรูปแบบการพัฒนาตามปรัชญาของซอฟต์แวร์นั้นมีพื้นฐานมาจากการสร้างเทคโนโลยีซึ่งส่วนใหญ่เป็นผลิตภัณฑ์ซอฟต์แวร์ซึ่งจะสามารถใช้แก้ไขและแจกจ่ายได้อย่างอิสระ และโอเพ่นซอร์สนั้นเป็นองค์ประกอบสำคัญในการพัฒนาซอฟต์แวร์เสรีเนื่องจากมุ่งเน้นไปที่ข้อดีในทางปฏิบัติของการพัฒนานี้ที่มีพลวัตมากกว่าจริยธรรมของเสรีภาพในผลิตภัณฑ์และพลเมือง
ดังนั้นในขณะที่ SL / CA มีส่วนช่วยในการดำเนินการ Big Data, Big Data ช่วยเติมเต็มสิ่งเหล่านี้ในทางอ้อมไม่เพียง แต่เพื่อประโยชน์ของการขยายตัวที่รวดเร็วของการพัฒนาทางเทคโนโลยีเท่านั้น แต่ยังรวมถึงเสรีภาพในการเข้าถึงข้อมูลที่ Big Data นำมาด้วย
ข้อมูลขนาดใหญ่คืออะไร?
แนวความคิดของ
สำหรับหนึ่งในความยอดเยี่ยมของซอฟต์แวร์และการพัฒนาเทคโนโลยี ไอบีเอ็ม, Big Data คือ:
« ... เทคโนโลยีที่เปิดประตูสู่แนวทางใหม่ในการทำความเข้าใจและการตัดสินใจซึ่งใช้ในการอธิบายข้อมูลจำนวนมหาศาล (ที่มีโครงสร้างไม่มีโครงสร้างและกึ่งโครงสร้าง) ซึ่งจะใช้เวลามากเกินไปและมีราคาแพงมาก โหลดลงในฐานข้อมูลเชิงสัมพันธ์เพื่อการวิเคราะห์
เป้าหมาย
Big Data เป็นเทคโนโลยีที่ถือกำเนิดขึ้นโดยมีจุดประสงค์เพื่อให้ครอบคลุมการวิเคราะห์ข้อมูลทั้งหมดกล่าวคือครอบคลุมทั้งสิ่งที่มีอยู่และได้รับการแก้ไขด้วยเทคโนโลยีปัจจุบันและที่แตกต่างกันตลอดจนสิ่งที่ไม่สามารถแก้ไขได้ด้วยเทคโนโลยีที่มีอยู่เช่น การจัดเก็บและการจัดการข้อมูลจำนวนมาก ที่มีลักษณะเฉพาะเจาะจงมาก
Datos
ข้อมูลราคาเสนอจัดการปริมาณข้อมูลที่มักกำหนดโดยลักษณะต่อไปนี้:
- ปริมาณ: ขนาดของข้อมูลจากหลายแหล่ง
- ความเร็ว: ความเร็วในการเข้าถึงและจัดการข้อมูลจากหลายแหล่ง
- ความหลากหลาย: รูปแบบของข้อมูลที่วิเคราะห์จากหลายแหล่ง
นั่นคือ ปริมาณข้อมูลที่โดยทั่วไปประกอบด้วยข้อมูลที่มีโครงสร้างกึ่งโครงสร้างและไม่มีโครงสร้างและได้รับการจัดการในปริมาณมากซึ่งมักจะอธิบายด้วยคำนำหน้าปริมาณสูงเช่น: Tera, Peta หรือ Exa เป็นต้น
และจากแหล่งข้อมูลทุกประเภทเช่นอินเทอร์เน็ต (เครือข่ายสังคมสื่อดิจิทัลเว็บไซต์และฐานข้อมูล) ฮาร์ดแวร์ (โทรศัพท์มือถือเครื่องเล่นมัลติมีเดียระบบกำหนดตำแหน่งเซ็นเซอร์ดิจิทัลสำหรับพลเรือนและอุตสาหกรรมเป็นต้น) และ องค์กร (ภาคเอกชนและภาครัฐพาณิชย์รัฐบาลและชุมชน)
ความสำคัญ
อะไรทำให้ Big Data เป็นเทคโนโลยีที่มีประโยชน์สำหรับองค์กร (ภาคเอกชนและภาครัฐพาณิชย์รัฐบาลและชุมชน) เป็นความจริงที่ให้ข้อมูลที่มีค่า หลายครั้งนั้นเป็นคำตอบที่ถูกต้องและเชื่อถือได้สำหรับคำถามที่ยังไม่เคยถาม สำหรับสถานการณ์หรือปัญหาบางอย่าง. นั่นคือประโยชน์ของมันมักจะเห็นในแง่มุมที่มักเกิดจากข้อมูลเดียวกันที่รวบรวมและจัดการ
การประมวลผลข้อมูลจำนวนมากช่วยให้ข้อมูลที่ประมวลผลมีรูปร่างหรือทดสอบได้ง่ายขึ้นด้วยวิธีที่เหมาะสมที่สุด หรือระบุที่ผู้ดูแลระบบพิจารณาว่าเหมาะสม สิ่งนี้ช่วยให้องค์กรที่ใช้ Big Data สามารถระบุปัญหาได้อย่างเข้าใจมากขึ้น
การรวบรวมข้อมูลจำนวนมากและการวิเคราะห์ในภายหลังเพื่อค้นหาแนวโน้มภายในทำให้องค์กรมีประสิทธิภาพและประสิทธิผลมากขึ้นโดยการเคลื่อนย้ายอย่างรวดเร็วราบรื่นและทันเวลามากกว่า นอกจากนี้ยังช่วยให้พวกเขาสามารถกำจัดส่วนที่เป็นปัญหาก่อนที่ปัญหาจะเข้าครอบงำทำให้พวกเขาเสียประโยชน์ชื่อเสียงหรือการสนับสนุน
ความได้เปรียบ
Big Data ช่วยให้องค์กรจัดการข้อมูลได้ดีขึ้นมากซึ่งส่งผลให้สามารถระบุโอกาสเชิงบวกหรือเชิงประสิทธิผลใหม่ ๆ สำหรับสมาชิก (ลูกค้าหรือประชาชน) และสิ่งนี้นำไปสู่การกระทำที่ชาญฉลาดและมีประสิทธิภาพมากขึ้นประหยัดเป็นชั่วโมง / แรงงานและเงินซึ่งมักแปลเป็นความสุขสำหรับทุกคนที่เกี่ยวข้อง เมื่อใช้ข้อมูลขนาดใหญ่มักจะเพิ่มมูลค่าให้กับกิจกรรมที่ดำเนินการด้วยวิธีต่อไปนี้:
- ลดต้นทุน: ในการจัดเก็บและจัดการข้อมูลจำนวนมาก
- ลดเวลา: ประสิทธิภาพและประสิทธิผลในการตัดสินใจมากขึ้น
- ผลิตภัณฑ์และบริการใหม่: ด้วยความสามารถในการวัดและคาดการณ์ความต้องการและปัญหาของผู้ใช้ (ลูกค้าและ / หรือประชาชน) ความพึงพอใจของพวกเขาจึงเพิ่มขึ้น
ผลประโยชน์
Big Data ที่ใช้กันอย่างแพร่หลายมักจะสามารถระบุสาเหตุของความล้มเหลวปัญหาและข้อบกพร่องได้เกือบจะเรียลไทม์ อย่างไรก็ตามก็ต้องคำนึงว่า เทคโนโลยี Big Data ไม่ใช่ยาครอบจักรวาล. ดังนั้นการอ้างถึงเทคโนโลยีที่ยอดเยี่ยมอีกอย่างเช่น oracle, สามารถเพิ่มได้ว่า:
“ การระบุคุณค่าของข้อมูลขนาดใหญ่ไม่ได้หมายถึงการวิเคราะห์เท่านั้น (ซึ่งเป็นข้อดีในตัวเองอยู่แล้ว) เป็นกระบวนการค้นพบทั้งหมดที่ต้องการให้นักวิเคราะห์ผู้ใช้ทางธุรกิจและผู้บริหารถามคำถามที่ถูกต้องระบุรูปแบบตัดสินใจอย่างมีข้อมูลและคาดการณ์พฤติกรรม
แอปพลิเคชัน SL / CA สำหรับข้อมูลขนาดใหญ่
ในบรรดาซอฟต์แวร์เสรีและแอปพลิเคชันโอเพ่นซอร์สที่ควรค่าแก่การกล่าวถึงสำหรับการวิจัยการทดสอบและการใช้งาน ได้แก่ :
ที่เกี่ยวข้อง
- อาปาเช่ ฮาดูป: แพลตฟอร์มโอเพ่นซอร์สซึ่งประกอบด้วย Hadoop Distributed File System (HDFS), Hadoop MapReduce และ Hadoop Common
- รว์: โครงการ Apache ที่ให้บริการการทำให้เป็นอนุกรม
- คาสซานดรา: กระจายฐานข้อมูลที่ไม่ใช่เชิงสัมพันธ์ตามรูปแบบการจัดเก็บของ ซึ่งพัฒนาใน Java
- ชุควา: ซอฟต์แวร์ที่ออกแบบมาสำหรับการรวบรวมและวิเคราะห์บันทึกเหตุการณ์ขนาดใหญ่
- ฟลูม: ซอฟต์แวร์ที่มีหน้าที่หลักในการนำข้อมูลจากแหล่งหนึ่งไปยังตำแหน่งอื่น
- เอชเบส: ฐานข้อมูลคอลัมน์ (ฐานข้อมูลเชิงคอลัมน์) ที่ทำงานบน HDFS
- รัง: โครงสร้างพื้นฐาน "คลังข้อมูล" ที่อำนวยความสะดวกในการบริหารจัดการข้อมูลจำนวนมากที่จัดเก็บในสภาพแวดล้อมแบบกระจาย
- จาคล: ภาษาที่ใช้งานได้และประกาศที่อนุญาตให้ใช้ประโยชน์จากข้อมูลในรูปแบบ JSON ที่ออกแบบมาเพื่อประมวลผลข้อมูลจำนวนมาก
- ลูซีน: ซอฟต์แวร์ที่จัดเตรียมไลบรารีสำหรับการสร้างดัชนีและการค้นหาข้อความ
- อูซี่: โครงการโอเพ่นซอร์สที่ช่วยลดความซับซ้อนของขั้นตอนการทำงานและการประสานงานระหว่างแต่ละกระบวนการ
- หมู: ซอฟต์แวร์ที่ช่วยให้ผู้ใช้ Hadoop มุ่งเน้นไปที่การวิเคราะห์ชุดข้อมูลทั้งหมดและใช้เวลาน้อยลงในการสร้างโปรแกรม MapReduce
- ผู้ดูแลสวนสัตว์: โครงสร้างพื้นฐานและบริการแบบรวมศูนย์ที่แอปพลิเคชันสามารถใช้เพื่อให้แน่ใจว่ากระบวนการในคลัสเตอร์เป็นแบบอนุกรมหรือซิงโครไนซ์
อิสระ
อื่น ๆ ที่รู้จักกันดี แต่ไม่เกี่ยวข้องกับแพลตฟอร์มโอเพนซอร์ส Hadoop ได้แก่ :
- ยางยืดค้นหา: เครื่องมือค้นหาและวิเคราะห์แบบข้อความเต็ม
- MongoDB: ฐานข้อมูล NoSQL ตามรูปแบบข้อมูลเอกสาร
- คาสซานดรา: โครงการโอเพนซอร์ส Apache ออกแบบมาสำหรับการดูแลฐานข้อมูล NoSQL
- โซฟาดีบี: ฐานข้อมูล NoSQL แบบโอเพ่นซอร์สตามมาตรฐานทั่วไปเพื่อการเข้าถึงที่ง่ายและความเข้ากันได้ของเว็บที่มีความหลากหลาย
- โซล: เครื่องมือค้นหาโอเพ่นซอร์สที่ใช้ไลบรารี Java ของโครงการ Lucene
เครื่องมือ RDBMS อื่น ๆ : MySQL Cluster และ VoltDB
ข้อสรุป
เวลาปัจจุบันของเรา (และในทันทีถัดไป) จมอยู่กับข้อมูลจำนวนมากและเพิ่มขึ้นเรื่อย ๆ ซึ่งมีข้อมูลมากมายที่จะกล่าวโดยรวมมากกว่าทีละราย ดังนั้นการใช้เทคโนโลยี Big Data ในปัจจุบันและอนาคตอันใกล้จะช่วยให้สังคมโดยรวมของมนุษยชาติค้นพบสิ่งที่ไม่มีที่สิ้นสุด (เหตุการณ์หรือสิ่งประดิษฐ์) ซึ่งอาจต้องใช้เวลาหลายปีในการค้นพบตัวเองโดยไม่ต้องใช้ประโยชน์ ของสิ่งนี้
ในขณะที่ Big Data และเครื่องมือช่วยให้การวิเคราะห์มีความเร็วเพียงพอ วิเคราะห์ผลลัพธ์ที่ได้รับอย่างรวดเร็วและทำซ้ำหลาย ๆ ครั้งตามความจำเป็นในเวลาอันสั้นเพื่อค้นหามูลค่าที่แท้จริงหรือใกล้เคียงที่สุดที่คุณพยายามจะไปถึง หากคุณพบว่าหัวข้อ Big Data น่าสนใจคุณสามารถขยายหัวข้อเพิ่มเติมได้อีกเล็กน้อยโดยอ่านรายงานนี้จาก BBVA.