Yandex פרסמה את קוד המקור של YTsaurus

YTsaurus

YTsaurus היא פלטפורמת אחסון ועיבוד מבוזרת ל-Big Data עם תמיכה במודל MapReduce.

לפני כמה ימים Yandex נחשפה באמצעות אחד שהוכרז פתיחת קוד המקור של פלטפורמת YTsauru, המשמש לאחסון מבוזר ועיבוד של כמויות גדולות של נתונים, התומך במניפולציה של נתונים באמצעות פרדיגמת MapReduce, מנוע שאילתות SQL, מערכת קבצים מבוזרת ואחסון NoSQL בפורמט מפתח-ערך.

YTsaurus בשימוש על תשתית Yandex להשתמש ביעילות בכוח המחשוב של מחשבי-על של החברה הפלטפורמה יכולה להתרחב לאשכולות של יותר מ-10 צמתים, המכסה עד מיליון מעבדים ואלפי GPUs (למשימות למידת מכונה).

מיכלים מבודדים הפועלים על שרתים פיזיים יכולים לשמש כיחידות אשכול. אחסון יכול להכיל אקס-בייט של נתונים הממוקמים על מדיות שונות כגון כוננים קשיחים, SSDs, NVME ו-RAM.

האשכול תומך בהוספה והסרה דינמית של צמתים, יתירות (ללא נקודת כשל בודדת), שכפול אוטומטי, שדרוגי תוכנת אשכול פעילים ושחזור יתירות אוטומטית במקרה של כשל בצמתים.

שלושה סוגים של אשכולות נתמכים: אשכולות מחשוב (לעיבוד מקביל מאסיבי של ביג דאטה באמצעות פעולות MapReduce), אשכולות לטבלאות ציר ואחסון ערכי מפתח, ואשכולות מבוזרים גיאוגרפית.

שירות מבוסס פלטפורמה יכול לספק את האמצעים לאחסון ועיבוד נתונים עבור עשרות אלפי משתמשים. יישומי YTsaurus אופייניים ב-Yandex כוללים אחסון מידע על משתמשי רשת מודעות, הדרכה של מודלים של למידת מכונה, יצירת אינדקס חיפוש ובניית מחסן נתונים עבור שירותים כמו Yandex Taxi. , Food, Lavka ומשלוחים

ממקרי השימוש הבסיסיים מוזכר:

  • עיבוד אצווה: MapReduce ו-SPYT (Apache Spark כמנוע מחשוב על נתונים ב-YTsaurus) לעיבוד נתונים מובנים ומובנים למחצה: רשומות או עסקאות פיננסיות.
  • ניתוח אד הוק: שאילתות מהירות באמצעות CHYT (קבוצה של שרתי ClickHouse בצמתי מחשוב YTsaurus) ללא העתקת נתונים למערכת ניתוח נפרדת. ODBC ו-JDBC עם יכולת לחבר BI להדמיה.
  • משימות OLTP: עבודה בעסקאות בזמן אמת עם אחסון ערך מפתח: לדוגמה, אחסון פרופיל משתמש, הצגת מודעות או עיבוד זרם.
  • למידת מכונה: נהל אשכולות GPU כדי להכשיר מודלים עם מיליארדי פרמטרים.
  • אחסון מידע מטא: אחסון עסקה של מטא מידע ושירות אמין של מנעולים מבוזרים.
  • יצירת מחסני נתונים ו-ETL לעיבוד נתונים רב-שכבתי באמצעות כלים טיפוסיים: Apache Spark, SQL, MapReduce.

בעוד שמצד האלמנטים העיקריים של האדריכלות, מוזכרים הדברים הבאים:

  • מערכת קבצים מבוזרת ואחסון מטא-מידע מבוסס עצים סובלני לתקלות ברוש.
  • מתזמן למחשוב מבוזר עם תמיכה במודל MapReduce, כמו גם פעולות בסיסיות מתקדמות.
  • מדרגיות אופקית של תפעול IT.
  • בידוד משאבי מחשוב ואפשרות להקצות משאבי מחשוב מסוימים (CPU, GPU, RAM) בפרופורציות שונות.
  • PivotTables ליצירת אחסון OLTP, תמיכה באחסון מבוסס MVCC, טרנזקציות, יכולת מחיקת נתונים לאחר תפוגה ותורי הודעות להזרמת עיבוד נתונים על גבי PivotTables.
  • API וספריות לשפות תכנות C++, Python, Java, Go.
  • ממשק אינטרנט למשתמשים ומנהלי מערכת התומך בניווט דרך אחסון דמוי עץ.

בסופו של דבר אם אתה מעוניין לדעת יותר על כך, עליך לדעת שהקוד של הפרויקט כתוב ב-C/C++ והוא פתוח תחת רישיון Apache 2.0. אתה יכול לבדוק את הפרטים ב הקישור הבא.

El מאגר GitHub מכיל את קוד השרת עבור YTsaurus, מסגרת הפריסה המשמשת את k8s, ממשק אינטרנט למערכת ו-SDKs של לקוח עבור שפות תכנות פופולריות כמו C++, Java, Go ו-Python. 


השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי לנתונים: מיגל אנחל גטון
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.