טוויטר פרסמה את הקוד של פיד ההודעות המומלץ

אלגוריתם המלצות טוויטר

אלגוריתם המלצות טוויטר

לפני כמה ימים הודיעו על כך טוויטר פרסמה את קוד המקור עבור הסט "אלגוריתם המלצות", הכולל שירותים ומנהלי התקנים המשמשים ליצירת הזנת הודעות מומלצת המוצגת למשתמש בציר הזמן האתחול.

בנוסף לספק שקיפות ולאפשר ביקורת עצמאית של האלגוריתמים שבהם נעשה שימוש, טוויטר הביעה את נכונותה לקבל בקשות משיכה מהקהילה בשינויים המשפרים אלגוריתמים שלאחר סקירה ניתן להעביר לבסיס הקוד העובד של טוויטר.

בטוויטר 2.0, אנו מאמינים שיש לנו אחריות, ככיכר ציבורית באינטרנט, להפוך את הפלטפורמה שלנו לשקופה. אז היום אנחנו עושים את הצעד הראשון בעידן חדש של שקיפות ופותחים חלק גדול מקוד המקור שלנו לקהילה הגלובלית.

לגבי הקוד ששוחרר, מוזכר שיצירת הזנה של המלצות מחולקת לשלושה שלבים עיקרי:

  • חלץ את הציוצים הטובים ביותר ממקורות שונים (מיקור מועמדים). בשלב זה משמשים כמקורות: מערכת אינדקס החיפוש, המכסה הודעות מאנשים שיש להם מנוי (In-Network); שכבת cr-mixer לחילוץ הודעות משירותי עזר שונים המכסים הודעות מאנשים שאינם מנויים (מחוץ לרשת); רכיב user-tweet-entity-graph (UTEG) לחילוץ הודעות על סמך גרף האינטראקציה הנוכחי של המשתמש; שירות מעקב אחר המלצות (FRS) להפקת המלצות על סמך הפעילות של משתמשים במעקב. בפיד, כמחצית מהפוסטים מגיעים מאנשים שיש להם מנוי.
  • סיווג ציוצים נבחרים באמצעות מודל למידת מכונה. נעשה שימוש בשתי מערכות דירוג: מודל דירוג קל המשתמש באינדקס חיפוש, ורשת עצבית מדרגת כבדה לבחירת המועמדים הרלוונטיים ביותר.
  • יישום פילטרים והיוריסטיקות לביטול הודעות חסום, מגונה או שכבר נראה. רכיב המיקסר הביתי משמש ליצירת ההזנה ומערכת סינון הנראות משמשת לסינון. בנוסף, מערכת Timelineranker הישנה, ​​ששימשה למשיכת ציוצים מאינדקס החיפוש, הייתה פתוחה.

הבסיס של המלצות טוויטר הוא קבוצה של מודלים ותכונות ליבה המחלצות מידע סמוי מנתוני ציוץ, משתמשים ומעורבות. מודלים אלו שואפים לענות על שאלות חשובות על רשת טוויטר, כגון "מהי ההסתברות שתתקשר עם משתמש אחר בעתיד?" או "מהן הקהילות בטוויטר ומהם הציוצים המגמתיים בתוכם?" מענה מדויק על שאלות אלו מאפשר לטוויטר להציע המלצות רלוונטיות יותר.

חוץ מזה, גם הקוד של רכיבי העזר מודגש שגם פתוח:

  • simclusters-ann: משמש להגדרת קהילות עם תחומי עניין דומים.
  • TwHIN: יש לזה את הפונקציה של יצירת גרפי ידע על משתמשים וציוצים (מנויים, ציוצים שנבחרו על ידי המשתמש, הקלקות על מודעות).
  • מודלים של אמון ובטיחות: מודלים לזיהוי תוכן בלתי הולם, מגונה ופוגעני.
  • גרף אמיתי: הוא מודל לניבוי אינטראקציות בין משתמשים שונים.
  • טוויטר : אלגוריתם לחישוב המוניטין של משתמש על סמך הקישורים לפוסטים שלו (Page-Rank).
    recos-injector: הוא בקר זרימת אירועים שמייצר תשומות עבור שירותי GraphJet.
  • גרף-תכונה-שירות: גרף פונקציות להערכת האינטראקציה של שני משתמשים, כגון כמה משתמש "A" מעריך את הציוצים של משתמש "B".
  • ספינה: הוא שרת עם ביצועים גבוהים לעיבוד מודלים של למידת מכונה (כתוב ב-Rust).
  • מיקסר מוצרים: מחולל הזנה עם תוכן ממקורות שונים.
  • twml: היא מסגרת למידת מכונה ישנה (מזלג של TensorFlow v1).

ראוי להזכיר מה המקור פתוח תחת רישיון AGPLv3. המימוש השתמש בשפות התכנות Scala (53,8%), Java (29,7%), Starlark (6,3%), Python (4,7%), C++ (2,4%) ו-Rust (1,5%).

הקוד המשויך למודלים של למידת מכונה המשמשים בטוויטר מתפרסם במאגר נפרד (המודלים עצמם אינם מתפרסמים מטעמי אבטחה ופרטיות). גם הרכיבים להפקת המלצות פרסום נותרו לא פורסמו.

אם כן מעוניין לדעת קצת יותר על זה, אתה יכול לבדוק את הפרטים ב הקישור הבא.


השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי לנתונים: מיגל אנחל גטון
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.