Twitter đã phát hành mã của nguồn cấp dữ liệu tin nhắn được đề xuất

Thuật toán đề xuất Twitter

Thuật toán đề xuất Twitter

Một vài ngày trước, tin tức đã phá vỡ rằng Twitter phát hành mã nguồn cho bộ “Thuật toán đề xuất”, trong đó bao gồm các dịch vụ và trình điều khiển được sử dụng để tạo nguồn cấp thông báo được đề xuất hiển thị cho người dùng trong dòng thời gian khởi động.

Ngoài việc cung cấp tính minh bạch và cho phép kiểm toán độc lập các thuật toán được sử dụng, Twitter đã bày tỏ sự sẵn sàng chấp nhận yêu cầu kéo từ cộng đồng với những thay đổi giúp cải thiện các thuật toán mà sau khi xem xét, có thể được chuyển sang cơ sở mã đang hoạt động của Twitter.

Tại Twitter 2.0 , chúng tôi tin rằng chúng tôi có trách nhiệm, với tư cách là một tổ chức công cộng trên Internet, làm cho nền tảng của chúng tôi trở nên minh bạch. Vì vậy, hôm nay chúng tôi đang thực hiện bước đầu tiên trong kỷ nguyên minh bạch mới và mở rộng phần lớn mã nguồn của chúng tôi cho cộng đồng toàn cầu.

Về mã phát hành, nó được đề cập rằng việc tạo ra một nguồn cấp dữ liệu đề xuất được chia thành ba giai đoạn chủ yếu:

  • Trích xuất các tweet tốt nhất từ ​​​​các nguồn khác nhau (tìm nguồn ứng viên). Ở giai đoạn này, những thứ sau đây được sử dụng làm nguồn: hệ thống lập chỉ mục tìm kiếm, bao gồm các tin nhắn từ những người có đăng ký (Trong mạng); lớp cr-mixer để trích xuất tin nhắn từ các dịch vụ phụ trợ khác nhau bao gồm tin nhắn từ những người không đăng ký (bên ngoài mạng); thành phần biểu đồ người dùng-tweet-thực thể (UTEG) để trích xuất thông báo dựa trên biểu đồ tương tác người dùng hiện tại; Dịch vụ theo dõi đề xuất (FRS) để tạo đề xuất dựa trên hoạt động của người dùng được theo dõi. Trong nguồn cấp dữ liệu, khoảng một nửa số bài đăng đến từ những người có đăng ký.
  • Phân loại các tweet đã chọn sử dụng mô hình máy học. Hai hệ thống xếp hạng được sử dụng: mô hình xếp hạng nhẹ sử dụng chỉ mục tìm kiếm và mạng thần kinh xếp hạng nặng để chọn các ứng viên phù hợp nhất.
  • Áp dụng các bộ lọc và kinh nghiệm để loại bỏ tin nhắn bị chặn, tục tĩu hoặc đã được nhìn thấy. Thành phần máy trộn gia đình được sử dụng để tạo nguồn cấp dữ liệu và hệ thống lọc khả năng hiển thị được sử dụng để lọc. Ngoài ra, hệ thống xếp hạng thời gian cũ, được sử dụng để lấy các tweet từ chỉ mục tìm kiếm, đã được mã hóa mở.

Nền tảng của các đề xuất Twitter là một tập hợp các mô hình và tính năng cốt lõi trích xuất thông tin tiềm ẩn từ Tweet, người dùng và dữ liệu tương tác. Các mô hình này nhằm mục đích trả lời các câu hỏi quan trọng về mạng Twitter, chẳng hạn như "Xác suất bạn sẽ tương tác với người dùng khác trong tương lai là bao nhiêu?" hoặc “Các cộng đồng trên Twitter là gì và các Tweet thịnh hành trong đó là gì?” Trả lời chính xác những câu hỏi này cho phép Twitter đưa ra các đề xuất phù hợp hơn.

Bên cạnh đó, mã của các thành phần phụ trợ cũng được đánh dấu cái nào cũng mở:

  • simcluster-ann: Được sử dụng để xác định các cộng đồng có cùng sở thích.
  • TwHIN: cái này có chức năng tạo sơ đồ tri thức về người dùng và tweet (người đăng ký, tweet do người dùng chọn, click vào quảng cáo).
  • mô hình tin cậy và an toàn: mô hình để xác định nội dung không phù hợp, tục tĩu và phản cảm.
  • đồ thị thực: là một mô hình để dự đoán tương tác giữa những người dùng khác nhau.
  • tweepcred : thuật toán tính độ uy tín của người dùng dựa trên các liên kết đến bài viết của họ (Page-Rank).
    recos-bơm: là bộ điều khiển luồng sự kiện tạo đầu vào cho các dịch vụ GraphJet.
  • đồ thị-tính năng-dịch vụ: Hàm đồ thị để ước tính sự tương tác của hai người dùng, chẳng hạn như mức độ người dùng "A" đánh giá cao các tweet của người dùng "B".
  • tàu thủy: là một máy chủ hiệu suất cao để xử lý các mô hình máy học (được viết bằng Rust).
  • máy trộn sản phẩm: trình tạo nguồn cấp dữ liệu với nội dung từ các nguồn khác nhau.
  • twml: là một khung máy học cũ (nhánh của TensorFlow v1).

Điều đáng nói là gì nguồn được mở theo giấy phép AGPLv3. Việc triển khai sử dụng các ngôn ngữ lập trình Scala (53,8%), Java (29,7%), Starlark (6,3%), Python (4,7%), C++ (2,4%) và Rust (1,5%).

Mã được liên kết với các mô hình máy học được sử dụng trên Twitter được xuất bản trong một kho lưu trữ riêng (bản thân các mô hình không được xuất bản vì lý do bảo mật và quyền riêng tư). Các thành phần để tạo đề xuất quảng cáo cũng vẫn chưa được phát hành.

Nếu bạn là quan tâm đến việc có thể biết thêm một chút về nó, bạn có thể kiểm tra các chi tiết trong liên kết theo dõi.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.