最近, Clyso工程師發布消息 史無前例的,因為他們提到 已成功獲得每秒超過 TB 的效能 基於容錯分散式Ceph系統的儲存叢集上。
毫無疑問,這是一個基於Ceph的集群首次達到這樣的指標,克服了一系列挑戰才在集群中實現這樣的性能。
之所以能取得這樣的成績,是因為 Clyso 工程師收到了實施叢集的請求 並根據您的客戶和您的工作的需求來獲得最佳性能,同時不忽略所要求的要求。
值得一提的是,當客戶第一次聯繫 Clyso 時,工程師提出了一種配置,該配置使用分佈在 34 個機架中的 2 個 17U 雙插槽節點,並具有多種替代配置。
最終,客戶決定採用 Clyso 設計的戴爾架構,儘管具有幾個關鍵優勢,但該架構比原始配置便宜約 13%。新配置的每個 OSD 記憶體更少(每個 OSD 仍為 12 GiB),但記憶體效能更快。
它還提供更多聚合CPU資源、顯著更高的聚合網路效能、更簡單的單插槽配置,並使用最新一代AMD處理器和DDR5 RAM。透過使用較小的節點,我們可以將節點故障對叢集復原的影響減半。
客戶表示,他們希望將每個機架的額外功耗限制在 1000-1500 瓦左右。
要將效能提高 10-20%, 他們發現使伺服器處於最高效能模式 並在 BIOS 省電設定中禁用 c-state 這是有效的。
結果也表明 使用 NVMe 驅動器時,Linux 核心會花費大量時間 在 IOMMU 映射更新過程中處理自旋鎖。 在核心中停用 IOMMU 會導致效能顯著提高 在4MB塊讀寫測試中,雖然沒有完全解決隨機寫入4KB塊時的效能問題。
他們還提到,當他們弄清楚發生了什麼事時,工程師在屬於 Gentoo 和 Ubuntu 專案的 Ceph 建置腳本中找到了修復,其中包括使用 RelWithDebInfo 選項進行編譯,因為它使用了最佳化模式。-O2」在GCC中,這顯著提高了Ceph 性能。
使用 TCMalloc 函式庫編譯也會導致效能下降。更改編譯標誌並刪除 TCMalloc 的使用使壓縮時間減少了三倍,隨機 4K 區塊寫入的效能提高了一倍。
此外, Reef RocksDB 配置和放置組的調整也有助於整體系統最佳化。
該 系統規格如下圖所示:
節點 | 68 個戴爾 PowerEdge R6615 |
---|---|
UPC | 1 個 AMD EPYC 9454P 48C/96T 處理器。 |
記憶 | 5GB DDR192 |
紅 | 2 個 100GbE Mellanox ConnectX-6 |
NVMe | 10 個戴爾 15,36TB 企業 NVMe 讀取密集型 AG |
作業系統版本 | Ubuntu 20.04.6(焦點) |
Ceph版本 | Quincy v17.2.7(上游 Deb 包) |
結果令人印象深刻:4 萬個區塊的順序讀取操作的效能達到 1025 GiB/s,而寫入操作的效能為 270 GiB/s。
在4 KB區塊的隨機讀取操作中,效能達到每秒25.5萬次讀取操作和4.9萬次寫入操作。啟用加密會將讀取效能降低至約 750 GiB/s。
這項成就不僅代表了Clyso的一個技術里程碑,也凸顯了分散式儲存能力的持續演進與提升。
值得一提的是,9月份,CERN在其基於EOS分散式儲存和XRootD協定的EB級儲存叢集上也達到了類似的里程碑。
最後,如果你是 有興趣了解更多關於它的信息, 您可以在中查看詳細信息 以下鏈接。