5月7日據快科技OpenAI今日通過開放計算項目(OCP)正式發布MRC(多路徑可靠連接)協議解決大規模AI訓練中的GPU網絡通信瓶頸。該協議由OpenAI與AMD、NVIDIA、Intel、微軟和博通曆時兩年聯合開發目前已在搭載NVIDIA GB200的超算集群中投入實際使用。 MRC要解決的核心問題是:在訓練大規模AI模型時單次數據傳輸延遲就足以導緻整個訓練過程中斷GPU集體空轉等待而集群規模越大由網絡擁塞、鍊路和設備故障引發的延遲問題越頻繁。MRC的方案是将單條800Gb/s網絡接口拆分為多條更小的
來源:劉雙 時間:2026-05-07 12:52:06
字号
微信掃碼 > 右上角點擊 > 分享