浪潮信息發布源2.0-M32大模型4bit和8bit量化版,性能比肩700億參數的LLaMA3開源大模型。其中,4bit量化版推理運行顯存僅需23.27GB,處理每token所需算力約為1.9 GFLOPs,算力消耗僅為同等當量大模型LLaMA3-70B的1/80。源2.0-M32大模型是浪潮信息“源2.0”系列大模型的最新版本,其創新性地提出和采用了“基于注意力機制的門控網絡”技術,構建包含32個專家(Expert)的混合專家模型(MoE),模型運行時激活參數為37億。(美通社)
來源:真灼财經 時間:2024-08-25 14:00:13