現場直擊GTC｜最科幻發布會，性能翻30倍的恐怖Blackwell芯片，黃仁勳宣告“新工業革命”來了_觀察

文章作者：原創 Jessica 王兆洋

2024年3月18日的GTC上，黃仁勳正式成了新的喬布斯。

當天下午黃仁勳走上台開始演講，而這次與以往都不同。這場發布會在SAP中心進行，人們在百米長的隊伍裡要經過兩個小時地檢票和等待，裡外裡轉好幾道彎，才進到演講會場。這裡是矽谷很多演唱會和演出的舉辦地，占地4.2萬平方米，曾舉辦過滾石和Bon Jovi 演唱會、美國NHL全明星賽，而現在站在舞台中央的是黃仁勳，他讓現場的許多開發者想到了喬布斯。

在一段預熱片後，黃仁勳上台。背景停留在“我是AI”的界面。

“希望大家意識到這不是一場演唱會。你來到的是個開發者大會。”黃仁勳說。這是一場隻有模拟而沒有動畫的發布會。他說。這也讓後來整場發布會越來越像科幻片。可能是人類曆史上最科幻的一場發布會。

視頻.png

“今天抵達GTC現場的公司們價值1 trillion。這麼多夥伴，需要這麼多的算力，怎麼辦？我們需要大得多的GPU。把所有GPU 連接起來，成千上萬個大的GPU裡是成千上萬小的GPU，百萬個GPU讓你的效率提升！”

然後他簡單回顧了一下AI的發展曆史，“20年前我們就看到了它會到來”。

“然後CUDA和AI做了第一次親密接觸。”他說。“06年推出CUDA的時候，我們以為這是革命性的，會一夜成功，結果一等就等了二十年！”

“今天的一切都是homemade。”在一個個通過AI模拟出來的酷炫的視頻後，一切鋪墊就緒了——英偉達就是這一切進步的基石。是時候該發布重要芯片了。

人們對此有預期，但當B200出現的時候，現場（可能包括全世界圍觀者）都還是忍不住驚呼。

這是Hopper後的新一代架構，以數學家Blackwell命名。在性能上，它就是黃仁勳“黃氏定律”的集大成者和奠基者。

以下是我用AI總結的Blackwell GPU的性能特點：

1.高AI性能：B200 GPU提供高達20 petaflops的FP4計算能力，這是由其2080億個晶體管提供的。

2.高效推理：當與Grace CPU結合形成GB200超級芯片時，它能在LLM推理工作負載上提供比單個GPU高出30倍的性能，同時在成本和能源消耗上比H100 GPU高出25倍。

3.訓練能力：使用Blackwell GPU，訓練一個1.8萬億參數的模型所需的GPU數量從8000個減少到2000個，同時電力消耗從15兆瓦降低到僅4兆瓦。

4.GPT-3性能：在GPT-3 LLM基準測試中，GB200的性能是H100的七倍，訓練速度提高了4倍。

5.改進的Transformer引擎：第二代Transformer引擎通過使用每個神經元的四位而不是八位，實現了計算、帶寬和模型大小的翻倍。

6.下一代NVLink開關：允許多達576個GPU之間進行通信，提供每秒1.8太比特的雙向帶寬。

7.新的網絡交換芯片：擁有500億晶體管和3.6 teraflops的FP8計算能力，用于支持大規模GPU集群的通信。

8.擴展性：Nvidia的系統可以擴展到數萬個GB200超級芯片，通過800Gbps的Quantum-X800 InfiniBand或Spectrum-X800以太網連接。

9.大規模部署：GB200 NVL72設計可以将36個CPU和72個GPU集成到一個液冷機架中，提供總共720 petaflops的AI訓練性能或1.4 exaflops的推理性能。

10.支持大型模型：單個NVL72機架可以支持高達27萬億參數的模型，而且有意思的是，黃仁勳似乎透露了一下GPT-4的參數，它可能是一個約1.7萬億參數的模型。

（更多關于B200的解讀我們會在今天稍晚帶來，歡迎關注矽星人GTC後續内容）

黃仁勳回顧了自己送給OpenAI的第一個DGX，它隻有0.17Peataflops，而今天的DGX Grace-Blackwell GB200已經超過1 Exaflop的算力。

老黃站在這張圖前講了半天，這畫面讓你覺得摩爾定律可能真的死了，黃氏定律正式登基。

在B200的發布後，黃仁勳用一個AI生成的模拟短片介紹了“配套”的一系列産品，從集群到數據中心的交換機等。基本都是性能怪獸。

GB200超級芯片就是将兩個B200 GPU與一個Grace CPU結合在一起，它能将成本和能源消耗比 H100降低多達25倍”。黃仁勳表示自己可得拿穩了，“這塊很貴，可能100億？不過以後會便宜的。”現場爆笑。

與此同時，他也強調了新一代芯片和相關産品在能耗上的改進。之前訓練一個1.8萬億參數的模型需要使用8000個Hopper GPU和15兆瓦的電力。

如今，使用2000個Blackwell GPU就可以完成相同的任務，同時僅消耗4兆瓦的電力。黃仁勳說，英偉達還正在将它們打包成更大的設計，比如GB200 NVL72，把36個CPU和72個GPU集成到一個單一的液冷機架中，提供總共720 petaflops 的AI訓練性能或1440petaflops的推理性能。它内部有近乎兩英裡的電纜，包括5000條獨立電纜。