英偉達甩出三大「王炸」
在今日凌晨的英偉達 GTC 2025 大會主題演講中,英偉達 CEO 黃仁勛再次身穿皮衣登場,兩個小時的時長被芯片架構(gòu)、數(shù)據(jù)中心、自動駕駛、AI 計算機以及機器人等關(guān)鍵分享塞得滿滿的。
本文引用地址:http://www.antipu.com.cn/article/202503/468430.htm演講的開篇,黃仁勛強調(diào)了計算和軟件的重要性,他表示:世界正在進行一場過渡——計算方式迎來變革、軟件的未來需要資本投資。
Blackwell Ultra 芯片:推理性能較前代暴漲 40 倍
正如大家期待的那般,英偉達在 GTC 大會上宣布推出 Blackwell Ultra 芯片,其包括 GB300 NVL72 機架級解決方案和 NVIDIA HGX B300 NVL16 系統(tǒng)。
其中,GB300 NVL72 將 72 個 Blackwell Ultra GPU 與 36 個基于 Arm Neoverse 的 Grace CPU 相連,有效地充當一個大規(guī)模 GPU 來支持復雜問題解決并提高響應質(zhì)量?;诂F(xiàn)有 Blackwell 架構(gòu)的 Blackwell Ultra 預計將比前代產(chǎn)品提供 1.5 倍的 AI 性能,顯著增加 AI 工廠的收入機會。
而 HGX B300 NVL16 是服務器級產(chǎn)品,搭載 16 個 Blackwell Ultra GPU,對比前代 Blackwell GPU,大語言模型推理速度提升 11 倍,計算能力提高 7 倍,內(nèi)存容量增加 4 倍。
黃仁勛在演講中強調(diào),Blackwell Ultra 是為「推理和代理型 AI」時代設計的平臺,可高效支持大模型的預訓練、微調(diào)及實時推理,并稱其為英偉達「最強大的芯片」,推動 AI 基礎設施向推理優(yōu)化轉(zhuǎn)型。
黃仁勛表示,「在推理模型中,Blackwell 的性能是 Hopper 的 40 倍」。在展示中,傳統(tǒng)模型的代表是 Meta Llama 3.3,而推理模型是 DeepSeek 的 R1。
值得一提的是,GB300 系列將于 2025 年 5 月啟動量產(chǎn),B300 系列計劃下半年交付,配套服務器系統(tǒng)同步上市。其中,臺積電負責芯片制造,SK 海力士提供 HBM3e 內(nèi)存,超微負責服務器集成,確保產(chǎn)能穩(wěn)定。
據(jù)英偉達透露,全球四大云巨頭部署的 Blackwell 芯片數(shù)量已達 Hopper 芯片的三倍,2024 年他們共采購了 130 萬片 Hopper 架構(gòu)芯片。2025 年又購買了 360 萬 Blackwell 芯片??紤]到每顆 Blackwell 芯片的售價高達數(shù)萬美元,這意味著數(shù)十億美元的市場規(guī)模。黃仁勛打趣道,在最新技術(shù)的加持下,搭建 AI 工廠的廠商「買得越多、省得越多」,總而言之就是掏錢吧。
英偉達新一代 AI 芯片 Rubin 于 2026 下半年推出
黃仁勛重磅公布了新一代 AI 芯片 Rubin,也就是 Hopper、Blackwell 之后的下一代架構(gòu)。Rubin 的命名風格延續(xù)了英偉達一直以來以杰出科學家命名芯片架構(gòu)的傳統(tǒng),是為紀念「證實暗物質(zhì)存在」的女性科學先驅(qū)薇拉?魯賓(Vera Rubin,1928–2016,婚前姓 Cooper)。
Vera Rubin 和 Grace Blackwell 類似,集成了 CPU 和 GPU。在 Grace Blackwell 中,Grace 是 CPU,Blackwell 是 GPU;而在 Vera Rubin 中,Vera 是 CPU,Rubin 是 GPU。
其中,Vera CPU 是英偉達首次基于自主架構(gòu) Olympus 設計的處理。此前,英偉達一直使用 Arm 授權(quán)的通用 CPU 設計,這在某種程度上限制了其系統(tǒng)級優(yōu)化能力。隨著 AI 計算負載的特殊性日益凸顯,通用 CPU 已難以滿足極致性能和能效比的要求。英偉達表示,Vera CPU 的內(nèi)存是 Grace 的 4.2 倍,內(nèi)存帶寬是 Grace 的 2.4 倍。結(jié)合 Vera 的 88 個 CPU 內(nèi)核,英偉達稱該芯片的整體性能將是前一代產(chǎn)品的兩倍。
而 Rubin GPU 的創(chuàng)新之處在于其雙 GPU 架構(gòu)設計。與 Blackwell 一樣,Rubin 也采用了多芯片封裝技術(shù),但英偉達對這一技術(shù)的定義進行了重要調(diào)整。從 Rubin 開始,英偉達將多芯片模塊中的每個裸片視為獨立的 GPU,而非整體一個 GPU。這一定義變更不僅是技術(shù)表述的調(diào)整,更反映了英偉達對未來 GPU 架構(gòu)發(fā)展的戰(zhàn)略思考。
在推理性能方面,Rubin 實現(xiàn)了驚人的 50 petaflops,是當前 Blackwell 芯片的 2.5 倍。同時,其 288GB 的超大內(nèi)存容量,為處理超大規(guī)模 AI 模型提供了充足的空間。這意味著 Rubin 能夠更高效地運行如 GPT-4 等數(shù)萬億參數(shù)的超大模型,使實時推理和更復雜的推理任務成為可能。
英偉達還公布了"Rubin Next"的開發(fā)計劃,Vera Rubin 之后的一代芯片,名為 Vera Rubin Ultra。將于 2027 年下半年上市的 Vera Rubin Ultra 將把 Vera CPU 和 Rubin Ultra 芯片結(jié)合在一起。每個 Rubin 處理器由兩個 GPU 組成一個單芯片,而 Rubin Ultra 則由四個 GPU 裸片組成,進一步將性能翻倍。這種"更多 GPU"的集成策略,與行業(yè)的多芯片模塊(MCM)和芯粒(Chiplet)趨勢相呼應,代表了高性能計算芯片的未來發(fā)展方向。
黃仁勛展示了 Vera Rubin NVLink576 的外觀和參數(shù),并宣稱 Rubin 的性能可達 Hopper 的 900 倍,而 Blackwell 是 Hopper 的 68 倍。
Blackwell Ultra 和 Vera Rubin 的發(fā)布,標志著英偉達已成功將芯片更新周期從兩年縮短至一年。
在本次發(fā)布會,英偉達公開了其產(chǎn)品路線圖:Blackwell(2024 年) → Blackwell Ultra(2025 年) → Vera Rubin(2026 年) → Rubin Next(2027 年) → Feynman(2028 年)。這一清晰的"雙芯雙代"發(fā)展路線(每兩代架構(gòu)各兩款芯片),讓英偉達能夠在保持技術(shù)領(lǐng)先的同時,最大化每代架構(gòu)的商業(yè)價值。
值得一提的是,在 Rubin 之后的下一代 AI 芯片架構(gòu),英偉達將其命名為 Feynman,取自著名物理學家理查德?費曼。他是美國理論物理學家,以對量子力學的路徑積分表述、量子電動力學、過冷液氦的超流性以及粒子物理學中部分子模型的研究聞名于世。根據(jù)英偉達路線圖,F(xiàn)eynman 架構(gòu)將于 2028 年登場。
掀起小高潮的 AI 計算機與機器人
除了芯片,此次 GTC 大會的另一個小高潮就是黃仁勛介紹英偉達在 AI 計算機和機器人產(chǎn)線的突破。
英偉達推出了新款 DGX Spark 和 DGX Station 個人 AI 計算機,黃仁勛稱其為「AI 時代的超級計算機」。
據(jù)介紹,這兩款超級計算機均由 Grace Blackwell 平臺支持,旨在「讓 AI 開發(fā)人員、研究人員、數(shù)據(jù)科學家和學生在桌面上對大模型進行原型設計、微調(diào)和推理」。
其中,Spark 搭載了 GB10 Blackwell 芯片,提供第五代 Tensor Core 和 FP4 支持,具有 128GB 統(tǒng)一內(nèi)存和高達 4TB 的 NVMe SSD 存儲,可以提供「高達每秒 1 千萬億次運算的 AI 計算。」
而體積更大的 DGX Station 可以容納英偉達剛剛宣布的功能更強大的 GB300 Blackwell Ultra 芯片,可提供「每秒 20 千萬億次運算的 AI 性能和 784GB 的統(tǒng)一系統(tǒng)內(nèi)存」。
Spark 將于今日開始預訂,售價 3000 美元起。DGX Station 目前尚未定價。
在機器人領(lǐng)域,英偉達推出了全球首款開源人形機器人功能模型 GR00T N1。
GR00T N1 基礎模型采用雙系統(tǒng)架構(gòu),其靈感來自人類認知原理?!赶到y(tǒng) 1」是一種快速思考的行動模型,反映了人類的反應或直覺?!赶到y(tǒng) 2」則是一種慢速思考的模型,用于深思熟慮、有條不紊的決策。
在視覺語言模型的支持下,系統(tǒng) 2 可以推理其環(huán)境和收到的指令,從而規(guī)劃行動。然后,系統(tǒng) 1 將這些計劃轉(zhuǎn)化為精確、連續(xù)的機器人動作。
目前,GR00T N1 可以實現(xiàn)常見任務,例如抓取、用一只或兩只手移動物體,以及將物品從一只手轉(zhuǎn)移到另一只手,或者執(zhí)行需要技能組合的多步驟任務。開發(fā)人員和研究人員可以使用真實或合成數(shù)據(jù)對 GR00T N1 進行后期訓練,以適應特定的人形機器人或任務。
評論