全球AI芯片市場(chǎng)的硝煙從未如此濃烈,AMD今日舉行的Advancing AI大會(huì),將成為挑戰(zhàn)英偉達(dá)地位的關(guān)鍵轉(zhuǎn)折點(diǎn)。<與非網(wǎng)>在現(xiàn)場(chǎng)第一時(shí)間發(fā)出本文,解析本次大會(huì)的核心發(fā)布與戰(zhàn)略布局。
太平洋時(shí)間2025年6月12日上午9:30,AMD董事會(huì)主席及首席執(zhí)行官蘇姿豐(Lisa Su)博士登上圣何塞會(huì)議中心的舞臺(tái),宣布了業(yè)界矚目的下一代Instinct MI350系列GPU,并劇透了預(yù)計(jì)明年推出的MI400,以及構(gòu)建開(kāi)放AI 生態(tài)系統(tǒng)的進(jìn)展。此外,她強(qiáng)調(diào)了全新的、開(kāi)放的機(jī)架級(jí)設(shè)計(jì)及路線圖,甚至將領(lǐng)先的機(jī)架級(jí)AI性能規(guī)劃已經(jīng)延伸至2027年以后。
除了硬件上的不斷迭代,AMD真正的挑戰(zhàn)還在于ROCm軟件生態(tài)系統(tǒng)的建設(shè),其持續(xù)突破也是業(yè)界的關(guān)注重點(diǎn),最新版本ROCm 7已經(jīng)面向生成式AI和高性能計(jì)算工作負(fù)載日益增長(zhǎng)的需求做足準(zhǔn)備。
此外,包括Meta、甲骨文、微軟等生態(tài)合作伙伴,都在會(huì)上展示了由AMD驅(qū)動(dòng)的AI進(jìn)展,特別是甲骨文首批采用了AMD Instinct MI355X GPU打造開(kāi)放機(jī)架級(jí)AI基礎(chǔ)設(shè)施。這既是AMD Instinct系列GPU的“里程碑時(shí)刻”,也證明了市場(chǎng)對(duì)于打造多元化的基礎(chǔ)設(shè)施持有濃厚興趣,得益于全新架構(gòu)的計(jì)算集群設(shè)計(jì),如今的AMD正在迎來(lái)一波新的AI高性能設(shè)備的市場(chǎng)風(fēng)口。
在全球AI硬件市場(chǎng)突破4000億美元規(guī)模的背景下,AMD這場(chǎng)大會(huì)承載著行業(yè)對(duì)多元化AI算力格局的深切期待。從Lisa Su博士所闡述的全面的端到端集成 AI 平臺(tái)愿景,以及基于行業(yè)標(biāo)準(zhǔn)構(gòu)建的、開(kāi)放且可擴(kuò)展的機(jī)架級(jí)AI基礎(chǔ)設(shè)施來(lái)看,AMD正在通過(guò)一系列廣泛的硬件、軟件和解決方案組合,加速打造開(kāi)放AI生態(tài)系統(tǒng),硬撼英偉達(dá)在AI芯片領(lǐng)域的絕對(duì)地位。
Instinct MI350系列GPU:AI算力提升4倍,推理性能暴增35倍
AMD發(fā)布了Instinct MI350 系列 GPU,為生成式 AI 和高性能計(jì)算設(shè)定了性能、能效和可擴(kuò)展性的新基準(zhǔn)。該系列包含了基于CDNA 4架構(gòu)打造的Instinct MI350X和MI355X GPU及平臺(tái),采用了臺(tái)積電的3nm工藝,集成1850億晶體管。MI350系列實(shí)現(xiàn)了代際AI計(jì)算性能提升4倍,以及推理性能代際“飛躍式”提升35倍,這是其挑戰(zhàn)英偉達(dá)的最新技術(shù)武器之一,也代表了AMD目前在AI加速計(jì)算領(lǐng)域的實(shí)力。
內(nèi)存帶寬和容量?jī)?yōu)勢(shì)是AMD對(duì)抗英偉達(dá)尖端GPU芯片的重要籌碼,該優(yōu)勢(shì)在Instinct MI350系列GPU上得到進(jìn)一步放大,其內(nèi)存容量(288GB HBM3E)和帶寬(最高 8TB/s)性能表現(xiàn)十分搶眼,使得推理和訓(xùn)練工作都能獲得更好的吞吐量,特別適用于對(duì)AI并行化算力負(fù)載要求較高的生成式AI模型訓(xùn)練和推理任務(wù)。
圖:MI350系列提供更快的AI推理速度、支持更大的模型
MI350系列在封裝方面的三大創(chuàng)新點(diǎn)包括:首先是延續(xù)小芯片設(shè)計(jì),N3P工藝的計(jì)算芯片(XCD)堆疊在N6工藝的I/O芯片(IOD)上,集成 AMD Infinity Fabric AP互聯(lián)總線,這種異構(gòu)集成既能提升性能又能降低功耗;其次是封裝技術(shù),采用成熟的COWOS-S封裝而非更昂貴的COWOS-L;第三,采用混合鍵合架構(gòu),3D堆疊提升計(jì)算密度,2.5D集成HBM3E顯存和互聯(lián)技術(shù)。
圖:MI350系列在封裝和小芯片領(lǐng)域的創(chuàng)新
Instinct MI350系列提供風(fēng)冷和直接液冷的靈活配置,風(fēng)冷機(jī)架中最多可部署64 個(gè) GPU,直接液冷機(jī)架中最多可部署128個(gè)GPU,提供高達(dá)2.6 exaFLOPS 的 FP4/FP6 性能。這意味著在基于行業(yè)標(biāo)準(zhǔn)的基礎(chǔ)設(shè)施上,能夠?qū)崿F(xiàn)更快的AI應(yīng)用部署并能夠降低成本。
圖表:Instinct MI350系列具體規(guī)格
圖:Instinct MI355X系列GPU在內(nèi)存和帶寬方面的具體表現(xiàn)
圖:AMD Instinct MI350 系列專(zhuān)為嚴(yán)苛工作負(fù)載而設(shè)計(jì)
根據(jù)Lisa Su博士的介紹,AMD Instinct MI300X系列GPU相比英偉達(dá)B200,每美元可處理的Token數(shù)量提升高達(dá)40%,這其實(shí)是對(duì)性?xún)r(jià)比的直接量化,相當(dāng)于在運(yùn)行大語(yǔ)言模型(LLM)時(shí),單位成本下的計(jì)算效率提升40%。
值得注意的是,Tokens/$并非純算力對(duì)比,而是更貼近用戶(hù)的實(shí)際成本考量出發(fā),這也是AMD“硬剛”英偉達(dá)最先進(jìn)GPU的核心考量。
此外,在主流大模型推理任務(wù)中,AMD Instinct MI355X系列吞吐量超越了英偉達(dá)B200和GB200,關(guān)鍵數(shù)據(jù)如下:
- DeepSeek-R1模型(FP4精度):MI355X 吞吐量為B200性能 1.2倍。
- Llama 3.1 405B模型(FP4精度):MI355X 吞吐量為B200的 1.3倍;
- Llama 3.1 405B模型(FP4精度):MI355X 吞吐量與GB200持平。
同樣,在大模型的訓(xùn)練和微調(diào)方面,AMD Instinct MI355系列與英偉達(dá)B200、GB200相比,也展現(xiàn)出了有競(jìng)爭(zhēng)力的性能,關(guān)鍵數(shù)據(jù)如下:
- 預(yù)訓(xùn)練場(chǎng)景:
Llama 3 70B / Llama 3 8B(FP8,BF16):MI355X性能與B200持平。 - 微調(diào)場(chǎng)景:
Llama 2 70B(純FP8精度):MI355X性能是B200的 1.13倍,是GB200的1.1倍。
目前看來(lái),MI350系列GPU的生態(tài)系統(tǒng)勢(shì)頭非常強(qiáng)勁,處于準(zhǔn)備就緒、隨時(shí)部署的狀態(tài)。它將通過(guò)領(lǐng)先的云服務(wù)提供商(包括主要超大規(guī)模云廠商和下一代新銳云廠商)廣泛上市,戴爾 (Dell)、慧與 (HPE) 和超微 (Supermicro) 等頂級(jí)OEM廠商正在將MI350系列解決方案集成到他們的平臺(tái)中,提供強(qiáng)大的混合AI 基礎(chǔ)設(shè)施。
ROCm 7超過(guò)3.5倍推理性能提升,引領(lǐng)開(kāi)放AI革命
除了硬件方面的不斷迭代優(yōu)化,AMD真正的挑戰(zhàn)還在于ROCm軟件生態(tài)系統(tǒng)的建設(shè),這也是AMD能否真正撼動(dòng)英偉達(dá)的關(guān)鍵。AMD 對(duì) ROCm 的愿景是通過(guò)一個(gè)開(kāi)放、可擴(kuò)展且專(zhuān)注于開(kāi)發(fā)者的平臺(tái),為所有人解鎖創(chuàng)新潛能。
根據(jù)Lisa Su博士的介紹,過(guò)去一年中,ROCm 迅速成熟,可提供領(lǐng)先的推理性能,擴(kuò)展了訓(xùn)練能力,并深化了與開(kāi)源社區(qū)的集成。如今,ROCm驅(qū)動(dòng)著全球最大型的一些AI平臺(tái),支持Llama、DeepSeek 等主流模型,特別是在最新的ROCm 7版本中實(shí)現(xiàn)了超過(guò) 3.5 倍的推理性能提升。
憑借持續(xù)的更新、先進(jìn)的FP4等數(shù)據(jù)類(lèi)型以及FAv3等新算法,ROCm 不僅賦能下一代 AI 性能,同時(shí)以超越閉源替代方案的速度推動(dòng)著vLLM和SGLang等開(kāi)源框架的發(fā)展。
“ROCm 不僅是在追趕——它正在引領(lǐng)開(kāi)放的 AI 革命”,Lisa Su博士強(qiáng)調(diào)。隨著 AI 應(yīng)用從研究轉(zhuǎn)向真實(shí)世界的企業(yè)部署,ROCm 也在同步演進(jìn)。ROCm企業(yè)級(jí)AI 將一套全棧式MLOps 平臺(tái)推向臺(tái)前,憑借支持超過(guò) 180萬(wàn)個(gè) Hugging Face 模型的開(kāi)箱即用體驗(yàn),以及行業(yè)基準(zhǔn)測(cè)試的引入,ROCm提供用于微調(diào)、合規(guī)、部署和集成的開(kāi)箱即用工具,以實(shí)現(xiàn)安全、可擴(kuò)展的AI。
在提升開(kāi)發(fā)者體驗(yàn)方面,AMD提供更多的開(kāi)箱即用工具、實(shí)時(shí)CI儀表板、豐富的技術(shù)資料以及活躍的開(kāi)發(fā)者社區(qū),讓開(kāi)發(fā)者在ROCm上構(gòu)建應(yīng)用變得前所未有的簡(jiǎn)單。此外,AMD還推出了開(kāi)發(fā)者云(Developer Cloud),讓開(kāi)發(fā)者能夠即時(shí)、無(wú)障礙地訪問(wèn)ROCm和AMD GPU。無(wú)論是優(yōu)化大型語(yǔ)言模型還是擴(kuò)展推理平臺(tái),ROCm 7、AMD開(kāi)發(fā)者云都為開(kāi)發(fā)者提供了快速?gòu)膶?shí)驗(yàn)邁向生產(chǎn)所需的全套工具,
在AMD直面英偉達(dá)的生態(tài)競(jìng)爭(zhēng)方面,多年以來(lái),CUDA的發(fā)展積累是AMD必須面對(duì)的挑戰(zhàn)。Lisa Su博士指出,ROCm 正以開(kāi)源速度、開(kāi)發(fā)者優(yōu)先的設(shè)計(jì)理念和突破性性能,開(kāi)啟 AI 創(chuàng)新紀(jì)元。從推理到訓(xùn)練再到全棧部署,其架構(gòu)專(zhuān)為伴隨 AI 未來(lái)演進(jìn)而擴(kuò)展設(shè)計(jì)。而隨著 ROCm 7 與 AMD 開(kāi)發(fā)者云的推出,AMD才剛剛啟程。
明年見(jiàn)面:Instinct MI400 系列與 “Helios” AI 機(jī)柜
AMD的產(chǎn)品路線圖也顯示出前所未有的“激進(jìn)”。根據(jù)Lisa Su博士公布的藍(lán)圖,AMD計(jì)劃以大約每年一次的周期發(fā)布新品:MI325X于2024年第四季度上市,MI350系列在2025年推出,MI400系列則將在2026年推出。這一發(fā)布節(jié)奏與英偉達(dá)“一年一次AI GPU新品發(fā)布”的計(jì)劃直接對(duì)標(biāo),表明AMD已準(zhǔn)備好與英偉達(dá)展開(kāi)長(zhǎng)期、持續(xù)的正面競(jìng)爭(zhēng)。
從目前了解到的信息來(lái)看,AMD Instinct MI400 系列將實(shí)現(xiàn)巨大的跨代性能飛躍,為大規(guī)模訓(xùn)練和分布式推理提供完整的機(jī)柜級(jí)解決方案。其關(guān)鍵性能創(chuàng)新包括:432GB的 HBM4 內(nèi)存;19.6TB/s的內(nèi)存帶寬;40 PFLOPS的FP4性能和20 PFLOPS的FP8性能;300GB/s 的橫向擴(kuò)展帶寬。
此外還有Helios AI 機(jī)柜基礎(chǔ)設(shè)施,從底層開(kāi)始構(gòu)建,旨在將下一代領(lǐng)先的硬件——包括 AMD EPYC “Venice” CPU、Instinct MI400系列GPU和Pensando “Vulcano” AI 智能網(wǎng)卡——與 ROCm 軟件統(tǒng)一整合為一個(gè)完全集成的解決方案。
Helios 設(shè)計(jì)為一個(gè)統(tǒng)一的系統(tǒng),支持一個(gè)緊密耦合的縱向擴(kuò)展域(scale-up domain),最多可容納72個(gè)MI400系列GPU,提供每秒260太字節(jié)的縱向擴(kuò)展帶寬,并支持 Ultra Accelerator Link。
Lisa Su博士表示,“當(dāng)我們展望以即將推出的 MI400系列和‘Helios’機(jī)柜架構(gòu)為標(biāo)志的AI 新時(shí)代時(shí),Instinct MI400 系列將樹(shù)立全新標(biāo)桿——賦能企業(yè)快速行動(dòng)、智能擴(kuò)展,全面釋放生成式AI與高性能計(jì)算的無(wú)限潛能?!?/p>
目前,70%的頂級(jí)AI客戶(hù)已采用了AMD的GPU產(chǎn)品,通過(guò)最新發(fā)布的MI350系列和下一代MI400系列和 Helios機(jī)柜基礎(chǔ)設(shè)施等,Lisa Su博士對(duì)于在AI領(lǐng)域的發(fā)展前景信心十足。
業(yè)界首款超以太網(wǎng)AI NIC,為下一代AI部署做好準(zhǔn)備
為了充分滿(mǎn)足未來(lái)AI工作負(fù)載需求、兼容開(kāi)放生態(tài)系統(tǒng),使客戶(hù)在降低資本支出的同時(shí),能夠保持面向未來(lái)基礎(chǔ)設(shè)施擴(kuò)展的靈活性,AMD推出了業(yè)界首款支持超以太網(wǎng)聯(lián)盟(UEC)特性的AI智能網(wǎng)卡——AMD Pensando Pollara 400,該AI智能網(wǎng)卡專(zhuān)為加速后端網(wǎng)絡(luò)應(yīng)用而設(shè)計(jì),實(shí)現(xiàn)了400千兆比特每秒(Gbps)的以太網(wǎng)傳輸速率。
如下圖所展示,AMD Pensando Pollara 系列AI智能網(wǎng)卡在RoCEv2協(xié)議下,能夠提供領(lǐng)先業(yè)界的RDMA性能,較主流競(jìng)品提升 20%,在RCCL吞吐量測(cè)試中,Pollara是英偉達(dá)CX7的1.1倍、博通Thor2的1.2倍。
值得強(qiáng)調(diào)的還有AMD Pensando Pollara 400 AI智能網(wǎng)卡的可編程特性,它基于AMD的第三代全硬件可編程Pensando P4引擎,客戶(hù)可啟用UEC功能,為網(wǎng)絡(luò)監(jiān)控與性能調(diào)優(yōu)注入智能化能力。依托全可編程P4引擎,用戶(hù)可通過(guò)升級(jí)使任何Pollara 400網(wǎng)卡適配新行業(yè)標(biāo)準(zhǔn)(包括UEC制定的規(guī)范),從而助力企業(yè)、云服務(wù)提供商及研究人員最大化基礎(chǔ)設(shè)施投資價(jià)值。
憑借400Gbps的GPU間通信速度,該網(wǎng)卡可顯著加速以下場(chǎng)景任務(wù)完成時(shí)間:訓(xùn)練超大規(guī)模AI模型、部署下一代AI模型、開(kāi)展前沿技術(shù)研究等。此外,它具備智能網(wǎng)絡(luò)監(jiān)控功能,能夠大幅縮減傳統(tǒng)網(wǎng)絡(luò)監(jiān)控與性能調(diào)優(yōu)耗時(shí),在執(zhí)行網(wǎng)絡(luò)負(fù)載均衡的同時(shí),能夠?qū)崟r(shí)監(jiān)控網(wǎng)絡(luò)指標(biāo),使運(yùn)維團(tuán)隊(duì)能在潛在網(wǎng)絡(luò)問(wèn)題升級(jí)為嚴(yán)重故障前主動(dòng)識(shí)別并處理。
寫(xiě)在最后
AI芯片競(jìng)爭(zhēng)早已超出單純的技術(shù)參數(shù)比拼,演變?yōu)檐浻布到y(tǒng)性能、生態(tài)構(gòu)建等能力的綜合實(shí)力比拼。
面對(duì)英偉達(dá)的先發(fā)優(yōu)勢(shì),AMD需要的不僅是GPU晶體管數(shù)量的領(lǐng)先,更是一場(chǎng)從開(kāi)發(fā)習(xí)慣到產(chǎn)業(yè)標(biāo)準(zhǔn)、生態(tài)的全方位變革。今日Advancing AI大會(huì),Lisa Su博士揭幕的不僅是芯片,也是AMD重塑AI算力版圖的宣言。
正如Lisa Su博士所強(qiáng)調(diào)的,AMD 是唯一具備全面覆蓋數(shù)據(jù)中心、邊緣及終端設(shè)備端到端AI能力的供應(yīng)商,擁有支撐全棧AI所需的廣度產(chǎn)品陣容與深厚軟件實(shí)力。目前,AMD已在構(gòu)建市場(chǎng)核心競(jìng)爭(zhēng)力的基石——涵蓋底層產(chǎn)品、關(guān)鍵技術(shù)及客戶(hù)生態(tài)方面取得重大突破。
AMD堅(jiān)信,憑借數(shù)據(jù)中心AI業(yè)務(wù)的規(guī)?;瘮U(kuò)張(2024年?duì)I收超50億美元,未來(lái)數(shù)年將增長(zhǎng)至數(shù)百億美元年?duì)I收),AMD正步入一條長(zhǎng)期高速增長(zhǎng)軌道。