在人工智能領(lǐng)域快速發(fā)展的當(dāng)下,英偉達(dá)與DeepSeek分別在硬件和模型研發(fā)層面取得了重大進(jìn)展,為行業(yè)的未來(lái)走向帶來(lái)深遠(yuǎn)影響。
1、英偉達(dá)NVL72機(jī)柜:算力基礎(chǔ)設(shè)施的新突破
英偉達(dá)NVL72機(jī)柜的加速出貨,為全球AI算力市場(chǎng)注入了強(qiáng)大動(dòng)力。主流超大規(guī)模云廠商平均每周部署近1,000個(gè)NVL72機(jī)柜,且出貨節(jié)奏仍在持續(xù)加快 。NVL72機(jī)柜作為英偉達(dá)推出的機(jī)柜級(jí)超節(jié)點(diǎn),在硬件配置與性能表現(xiàn)上亮點(diǎn)十足。
從硬件架構(gòu)來(lái)看,整個(gè)系統(tǒng)由18個(gè)Compute Tray和9個(gè)Switch Tray構(gòu)成。每個(gè)Compute Tray包含2個(gè)GB200超級(jí)芯片,每個(gè)GB200超級(jí)芯片又有2個(gè)Blackwell系列的B200 GPU,這使得整個(gè)機(jī)柜共擁有72個(gè)Blackwell GPU。并且每個(gè)Compute Tray還提供4個(gè)網(wǎng)絡(luò)接口卡用于Scale-out方向的擴(kuò)展,以滿足不同場(chǎng)景下的網(wǎng)絡(luò)需求。
在Switch Tray方面,1個(gè)Switch Tray包含2顆NVLINK Switch芯片,整個(gè)機(jī)柜共提供18個(gè)NVLink Switch芯片,整機(jī)柜后部通過(guò)線纜將Compute Tray和Switch Tray進(jìn)行互聯(lián),構(gòu)建起了一個(gè)高效的數(shù)據(jù)傳輸網(wǎng)絡(luò)。
性能上,B200采用最新一代的NVLink 5連接方案,對(duì)外可提供1.8TB/s(NVIDIA采用雙向計(jì)算,即單向7.2Tb/s)的NVLink連接,單個(gè)Compute Tray提供7.2TB/s(單向28.8Tb/s)帶寬,NVL72整機(jī)柜的Compute Tray提供129.6TB/S的NVLink帶寬。
而NVLink5 Switch對(duì)外可提供7.2TB/s(單向28.8Tb/s)的NVLink連接,單個(gè)Switch Tray提供14.4TB/s(單向57.6Tb/s)帶寬,NVL72整機(jī)柜的Switch Tray同樣提供129.6TB/s的NVLink帶寬,如此一來(lái),超節(jié)點(diǎn)整機(jī)柜Compute Tray的GPU和Switch Tray的交換芯片之間就能夠?qū)崿F(xiàn)全連接,極大地提升了數(shù)據(jù)傳輸效率,解決了GPU之間的高速通信帶寬和效率問(wèn)題。
通過(guò)NVLink,所有GPU都可以任意訪問(wèn)其他GPU的內(nèi)存空間,同時(shí),英偉達(dá)還設(shè)計(jì)了NVLink C2C,B200和Grace CPU之間采用NVLink C2C連接,創(chuàng)建了一個(gè)NVLink可尋址的內(nèi)存地址空間,B200和Grace CPU之間的內(nèi)存可以互相訪問(wèn),進(jìn)一步優(yōu)化了內(nèi)存的訪問(wèn)效率。
每顆B200提供192GB的HBM3e內(nèi)存,每顆Grace CPU提供480GB的LPDDR5X內(nèi)存,使得每個(gè)GB200超級(jí)芯片提供384GB HBM內(nèi)存和480GB LPDDR5X內(nèi)存,NVL72整機(jī)柜支持13.5TB的HBM和17TB的LPDDR5X內(nèi)存容量,為大規(guī)模數(shù)據(jù)處理和復(fù)雜模型訓(xùn)練提供了充足的內(nèi)存支持 。
在能耗與散熱方面,GB200超級(jí)芯片的功耗為2700W,每個(gè)Compute Tray的功耗約為6.3kW,每個(gè)Switch Tray功耗超過(guò)800W,NVL72整機(jī)柜的功耗預(yù)計(jì)達(dá)到120kW,為保證設(shè)備穩(wěn)定運(yùn)行,采用冷板液冷進(jìn)行散熱,有效解決了高功耗帶來(lái)的散熱難題。
此外,英偉達(dá)還對(duì)GB300配置進(jìn)行了優(yōu)化,通過(guò)新的Ultra架構(gòu),實(shí)現(xiàn)了單卡1.5倍的FP4性能提升,GPU的HBM容量從192GB提升到288GB;B300芯片功率上升到1400W,但通過(guò)電力調(diào)配技術(shù),NVL72機(jī)柜能耗保持不變,單位算力能耗降低33% ;網(wǎng)絡(luò)接口卡從CX7提升到CX8,光模塊從800G提升到1.6T,進(jìn)一步提升了網(wǎng)絡(luò)傳輸性能。
2、DeepSeek:開(kāi)源模型引領(lǐng)中國(guó)AI實(shí)驗(yàn)室崛起
獨(dú)立基準(zhǔn)測(cè)試機(jī)構(gòu)Artificial Analysis的最新報(bào)告顯示,中國(guó)AI實(shí)驗(yàn)室DeepSeek憑借其R1-0528模型,以68分的智能指數(shù)評(píng)分躍居全球第二大AI實(shí)驗(yàn)室,與谷歌Gemini 2.5 Pro并列,超越了馬斯克的xAI、扎克伯格的Meta和Anthropic等硅谷巨頭,標(biāo)志著中國(guó)大模型研發(fā)正從“追趕”邁向“并跑”階段。
DeepSeek的R1模型自發(fā)布以來(lái)便備受關(guān)注,其在多個(gè)領(lǐng)域展現(xiàn)出了卓越的性能。在數(shù)學(xué)推理任務(wù)中,準(zhǔn)確率高達(dá)97.3%,超越了GPT-4等頂尖模型,在AIME和MATH-500等基準(zhǔn)測(cè)試中也展現(xiàn)出了卓越的推理能力和更快的響應(yīng)速度。近期完成的小版本升級(jí),即當(dāng)前的DeepSeek-R1-0528版本,更是在性能上實(shí)現(xiàn)了質(zhì)的飛躍。新版本仍然使用DeepSeek V3Base模型作為基座,但在后訓(xùn)練過(guò)程中投入了更多算力,顯著提升了模型的思維深度與推理能力 。
在復(fù)雜推理任務(wù)中的表現(xiàn)有了顯著提升,在AIME2025測(cè)試中,新版模型準(zhǔn)確率由舊版的70%大幅提升至87.5%,在整體表現(xiàn)上已接近其他國(guó)際頂尖模型,如o3與Gemini-2.5-Pro。
此次升級(jí)還在降低幻覺(jué)率、提升前端代碼生成能力和工具調(diào)用等方面取得了突破?;糜X(jué)率降低了45% - 50%,使得模型在生成內(nèi)容時(shí)更加準(zhǔn)確可靠,減少了無(wú)意義或錯(cuò)誤信息的輸出。在前端代碼生成方面,能力得到了顯著增強(qiáng),能夠生成更穩(wěn)定、高質(zhì)量的代碼。模型還新增了工具調(diào)用功能,例如在處理網(wǎng)頁(yè)內(nèi)容總結(jié)任務(wù)時(shí),它能夠自動(dòng)爬取網(wǎng)頁(yè)并輸出結(jié)果,大大提高了工作效率。
DeepSeek還推出了基于Qwen3-8BBase微調(diào)的DeepSeekR1-0528-Qwen3-8B模型,在數(shù)學(xué)測(cè)試AIME2024中僅次于原R1版本,性能超越了阿里的Qwen3-235B。盡管這是一個(gè)僅有80億參數(shù)的小模型,但在數(shù)學(xué)測(cè)試?yán)锓謹(jǐn)?shù)比擁有2350億參數(shù)的大模型還高,甚至能和Google的Gemini 2.5打平,充分證明了其訓(xùn)練方法的有效性,也為資源有限的團(tuán)隊(duì)提供了新的思路和方向。
DeepSeek能夠取得如此成就,離不開(kāi)背后研發(fā)公司杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司以及其創(chuàng)立者幻方量化的支持?;梅搅炕诹炕顿Y領(lǐng)域多年積累的深厚底蘊(yùn)和強(qiáng)大實(shí)力,為DeepSeek的模型訓(xùn)練、算法優(yōu)化等筑牢了堅(jiān)實(shí)的硬件根基,其儲(chǔ)備的萬(wàn)張A100芯片,為DeepSeek在技術(shù)發(fā)展的賽道上飛速馳騁提供了保障。
在開(kāi)源策略上,DeepSeek完全開(kāi)源R1等模型,采用MIT協(xié)議,允許開(kāi)發(fā)者自由定制和二次開(kāi)發(fā),極大地吸引了全球開(kāi)發(fā)者,促進(jìn)了技術(shù)共享與社區(qū)協(xié)作;開(kāi)放API的定價(jià)僅為OpenAI同類產(chǎn)品的1/10,輸入每百萬(wàn)token僅需0.55美元,輸出2.19美元,這一親民的價(jià)格降低了中小企業(yè)進(jìn)入AI領(lǐng)域的門(mén)檻,使得更多企業(yè)能夠基于DeepSeek的技術(shù)進(jìn)行應(yīng)用開(kāi)發(fā),進(jìn)一步推動(dòng)了其在各行業(yè)的廣泛應(yīng)用。
英偉達(dá)NVL72機(jī)柜的加速出貨為AI算力提供了強(qiáng)大的硬件支撐,而DeepSeek成為全球第二大AI實(shí)驗(yàn)室則彰顯了中國(guó)在AI模型研發(fā)領(lǐng)域的實(shí)力。隨著硬件與模型技術(shù)的不斷創(chuàng)新與發(fā)展,AI產(chǎn)業(yè)將迎來(lái)更加繁榮的未來(lái),為各行業(yè)的數(shù)字化轉(zhuǎn)型和智能化升級(jí)注入源源不斷的動(dòng)力。
本號(hào)資料全部上傳至知識(shí)星球,更多內(nèi)容請(qǐng)登錄智能計(jì)算芯知識(shí)(知識(shí)星球)星球下載全部資料。