91福利国产在线观看一区二区 ,久久综合色播

最近這段時間，有一個新名詞在AI圈里迅速走紅，那就是——超節(jié)點。

在各大展會論壇上，超節(jié)點頻繁亮相。行業(yè)大佬們也紛紛搖旗吶喊，認為它將是智算發(fā)展的重要趨勢，迎來一波發(fā)展熱潮。

那么，到底什么是超節(jié)點呢？我們?yōu)槭裁磿枰?jié)點呢？

今天這篇文章，小棗君就給大家做一個深入解讀。

█?什么是超節(jié)點？

超節(jié)點，英文名叫SuperPod，是英偉達公司最先提出的概念。

大家都知道，GPU是重要的算力硬件，為AIGC 大模型的訓推提供了有力的支撐。

隨著大模型參數(shù)規(guī)模的不斷增長，對GPU集群的規(guī)模需求，也在不斷增長。從千卡級到萬卡級，再到十萬卡級，將來甚至可能更大。

那么，我們該如何構建規(guī)模越來越大的GPU集群呢？

答案很簡單，就是Scale Up和Scale Out。

Scale Up，是向上擴展，也叫縱向擴展，增加單節(jié)點的資源數(shù)量。Scale Out，是向外擴展，也叫橫向擴展，增加節(jié)點的數(shù)量。

每臺服務器里，多塞幾塊GPU，這就是Scale Up。這時，一臺服務器就是一個節(jié)點。

通過網(wǎng)絡，將多臺電腦（節(jié)點）連接起來，這就是Scale Out。

先說說Scale Up。

對于單臺服務器來說，受限于空間、功耗和散熱，能塞入的GPU數(shù)量是有限的，一般也就8卡、12卡。

塞入這么多塊GPU，還要考慮服務器的內(nèi)部通信能力是否能夠支持。如果GPU互連存在瓶頸，那么就達不到Scale Up的預期效果。

以前，計算機內(nèi)部主要基于PCIe協(xié)議，數(shù)據(jù)傳輸速率慢，時延高，根本無法滿足要求。

2014年，英偉達為了解決這個問題，專門推出了自家私有的NVLINK總線協(xié)議。NVLINK允許GPU之間以點對點方式進行通信，速度遠高于PCIe，時延也低得多。

NVLINK原本只用于機器內(nèi)部通信。2022年，英偉達將NVSwitch芯片獨立出來，變成了NVLink交換機，用于連接服務器之間的GPU設備。這意味著，節(jié)點已經(jīng)不再僅限于1臺服務器了，而是可以由多臺服務器和網(wǎng)絡設備共同組成。

這些設備處于同一個HBD（High Bandwidth Domain，超帶寬域）。英偉達將這種以超大帶寬互聯(lián)16卡以上GPU-GPU的Scale Up系統(tǒng)，稱為超節(jié)點。

歷經(jīng)多年的發(fā)展，NVLINK已經(jīng)迭代到第五代。每塊GPU擁有18個NVLink連接，Blackwell GPU的總帶寬可達到1800GB/秒，遠遠超過PCIe Gen6的總線帶寬。

2024年3月，英偉達發(fā)布了NVL72，可以將36個Grace CPU和72個Blackwell GPU集成到一個液冷機柜中，實現(xiàn)總計720 PFLOPs的AI訓練性能，或1440 PFLOPs的推理性能。

█?超節(jié)點，有哪些優(yōu)點？

說到這里，大家可能會提出疑問——為什么一定要搞超節(jié)點呢？如果Scale Up這條路線不好走，我們就走Scale Out路線，增加節(jié)點數(shù)，不也能做出大規(guī)模GPU集群嗎？

答案很簡單。之所以要搞超節(jié)點這種加強版的Scale Up，是因為在性能、成本、組網(wǎng)、運維等方面，能帶來巨大優(yōu)勢。

Scale Out，考驗的是節(jié)點之間的通信能力。目前，主要采用的通信網(wǎng)絡技術，是Infiniband（IB）和RoCEv2。

這兩個技術都是基于RDMA（遠程直接內(nèi)存訪問）協(xié)議，擁有比傳統(tǒng)以太網(wǎng)更高的速率、更低的時延，負載均衡能力也更強。

IB是英偉達的私有技術，起步早，性能強，價格貴。RoCEv2是開放標準，是傳統(tǒng)以太網(wǎng)融合RDMA的產(chǎn)物，價格便宜。兩者之間的差距，在不斷縮小。

在帶寬方面，IB和RoCEv2僅能提供Tbps級別的帶寬。而Scale Up，能夠?qū)崿F(xiàn)數(shù)百個GPU間10Tbps帶寬級別的互聯(lián)。

在時延方面，IB和RoCEv2的時延時延高達10微秒。而Scale Up對網(wǎng)絡時延的要求極為嚴苛，需要達到百納秒（100納秒=0.1微秒）級別。

在AI訓練過程中，包括多種并行計算方式，例如TP（張量并行）、 EP（專家并行）、PP（流水線并行）和DP（數(shù)據(jù)并行）。

通常來說，PP和DP的通信量較小，一般交給Scale Out搞定。而TP和EP的通信量大，需要交給Scale Up（超節(jié)點內(nèi)部）搞定。

超節(jié)點，作為Scale Up的當前最優(yōu)解，通過內(nèi)部高速總線互連，能夠有效支撐并行計算任務，加速GPU之間的參數(shù)交換和數(shù)據(jù)同步，縮短大模型的訓練周期。

超節(jié)點一般也都會支持內(nèi)存語義能力，GPU之間可以直接讀取對方的內(nèi)存，這也是Scale Out不具備的。

站在組網(wǎng)和運維的角度來看，超節(jié)點也有明顯優(yōu)勢。

超節(jié)點的HBD（超帶寬域）越大，Scale Up的GPU越多，Scale Out的組網(wǎng)就越簡單，大幅降低組網(wǎng)復雜度。

Scale Up & Scale Out組網(wǎng)示意圖

超節(jié)點是一個高度集成的小型集群，內(nèi)部總線已經(jīng)連好。這也降低了網(wǎng)絡部署的難度，縮短了部署周期。后期的運維，也會方便很多。

當然，超節(jié)點也不能無限大，也要考慮本身的成本因素。具體的規(guī)模，需要根據(jù)需求場景進行測算。

概括來說，超節(jié)點的優(yōu)勢，就是增加局部的帶寬，減少增加全局帶寬的成本，以此獲得更大的收益。

█?超節(jié)點，有哪些可選的方案？

正因為超節(jié)點擁有顯著的優(yōu)勢，所以，在英偉達提出這一概念后，立刻受到了業(yè)界的關注。也有很多廠商，加入到超節(jié)點的研究之中。

當前，業(yè)界主流的超節(jié)點方案，主要包括如下幾種：

一、私有協(xié)議方案。

代表廠商，當然就是英偉達。

除了英偉達之外，國內(nèi)大廠華為，前段時間高調(diào)發(fā)布的AI核彈級技術——CloudMatrix 384超節(jié)點，也屬于私有協(xié)議。

CloudMatrix 384以384張昇騰算力卡組成一個超節(jié)點，在目前已商用的超節(jié)點中單體規(guī)模最大，可提供高達300 PFLOPs的密集BF16算力，接近達到英偉達GB200 NVL72系統(tǒng)的兩倍。

二、開放組織方案。

有私有協(xié)議，當然就會有開放標準。互聯(lián)網(wǎng)時代，開放解耦是大勢所趨。

私有協(xié)議往往意味著高昂的成本。對于AI這個熱門方向來說，發(fā)展開放標準，有利于降低行業(yè)門檻，幫助實現(xiàn)技術平權。

目前來看，超節(jié)點的開放標準還不止一個，但基本上都是以以太網(wǎng)技術（ETH）為基礎。因為以太網(wǎng)技術最成熟、最開放，也擁有最多的參與企業(yè)。

從技術的角度來看，以太網(wǎng)具有最大交換芯片容量（單芯片51.2T已商用）、最高速Serdes技術（目前達到112Gbps），交換芯片時延也很低（200ns），完全可以滿足Scale Up的性能要求。

在超節(jié)點開放標準中，其中比較有代表性的，是由開放數(shù)據(jù)中心委員會（ODCC）主導、中國信通院與騰訊牽頭設計的ETH-X開放超節(jié)點項目。

這個項目一共有30余家產(chǎn)學研機構共同參與。其中，既包括運營商（中國移動）、云廠商（騰訊等），也包括設備商（銳捷、中興等）、算卡提供商（燧原科技、壁仞科技等）商，以及高速互連技術方案提供商（立訊技術等）。

我們來簡單了解一下ETH-X開放超節(jié)點的技術細節(jié)。

ETH-X基于以太網(wǎng)技術構建大帶寬、彈性可擴展的HBD，具備高算力密度、高互聯(lián)帶寬、高功率密度和高能效等特點。

值得注意的是，ETH-X不僅包括了Scale Up，也包括了Scale Out。典型的組網(wǎng)拓撲，如下圖所示：

根據(jù)騰訊在2024開放數(shù)據(jù)中心大會提供的數(shù)據(jù)，基于ETH-X超節(jié)點，在訓練場景下，LLama-70B稠密型模型在64K集群下的性能/成本進行對比，采用256卡的Scale Up，比8卡的Scale Up低了38%的訓練成本。

在推理場景下，LLama-70B在FP4精度128卡實例推理性能/成本對比中，256卡的Scale Up比8卡的Scale Up增加了40.48%的推理收益。

這個效果還是非常不錯的。

目前，ETH-X超節(jié)點技術規(guī)范1.0已經(jīng)發(fā)布。不久前（4月8日），ETH-X開放超節(jié)點項目在華勤技術東莞智能制造基地，舉行了首臺原型機的下線點亮儀式。

我們再來看看ETH-X開放超節(jié)點的實物架構。

AI Rack整機柜是ETH-X超節(jié)點的具體實現(xiàn)方式。整機柜內(nèi)Serdes速率目前最高支持112Gbps，未來支持到224Gbps。

機柜包括計算節(jié)點、交換節(jié)點和關鍵組件。

整機柜內(nèi)部可以實現(xiàn)多GPU間NOC（Network-on-Chip）級通信拓撲，通過統(tǒng)一內(nèi)存編址與內(nèi)存語義接口，支持跨GPU直接訪問（Direct Access）與零拷貝傳輸（Direct Copy）。

根據(jù)實際測試的數(shù)據(jù)，跨卡數(shù)據(jù)訪問時延能夠降低12.7倍，動態(tài)重構8~512卡超節(jié)點的彈性組合單元。

在關鍵組件中，Cable Tray特別值得關注。

ETH-X超節(jié)點AI Rack采用機柜銅連接方案。而Cable Tray，就是實現(xiàn)各個子系統(tǒng)硬件互通的高速銅纜方案，也是提供高速互連能力的重要連接器硬件。

英偉達的最新NVLINK方案，也用的Cable Cartridge方案。在短距傳輸場景，相對于光纖，機柜內(nèi)采用銅連接，可以實現(xiàn)高可靠性和低成本（減少了光模塊的使用），也有利于布線。目前看來，在Scale Up內(nèi)部使用銅纜直連技術，已經(jīng)是一個主流趨勢。

█?最后的話

好啦，以上就是關于超節(jié)點的全部介紹。大家都看懂了沒？

隨著AI浪潮的繼續(xù)發(fā)展，業(yè)界對超節(jié)點的需求會變得越來越強烈。更多的廠商，將會加入到相關的開放標準中。這將有力推動相關技術和標準的成熟，帶來更加繁榮和多元的生態(tài)。

超節(jié)點，未來可期！

最近很火的“超節(jié)點”，到底是干啥的？

█?什么是超節(jié)點？

█?超節(jié)點，有哪些優(yōu)點？

█?超節(jié)點，有哪些可選的方案？

█?最后的話

相關推薦

最近很火的“超節(jié)點”，到底是干啥的？

█?什么是超節(jié)點？

█?超節(jié)點，有哪些優(yōu)點？

█?超節(jié)點，有哪些可選的方案？

█?最后的話

相關推薦

最近很火的“超節(jié)點”，到底是干啥的？

█?什么是超節(jié)點？

█?超節(jié)點，有哪些優(yōu)點？

█?超節(jié)點，有哪些可選的方案？