智算中心,就是以人工智能計算任務(wù)為主的數(shù)據(jù)中心。
數(shù)據(jù)中心通常包括三種類別,除了智算中心以外,另外兩種分別是以通用計算任務(wù)為主的通算中心,以及以超級計算任務(wù)為主的超算中心。
2023年以來,以ChatCPT、Sora為代表的AIGC大模型橫空出世,掀起了一股席卷全球的AI浪潮。
想要在AI浪潮中占據(jù)優(yōu)勢,就必須擁有強勁的AI算力支撐。智算中心,作為AI算力的核心基礎(chǔ)設(shè)施,逐漸成為人們關(guān)注的焦點,也是行業(yè)重點建設(shè)的對象。
根據(jù)數(shù)據(jù)顯示,我國目前已經(jīng)有包括武漢、成都、長沙、南京、呼和浩特等在內(nèi)的20多個城市建設(shè)了智算中心。到2025年,國內(nèi)智算中心數(shù)量將超過50個。
這些智算中心采用專門的AI算力硬件,適合高效運行AI算法。它們可以應(yīng)用于計算機視覺、自然語言處理、機器學(xué)習(xí)等領(lǐng)域,處理圖像識別、語音識別、文本分析、模型訓(xùn)練推理等任務(wù)。
█ 智算服務(wù)器,到底有什么不同?
智算服務(wù)器是智算中心的主要算力硬件。它和傳統(tǒng)通用服務(wù)器最大的區(qū)別,在于算力芯片的不同。
傳統(tǒng)通用服務(wù)器以CPU作為主要芯片,有的配置了GPU(圖形處理單元)卡,也有的沒配。即便配置了,也數(shù)量不多(1-2塊),以完成傳統(tǒng)圖形處理任務(wù)(3D圖形渲染等)為主。
智算服務(wù)器,為了保證的操作系統(tǒng)運行,也配置了CPU。但是,為了更好地完成AI計算任務(wù),所以配置了更多的GPU、NPU(神經(jīng)網(wǎng)絡(luò)處理單元)、TPU(張量處理單元)等計算芯片(4塊或8塊),以這些芯片輸出的算力為主。
這種“CPU+GPU”、“CPU+NPU”的架構(gòu),也被稱為“異構(gòu)計算”架構(gòu),能夠充分發(fā)揮不同算力芯片在性能、成本和能耗上的優(yōu)勢。
GPU、NPU、TPU的內(nèi)核數(shù)量多,擅長并行計算。AI算法涉及到大量的簡單矩陣運算任務(wù),需要強大的并行計算能力。
在實際使用中,GPU、NPU、TPU會做成板卡的形態(tài),插入到智算服務(wù)器的插槽中。等服務(wù)器上電啟動后,再根據(jù)調(diào)度執(zhí)行計算任務(wù)。
除了芯片不同之外,為了充分發(fā)揮性能以及保障穩(wěn)定運行,AI服務(wù)器在架構(gòu)、存儲、散熱、拓?fù)涞确矫嬉策M行了強化設(shè)計。
例如,智算服務(wù)器的DRAM容量通常是普通服務(wù)器的8倍,NAND容量是普通服務(wù)器的3倍。甚至它的PCB電路板層數(shù)也明顯多于傳統(tǒng)服務(wù)器。
瘋狂堆料,肯定也會帶來兩者之間的成本差異。一臺智算服務(wù)器的價格,可能會達(dá)到傳統(tǒng)通用服務(wù)器的數(shù)十倍以上。
不久前,中國移動公示了2024年至2025年新型智算中心集采中標(biāo)結(jié)果,采購智算服務(wù)器總規(guī)模達(dá)到8054臺,中標(biāo)總金額達(dá)到了約191.04億元人民幣(不含稅)。平均下來,每臺的價格是237.2萬元。通用服務(wù)器的價格,根據(jù)品牌和配置的不同,大約在1到10萬元之間。
受算力板卡的影響,智算服務(wù)器的功耗也明顯大于通用服務(wù)器。
以英偉達(dá)GPU為例,A100單卡功耗400W,H100單卡功耗700W。配置了8張GPU的智算服務(wù)器,僅GPU的熱功耗就能達(dá)到3.2~5.6 kW。傳統(tǒng)通用服務(wù)器的話,也就0.3~0.5 kW左右。
從外型上來看,智算服務(wù)器和通用服務(wù)器并沒有很大的區(qū)別。兩者都是標(biāo)準(zhǔn)架構(gòu),可以放入42U標(biāo)準(zhǔn)機架。如果內(nèi)置了較多的AI算力板卡,智算服務(wù)器的厚度可能會稍微大一些,達(dá)到4U、5U甚至10U。
這里需要注意,根據(jù)工作任務(wù)的不同,智算服務(wù)器也會分為訓(xùn)練服務(wù)器、推理服務(wù)器或者訓(xùn)推一體服務(wù)器。這些服務(wù)器在架構(gòu)和體型上會存在一些差異。一般來說,訓(xùn)練服務(wù)器會比推理服務(wù)器更龐大一些(AI算力板卡更多)。