2024年6月,英特爾發(fā)布了至強6700E系列,被稱為了至強6能效核。其中, 豪華的配置,被用戶稱道核芯搖搖領(lǐng)先。然而,這還并非是至強6系列的最強形態(tài),時隔3個月多,2024年9月26日,英特爾又發(fā)布了6900P系列產(chǎn)品,以“P”為后綴的命名方式,我們可以理解為采用的是Performance Core,即提供了72到128核多種規(guī)格,僅公開的組合就有5種型號,例如最高頻可以達到3.2GHz,500W以及擁有128核心的6980P。
“英特爾至強6性能核處理器,在設(shè)計芯片的時候,有一個非常靈活的設(shè)計,將它分為了兩個單元,一個單元叫做計算單元(compute die),另一個單元則叫做I/O單元(I/O die)。”英特爾數(shù)據(jù)中心與人工智能集團副總裁兼中國區(qū)總經(jīng)理陳葆立表示:“在計算單元里面,包含了最重要的X86內(nèi)核、內(nèi)存控制器和緩存。在I/O單元里面,包含了PCle、CXL、UPI等通用協(xié)議,也包括了英特爾獨有的加速器。通過不同的排列組合,我們能夠更好地滿足云邊端針對不同場景、不同性能、不同功耗的需求,并推出更優(yōu)化的產(chǎn)品。”
陳葆立提到,至強6性能核可以運行12種不同的工作負(fù)載,從通用計算、數(shù)據(jù)庫,到科學(xué)計算、AI等。其中,在常用的數(shù)據(jù)中心工作負(fù)載種,單顆CPU性能和每瓦特性能與上一代產(chǎn)品相比快了兩倍以上。之外,至強6應(yīng)用了MRDIMM內(nèi)存技術(shù),該技術(shù)可以實現(xiàn)兩個列的同步操作,允許一次向 CPU 傳輸 128 字節(jié)的數(shù)據(jù),更快的內(nèi)存技術(shù),使得一些對內(nèi)存非常敏感的工作負(fù)載,例如科學(xué)計算、AI等,有1.2-1.3倍的提升。也配備了CXL2.0技術(shù),該技術(shù)可以幫助客戶實現(xiàn)物理極限的突破,通過擴展,可以在數(shù)據(jù)庫或者大內(nèi)存的場景里支持更多、更大的內(nèi)存。
總而言之,至強6性能核處理器,擁有更加強大、雙倍的內(nèi)核,更快的內(nèi)存,既適合多樣化的工作負(fù)載,也可以在安全方面得到一定的保障。因為涉及高密度的計算服務(wù),所以,很多客戶會對隱私及數(shù)據(jù)的安全有一定的要求。而至強6性能核,在TDX做了2.0的提升,能提更可靠、更牢固的安全密鑰,從而支持客戶的產(chǎn)品。
數(shù)字浪潮下的 “至強”換代
在澎湃的數(shù)字浪潮當(dāng)中,不論是醫(yī)療輔助決策,還是機器視覺、金融行業(yè)的量化交易與風(fēng)險管理,亦或是智慧城市和智能家居。英特爾至強6性能核在計算密度、內(nèi)存容量、數(shù)據(jù)處理和能效優(yōu)化有著非常大的提升,不僅為合作伙伴提供了算力硬件的支撐,也為行業(yè)算力增加了一個可選項。
浪潮信息基于模塊化、松耦合的開源架構(gòu),推出了搭載英特爾至強6處理器的服務(wù)器NF3290G8。它能夠?qū)崿F(xiàn)算力標(biāo)準(zhǔn),而通過算力單元的擴展,實現(xiàn)單路、雙單路架的靈活擴展,并且能實現(xiàn)外圍組件的歸一化,讓平臺機型盡量統(tǒng)一,也降低了用戶的運維負(fù)擔(dān)。除了基于解耦架構(gòu)設(shè)計的NF3290G8服務(wù)器,還有旗艦2U2S通用服務(wù)器NF5280G8,較上一代單機核心提升100%(EMR 64C,GNR-AP P-Core 128C,兩個內(nèi)存通道分別為8和12),1DPC情況下,內(nèi)存帶寬提升71%(EMR是5600, GNR-AP是6400),MRDIMM內(nèi)存帶寬提升136%(MRDIMM內(nèi)存速率是8800)。高密計算型2U4N通用服務(wù)器i24G8,同時支持全方位液冷、百分之百節(jié)點的全液冷,可以滿足科學(xué)計算對于高密度以及高機柜性能的要求,并且可以多節(jié)點實現(xiàn)高速網(wǎng)絡(luò)的共享,來支持最高等級的128核的至強6處理器。
在內(nèi)存拓展方面,超聚變聯(lián)合英特爾基于CXL技術(shù)做了大量的工作,提供了CXL1.1的內(nèi)存擴展方案。在此之后,超聚變也基于至強6性能核處理器,推出了全球領(lǐng)先的CXL2.0內(nèi)存池解決方案。其特點包括能夠提供內(nèi)存及服務(wù)的功能,實現(xiàn)內(nèi)存資源池化,支持多節(jié)點空間彈性分配,按需供給和網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)全局共享;其次,CXL 共享內(nèi)存可以作為數(shù)據(jù)傳輸通道;此外,支持從16 GB到128GB各種容量的DIMM兼容。
新華三則協(xié)助英特爾,攜手推出了G-Flow油類單相浸沒液冷方案。該方案使用了臭氧消耗潛值ODP為0的絕緣油,也就是對臭氧層沒有破壞作用或破壞作用極小的絕緣油。但此類液體在實際應(yīng)用中有一定的黏稠性,其優(yōu)勢在于增加了強制對流,這樣所有由CDU(冷卻分配單元)提供的流量都可以通過芯片散熱器而不經(jīng)過旁路。并且通過控制液面高度差,利用重力強制流體通過處理器區(qū)域。通過實測,G-Flow方案可以解決千瓦級的芯片散熱需求,提升能效的同時讓用戶在選擇冷卻液方面具有更大的靈活性。
聯(lián)想推出的ThinkSystem SC750 V4是一款支持至強性能核的高密度服務(wù)器。它主要是采用了聯(lián)想海神的溫水水冷技術(shù),它可以做到在100%的散熱都可以通過水冷去覆蓋。在SC750 V4中,通過第六代的溫水水冷技術(shù),做到了百分之百的全覆蓋。這種全覆蓋可以非常有效的把PUE降下去,整個數(shù)據(jù)中心的PUE(數(shù)據(jù)中心總能耗/IT設(shè)備能耗)可以做到1.1以下。
英特爾市場營銷集團副總裁、中國區(qū)云與行業(yè)解決方案和數(shù)據(jù)中心銷售部總經(jīng)理梁雅莉表示:“大家都知道,每項的創(chuàng)新技術(shù),最終的價值是能夠賦能產(chǎn)業(yè),造福社會。唯有和產(chǎn)業(yè)、和具體的場景深度融合,持續(xù)提高生產(chǎn)力的效率和品質(zhì),它的價值才能夠得以彰顯。我們希望和我們的合作伙伴一起,能夠為新質(zhì)生產(chǎn)力添磚加瓦,能夠為這樣一個偉大時代的崛起添磚加瓦,貢獻綿薄之力。”
“至強”應(yīng)用在AI時代下的推敲
CPU在數(shù)字浪潮的當(dāng)下,提供了算力的基礎(chǔ)。但是生成式AI的興起時代中,很明顯的變化是計算體系從傳統(tǒng)的CPU主導(dǎo)模式逐步向GPU轉(zhuǎn)變。換句話說,算力的需求正在向GPU一邊倒。不過陳葆立在發(fā)布會中指出:“現(xiàn)在所有的AI服務(wù)器或者加速系統(tǒng),絕大部分的機頭也都是英特爾CPU處理器。因為在加速系統(tǒng)里面機頭CPU也需要非常出色的I/O性能和單核性能,支持更快、更大的內(nèi)存。我們與主流的GPU廠商、AI生態(tài)合作伙伴建立了良好的合作關(guān)系,共同定義至強規(guī)格以提供最佳的機頭體驗。”
對于大型數(shù)據(jù)中心來說,每顆芯片都在牟足力氣,全功率地運行著。其實跑AI并非只有GPU一個選擇,CPU也已經(jīng)具備很強大了AI性能。CPU可以通過內(nèi)置DSP、NPU,分走一部分部分AI負(fù)載,讓AI任務(wù)跑得更高效,從而更省電,至強也是類似的原理。
這種設(shè)計在早期的至強可擴展處理器中就出現(xiàn)過,只不過,那時候大家沒有過多關(guān)注,也沒有那么AI任務(wù)需要跑。而最早的關(guān)注是來自第五代至強,其內(nèi)置的英特爾AVX-512及英特爾? AMX(英特爾?高級矩陣擴展)功能是關(guān)鍵,這兩個加速器在第四代至強中就已搭載,而在第五代至強中,AMX支持新的FP16指令,同時混合AI工作負(fù)載性能提高2~3倍。
相比第五代至強,最新發(fā)布的至強6900P單顆CPU性能和每瓦特性能分別有3.08倍、2.16倍提升;針對80億參數(shù)的Llama3,則分別有2.40倍、1.68倍提升。此外,根據(jù)行業(yè)人士分析,CPU做大模型推理,最大的難點不在計算能力,而在內(nèi)存帶寬。至強6900P的內(nèi)存帶寬的擴展加上更快的傳輸方式,這些都為第六代至強支持大模型提供了堅實的后盾。
AI 時代中,CPU還未被完全拋棄,可以肯定的是從深度神經(jīng)網(wǎng)絡(luò)(DNN)到 Transformer 大模型,對硬件的要求產(chǎn)生了顯著變化。CPU 不僅沒有被邊緣化,反而持續(xù)升級以適應(yīng)這些變化,并做出了重要改變。同時AI 大模型也不是只有推理和訓(xùn)練的單一任務(wù),還包括數(shù)據(jù)預(yù)處理、模型訓(xùn)練、推理和后處理等,整個過程中需要非常多軟硬件及系統(tǒng)的配合。在 GPU 興起并廣泛應(yīng)用于 AI 領(lǐng)域之前,CPU 就已經(jīng)作為執(zhí)行 AI 推理任務(wù)的主要硬件在被廣泛使用。其作為通用處理器發(fā)揮著非常大的作用,整個系統(tǒng)的調(diào)度、任何負(fù)載的高效運行都離不開它的協(xié)同優(yōu)化。
陳葆立表示,“面對AI時代對更高質(zhì)量和更多元化的算力需求,英特爾推出全新至強6性能核處理器。憑借強大的計算密度、領(lǐng)先的單核性能、更高的內(nèi)存帶寬和I/O以及出色的能效,至強6性能核處理器能夠應(yīng)對數(shù)據(jù)中心豐富多樣的工作負(fù)載挑戰(zhàn)。在推動基礎(chǔ)設(shè)施創(chuàng)新的同時,英特爾亦持續(xù)從打造解決方案到構(gòu)建行業(yè)統(tǒng)一標(biāo)準(zhǔn)等多維度,助力高能效數(shù)據(jù)中心發(fā)展。”
所以,與其關(guān)注短時間無法達到的算力規(guī)模,不如聚焦在“效價比”,即綜合考量大模型訓(xùn)練和推理過程中所需軟硬件的經(jīng)濟投入成本、使用效果和產(chǎn)品性能。
這或許就是英特爾不斷為至強系列施加性能創(chuàng)新壓力的根本原因。