狠狠色丁香久久综合频道日韩/国精产品999国精产品蜜臀/日韩精品一区二区三区丰满/美女搞黄免费

專注于數字技術的商業觀察者
登錄×
芯片
2024-06-06

重塑X86的認知,Lunar Lake技術解析之細節創新構建計算性能

時間: 2024-06-06 編輯:

Lunar Lake是英特爾繼Meteor Lake和酷睿Ultra之后,被稱為重塑人們對X86產品認知的一款處理器。“Lakefie...

Lunar Lake是英特爾繼Meteor Lake和酷睿Ultra之后,被稱為重塑人們對X86產品認知的一款處理器。“Lakefield率先嘗試了3D封裝技術,并且在Meteor Lake上實現了大規模量產。而Meteor Lake是真正意義上實現了CPU+GPU+NPU的多引擎AI加速處理器。”英特爾技術專家在會中提到:“Lunar Lake是全方位創新的新一代平臺, CPU性能核和能效核采用了全新的微架構,綜合AI性能可以達到120p TOPS(每秒兆次浮點運算)。”

120 TOPS換算下來,每秒鐘大約可以進行120萬億次浮點運算的能力。這個概念就像是人一秒鐘能做1道數學題,算力120 TOPS則相當于計算機一秒鐘能做120萬億道數學題。這樣的算力可以讓計算機更快地分析數據,并且會提供更精確的結果。

不過,值得注意的是, 120 TOPS是將Lunar Lake的GPU、CPU、NPU所有XPU加一起共為Lunar Lake平臺提供高達120 TOPS。劃分下來,每個XPU所承擔的算力都有不同,同時其責任也各不相同。因此,關于總計120TOPS的混合架構芯片,還是有許多的問題,比如其中不同架構的又與上代產品Meteor Lake有何區別? AI性能的提升,會帶來哪些變化?此外,GPU+CPU+NPU三種架構的集合,會對工藝有什么要求?更為重要的是,不同的架構提供了多少TOPS?等。要想回答上述問題,還需要從Lunar Lake的架構說起來。

緊湊“有型”的Lunar Lake架構

Lunar Lake采用了LPDDR5X 內存芯片集成于處理器封裝之上的封裝技術,MoP(Memory on Package)封裝。這將會提高系統的整體性能和效率,因為集成內存可以減少數據傳輸的延遲,并支持更高的數據吞吐量,除此之外,還節省了250mm平方的面積,從而使得PCB的層數能夠降低,緊湊的主板設計使面積變少。相應的,在顯著的好處之外,也會涉及到許多復雜的技術和設計挑戰,例如功耗管理問題,特別是在高性能應用中,同時內存與處理器核心和設計之間的布線必須非常精準,以確保信號的速度和穩定性。

在英特爾的MoP技術之前,一些內存封裝在SoC的芯片,多用于移動端。為了降低功耗實現高性能,大多數都是采用了水平堆疊的多層封裝,例如A14、A15以及高通驍龍888和8Gen1等等。而用于高性能、數據中心或者更直白一些來說,用于PC端(無論是筆記本還是臺式)的封裝在SoC內存,Lunar Lake是首款, 內存規格為LPDDR5x。至多可設計2顆內存顆粒,至多支持的內存內容為32GB。而為了集成了所有平臺的控制器,包括安全的組件、以及無線/有線的連接組件,英特爾利用3D Foveros封裝技術將兩不同模塊封裝在一個無源的基襯上,從而實現了緊湊的Lunar Lake芯片。

整體的架構含有Lion Cove的P核,Skymont的E核以及Xe2的GPU微架構,以及第四代NPU。Lunar Lake計算芯片支持4個p核、4個E核。由于去掉了P-core的超線程設計,最終所呈現的將是8核心8線程的混合架構規格。集顯單元英特爾為之換上了嶄新的微架構Xe2,它提供了8個Xe核,同時還有8個光線追蹤單元。在XPU的戰略宣布之后,英特爾加大了PC處理器極限引擎的開發和迭代。作為嶄新的微架構Xe2,使命即是為AI提供推理性能的加持,這就導致,整個Lunar Lake架構的AI算力集中在了GPU單元中,達到了67 TOPS。

同樣,在XPU戰略進程中,AI先行的理念,NPU則是英特爾在AI加速器持續投入的產物。最新一代的NPU相較于前代Meteor Lake,提升了大概有4倍NPU計算能力,達到48 TOPS。這得益于其中有6個NPU引擎,共有9MB片上緩存,來加持在低功耗下持續的AI算力。并且NPU還包括12個Enhanced SHAVE,這個SHAVE是其中的一種DSP,主要用途是來做向量計算的,現總共有12個增強型的SHAVE DSP功能。

英特爾技術相關人員介紹說,Lunar Lake的新的CPU性能核和能效核采用了全新的微架構,能效比提升40%,在相同的單線程情況下,Lunar Lake可以節省一半功率。而采用全新的圖形引擎,在性能提升1.5倍。其AI性能也大幅度提升,綜合AI性能可以達到120 p TOPS以上,此外先進的3D封裝以及片上內存的設計可以讓OEM設計出更優美和更輕薄的筆記本產品。

多面創新,構建P核心性能

Lunar Lake的整體構架已經比較熟悉,結合Lion Cove的P核、Skymont的E核以及Xe2的GPU微架構,Lunar Lake實現了多種不同處理器單元的有效結合。這種設計不僅提升了性能,還進一步優化了功耗。因此,Lunar Lake在計算性能上展現出顯著的改變,特別是在多引擎AI加速方面,使得處理器在執行不同環境中的任務時會更加高效。

其中,Lion Cove的P核做出了重大的改變。為了使Lunar Lake具有高能效,會去除任何對最終產品沒有貢獻的晶體管,而超線程在Lunar Lake上,只是被移除的功能之一。英特爾技術專家解釋道,在最初的設計選擇上,超線程是一個選擇題,選擇是的情況下,在相同芯片面積下,可以增加30%的IPC,代價是多20%的功耗。在動態電容(Dynamic Capacitance)的參考下,在電壓頻率不變的情況下,功耗上升20%,但能帶來30%的性能增加。

這也就是說,在追求線程密度時,比如說數據中心部署中,超線程是非常好的選擇,或者說是目前最佳的選擇。但在客戶端SoC方面,情況會截然不同,由于引入的是高性能混合架構核心,同時具備P核和E核。在近幾代芯片中,E核已經被證明是比超線程更高效的一種多線程加速手段。所以,英特爾在考慮P核與E核的設計時,想到如果要追求多線程性能的話,與其去賦能超線程,不如去做E核。

因此,英特爾技術專家特別強調道,P核是單線程的,而且只有單線程,沒有超線程,不會也不能去賦能超線程。除此之外,P核在能效管理方面,也做足了改變——引入了動態的,基于AI神經網絡的AI Self-tuning controller(AI自調節控制器,即一種利用人工智能技術自動調整自身參數以優化性能的控制系統。)。使P核能夠根據實際的平臺實時的溫度、環境,去設置適當的時間閾值,以貼合當下環境的溫度收斂曲線。

更加精細的效能管理之下,英特爾還引入了更加精細的頻率調節。在Lion Cove架構中,每個頻率步長縮小到了16.67MHz,這就意味著用戶可以更精細地調整CPU頻率。比如,最高頻率是3.08GHz,但實際達不到時,可以降到比3.08GHz稍低的頻率,不是降到3.0GHz,而是3.067GHz,這樣又擠出來了2%的性能。

在微架構設計方面,英特爾技術專家特別提到,P核微架構的改革,徹底實現了性能的提升,同時消除了里面的結構性障礙,為后面幾代P核奠定設計基礎。首先,是從前端獲取指令,進行Decode(指令解碼),采用的是Wider Machine(在計算機體系結構中,通常指的是通過增加處理單元的數量和并行處理能力來提高處理器性能的設計理念。)設計概念,增加了8倍寬度的Prediction區塊(Prediction block,預測處理器即將執行的指令或數據。)以及2倍的Fetch區塊(Fetch Block, 從內存或緩存中獲取即將執行的指令),周期的取指字節數從64字節增加到128字節。其次,Decode的BW(Bandwidth,緩存讀取的帶寬)也由原來的6,提高到了現在的8。最后,技術專家介紹道,這其中微架構的Cache(緩存)極其重要,因此,緩存容量從4K增長到了5.25K;讀取的BW也增加了50%;微操作隊列的數目也有所增加,由原來的144變為了192。

亂序執行引擎(Out-of-Order Execution Engine)在P核中也是一個創新點。英特爾將亂序執行引擎分成了兩個獨立的域:整數(INT)域和向量(VEC)域。與以往相比較,不需要一個統一的調度器來處理所有類型的操作,并且還為每個域配置專用的調度器,簡化了調度器設計,減少了硬件開銷,提高了處理器的性能和能效。這種設計能夠更高效地處理不同類型的操作,減少資源爭用和能量消耗,是一種重要的微架構創新。

另外,英特爾又重新設計了內存子系統。前一代Redwood Cove,CPU綁定在每個P核內的緩存是兩層,分別是L1和L2。但是在Lion Cove中,則增加了三層緩存分別是L0 Cache(新增的第一層緩存,大小為48KB。)、L1 Cache(中間層緩存,大小為192KB,插在原來的L1和L2之間。)以及L2 Cache(MLC Cache,2.5MB,每個P核獨立的二級緩存。),再加上共享的一級緩存(總大小為12MB),共有四層Cache。此外,還增加Translation Buffer和AGU模塊,提高地址轉換和數據訪問的效率。這些改進的共同目標是減少內存訪問延遲、增加指令執行并行度(IPC),從而提升處理器的整體性能和效率。

全面增強,覆蓋日常需求

如果說P核是Lunar Lake的“神兵”,常用于極端重載的情況下,那么E核則是Lunar Lake的“利器”,以盡可能的覆蓋更多的日常計算需求為主導方向,來盡可能降低P核的使用機會。

但是值得注意的是,Lunar Lake的Skymont設計參考方向是Raptor Lake的P核性能,英特爾甚至希望能夠保持與其E核級別的能效水平。這就意味著Skymont會更加強調更寬的Wider Machine,并且還要致力于提高核內并行性的處理能力,然后去優化能耗。

在Predict中,相較于前一代的微架構,Skymont的改進由每個時鐘周期內的64字節的預測,提升到了128字節,處理器從緩存讀取數據的帶寬增加了50%。Prediction Across能力翻倍,使得處理器架構更加寬泛,可以更快的進行查找和分發工作。在Decode方面,相比前一代提高了50%,這也就意味著每個時鐘周期可以解碼9條X86指令。此外,UOP隊列的容量從前一代的64提高到了96個條目。同時,Skymont還引入了Nanocode新功能,它是允許每一個解碼集群可以獨立去處理多個microcode流,也是為了大大提高并行性能。

而在亂序執行方面,地址和重命名的寬度從6增加到8,每周期退出指令從8增加到16。并且引入了Dependency breaking,用以減少指令間的依賴,降低延遲。還提升了ROB容量,從256增加到416,增加了60%。后端資源方面,Physical register files、Load&store buffer和reservation stations能夠又機會放到冗余里面,拿來執行。值得一提的是,Skymont微架構分發方面也有很多的執行資源,比如說上一代E核每周期分發17個,現在每周期可以分發26個。同時8個整數的ALU指令是可以同時被支持的,每周期可以處理3個跳轉,這些都提升了并行處理能力。

再聊一些細節,浮點和矢量的運算能力,Skymont有4個完整的端口,也就是說4個128bit的ALU和Vector,用于指令VNNI的指令,使得gigaflops和TOPS都翻倍。而其他的執行單元本身,像FADD、FMA,也都重新進行了設計,以達到降低延遲的目標。另外,Load/Store Enhancements(加載/存儲增強)方面,Memory地址翻譯的時候,Strore從L1的translation buffer讀取帶寬增加了50%,從2個變成3個128bit的。同時生成存儲地址的能力也翻倍了,也就是說當L1 Translation Buffer未能命中時,需要從更高級的緩存(如L2緩存)中查找翻譯信息,而L2緩存的容量從3K增加到4K,Strore從L1的translation buffer讀取帶寬增加了50%,從2個變成3個128bit的。更大的L2緩存容量意味著更多的地址翻譯信息可以被緩存,提高了命中率,減少了訪問主存的次數,提高了整體內存訪問的效率。

性能方面,與Meteor Lake LP E核做比較,PC的性能有38%的整數性能提升,68%的浮點性能的提升。能耗方面,用1/3的功耗能便可以獲得和Crestmont一樣的性能。在Lunar Lake上還有一個特殊設計,它的PowerVia for E Core是獨立的,所以可以讓Lunar Lake的頻率跑得更高,把這些因素加總在一起,最終性能Skymont可以達到Meteor Lake LP E核的兩倍。

寫在最后:

Lunar Lake處理器通過全面的架構優化和技術創新,實現了顯著的性能提升。P核和E核的設計改進,使得處理器在執行復雜任務時更加高效,同時大幅提升了AI性能和整體計算能力。總體來看,Lunar Lake通過多面創新,構建了高效能和高性能的處理器平臺,滿足了日常計算需求到高負載任務的廣泛應用場景。它不僅展示了英特爾在技術上的創新在不斷的地位,也為未來的計算平臺設立了新的標桿。

標簽:
版權聲明:本文版權歸數字商業時代所有,未經允許任何單位或個人不得轉載,復制或以任何其他方式使用本文全部或部分,侵權必究。