過去一年,人工智能(AI)技術給移動設備帶來的改變令人贊嘆。我們正見證AI從手機到筆記本電腦所取得的顯著創新,vivo、OPPO、三星和小米等手機品牌商相繼推出了AI應用和用例。可以說設備端AI再次重新定義了智能手機的“智能性”,而Arm是這一切的基石。
“這不僅限于智能手機,還包括筆記本電腦、可穿戴設備和數字電視等設備,因為Arm為最大的計算生態系統提供普適應用,且對開發者友好的指令集。”Arm終端事業部產品管理副總裁James McNiven日前在接受筆者的采訪時表示,這意味著在設備端和云端均能實現更高的性能,同時在某些情況下將需要更高的能耗來驅動AI技術,聚焦于能效,這正是Arm的DNA。
事實上,隨著AI工作負載成為了新的加速器,技術生態系統正在快速發展,需要在端側運行AI。與此同時,計算需求要能夠規模化地交付實現。對于推動行業前沿創新的合作伙伴來說,上市時間和工程效率至關重要。
為了滿足市場當下對生成式AI的發展需求,Arm面向終端領域,推出了終端計算子系統(CSS)——整合最新的Armv9.2 CPU、Immortalis GPU和Core Link系統互連和系統內存管理單元(SMMU),并優化到內存及SoC其他部分的計算路徑。這是Arm首次在終端領域以Arm CPU和GPU的優化設計形式提供物理實現解決方案,加速達成高性能、高效率,以及幫助合作伙伴加快上市進程。
其實早在2021年,Arm就推出了專為性能和AI而設計的Armv9架構。在過去幾年,Armv9得到了顯著提升:提高在矢量加速、機器學習(ML)等領域的計算能力;增強系統的安全性和穩健性;更重要的是,增加了面向AI的功能。
值得一提的是,在去年Armv9.2取得成功的基礎上,現在Arm正通過全新的Arm Cortex-X925和Immortalis-G925來提供全球領先的高性能,并以效率為核心,通過Arm終端CSS為合作伙伴生態系統帶來所需的性能。
具體來看,在CPU方面,Cortex-X925是Cortex-X推出以來取得最高IPC同比增幅的CPU,通過結合新設計所實現的微架構改進和頻率提升,Cortex-X925在Geekbench中實現了36%的單線程性能增長。?以AI性能為例,與去年的Cortex-X4 CPU相比,詞元(Token)首次響應時間提高了41%。
“得益于微架構的顯著演進,利用了迄今為止最寬的解碼和矢量設計所帶來的巨幅提升,實現了50% TOPS的增長。”James McNiven透露,Arm的RTL和物理設計團隊之間也展開了進一步協作,針對三納米工藝,提升頻率和效率。
GPU方面,Immortalis-G925作為Arm目前性能最強、效率最高的GPU,在各種圖形應用上性能同比提高了37%;在多個AI/ML網絡上進行測量時,實現了約34%的性能提升;此外,2022年,Immortalis將光線追蹤技術引入智能手機,并于今年大幅提高了光線追蹤技術在面對復雜物體時的表現,其性能提升高達52%。
在終端CSS的效率方面,Arm仍能選擇不同的CPU微架構來實現最大性能和最長使用天數,并通過Immortalis和Arm Mali提供GPU可擴展性,從而實現性能和效率上的靈活性。與Cortex-A720相比,Cortex-A725的能效提高了35%。
除了通過終端CSS推動性能和效率提升之外,Arm始終致力于為每一位安卓設備用戶提高性能。在Cortex-X925帶來的30%性能提升基礎上,網頁瀏覽器性能提高了23%;與此同時,Arm攜手Google推動其安卓動態性能框架的發展,使得高端內容的每幀能耗降低了25%,幀速率則提高35%;通過調整安卓工作負載在不同CPU核心之間的平衡方式,為YouTube節省了高達10%的功耗;優化Google的AV1視頻編解碼器,讓安卓設備的視頻性能最多可提高40%。
另一方面,AI和計算機視覺軟件領域有著諸多解決方案,這些解決方案的共性在于,它們大都是為CPU構建的。由于70%的第三方安卓ML工作負載都以CPU為目標,因此性能越高,開發者就能越快地將功能推出,并專注于下一個創新。
Kleidi的作用正是如此。為了幫助開發者能夠充分利用Arm終端CSS的性能優勢,不僅是面向新的應用,還可針對其所依托的軟件平臺,Arm推出了Arm Kleidi,它不僅包含面向AI工作負載的KleidiAI,還有著面向計算機視覺應用的KleidiCV。都是旨在通過小型、高度優化的內核,集成到涉及AI或計算視覺的任何地方,使開發者在部署到任何Arm CPU上時均能獲得優異性能。
“CPU是唯一可以確保運行未來網絡的計算引擎。而且我們一直在將KleidiAI集成到各種框架中,從可以在任何設備上運行任何網絡的通用框架(如TensorFlow和PyTorch),到特定任務的點對點解決方案,如(MediaPipe和Llama 3)。Kleidi能夠確保開發者可從Arm終端CSS中最新的Armv9功能中獲得最佳性能。”在James McNiven看來,它已經為未來的CPU創新做好了準備,例如可伸縮矩陣擴展,當運行于Cortex-X925上時,Kleidi技術運行最新Llama 3和Phi-3 LLM的速度要比參考實現快2.9倍,而且只用不到24小時就能實現。
也就是說,Kleidi為開發者提供了實現Arm CPU最佳性能的路徑,使其能夠專注于下一個重大創新。通過針對Kleidi,應用將能夠隨著新一代設備的功能更為強大,而解鎖未來Armv9架構的創新和性能。
作為一家終端手機廠商,vivo一直非常關注用戶體驗,尤其是在衡量一臺手機的性能方面。
“過去幾年Arm處理器,在前端訪存能力持續做了非常大的投資,帶來的不僅僅是在benchmark上提升,而且應用程序的性能也大幅度提升。比如指令預取、分支預測、更大的cache能力。”vivo首席芯片規劃專家夏曉菲表示,最直觀的體驗就是通過Arm的微架構,vivo整個瀏覽器的性能提升了20%,幾乎相當于一代處理器能力的提升。
此外,vivo去年發布了藍心大模型,把生成式AI上面關于自然語言文本的摘要、總結、翻譯、本地和在線知識搜索、圖片生成功能開放給消費者使用。
“生成式 AI背后的硬件基礎仍將依靠Arm CSS的處理能力。”vivo首席芯片規劃專家夏曉菲認為,無論是在云端還是在端側應用部署的過程,Arm CSS集成了更多更強大的AI能力,同時提供更加廣泛的針對開發者的開發環境,能夠讓所有的開發者基于通用平臺開發出自己基于端側的生成式AI應用和體驗。
寫在最后
對于Window son Arm(WoA)生態系統來說,今年也是Arm成果豐碩的一年。除了Microsoft Office、Dropbox、Zoom、Adobe套件等,有越來越多的應用成為Arm原生應用,尤其是百度、嗶哩嗶哩、Chrome瀏覽器、愛奇藝、搜狗、騰訊QQ音樂等。
“Arm終端CSS結合了軟件以及世界上最大的移動設備生態系統之一,具備提供一個AI優化的計算平臺所需的計算性能和效率。”James McNiven強調。Arm終端CSS的定位就是最易于訪問AI體驗的平臺,同時成為新一代產品和服務的基石,為合作伙伴的創新賦能。