128核至強6性能核處理器「重回巔峰」

本文作者：包永剛

2024-09-30 11:26

導語：至少在這一段時間，英特爾又重新占領、并且拿到了市場的主導權。

英特爾的拳頭產品高性能服務器CPU從“至強可擴展處理器”簡化為“至強”之后。

今年6月發布了144核的至強6能效核產品，近期正式發布了128核至強6性能核處理器（代號Granite Rapids）。

128核至強6性能核處理器「重回巔峰」

“認識我的朋友會覺得我今天有點興奮，因為英特爾至強6性能核，將是英特爾有史以來性能最強大的至強處理器。”英特爾數據中心與人工智能集團副總裁兼中國區總經理陳葆立在發布會的開場就表達了自己的興奮。

128核至強6性能核處理器「重回巔峰」

英特爾數據中心與人工智能集團副總裁兼中國區總經理陳葆立

至強6性能核處理器相比第五代英特爾至強可擴展處理器，擁有多達2倍的每路核心數，平均單核性能提升高達1.2倍，平均每瓦性能提升高達1.6倍，同等性能水平下平均節省30%的TCO。

大幅的性能提升，也讓英特爾的合作伙伴、客戶與陳葆立一樣興奮。

“128核的至強6性能核處理器，核數翻倍、單核性能實測也提升了20%，我認為至強6性能核是重回巔峰之作。”寧暢副總裁兼首席技術官趙雷認為，“至少在這一段時間，英特爾又重新占領、并且拿到了市場的主導權。”

新華三集團計算存儲產品線副總裁劉宏程也給至強6性能核處理器極高的評價，“這次性能的提升并非細微的改進，而是翻天覆地的變化，這可能會改變用戶以往‘再等等’的觀望心態。”

至強6性能核處理器性能的大幅提升的同時，還有顯眼的AI標簽，進行了包括模塊化設計、內存、安全、液冷等技術的全面升級，這些也都是至強6性能核獲得極高評價的關鍵。

至強CPU是AI推理最觸手可及的選擇

至強6性能核處理器的全面迭代，在滿足傳統應用需求的同時，最大的亮點就是充分滿足AI推理的需求。

大模型訓練變現需要靠AI推理，并且推理需求是訓練需求的5-10倍，讓眾多公司都瞄準了AI推理市場。業界有多家采用創新架構設計AI芯片的初創公司聲稱其芯片的推理性能是GPU的10倍或更多展現出了很高的性價比，那用CPU做AI推理的優勢是什么？

“我們還處于AI的早期階段，除了一些顯而易見的方案，如智能客服系統相對容易部署之外，許多公司還處在初步嘗試的階段，不同的行業可能需要建立私有知識庫落地AI，通用的硬件最為方便，我們認為這是一個機遇。”陳葆立對雷峰網(公眾號：雷峰網)表示。

超聚變服務器產品總經理朱勇表示，“至強6性能核處理器可以做到一芯多用。傳統認為CPU就是做通用計算，現在CPU已經發展到可以去做一些10Billion左右參數的大模型的推理，為客戶帶來的優勢是能夠降低TCO，能夠帶來真正的商業價值。”

劉宏程認為，“隨著世界的變化，單一通用解決方案已難以滿足所有需求，未來計算領域，尤其是AI相關的推理能力，將成為必需品。至強6通過英特爾高級矩陣擴展（英特爾AMX），在推理性能上實現了顯著提升，包括INT8、BF16、FP16等多種精度上的優化，用戶無需額外投資即可享受AI推理帶來的便利，這無疑將推動市場向著所有服務器都將具備AI強化功能的方向發展。”

根據英特爾給出的測試數據，最新的英特爾至強6性能核的處理器，運行從通用計算、數據庫到科學計算和AI的12種常見工作負載，單顆CPU性能和每瓦特性能與上一代產品相比有兩倍以上的大幅提升。

128核至強6性能核處理器「重回巔峰」

70億參數的Llama2大模型推理借助英特爾AMX，至強6性能核處理器相比上一代產品有3.08倍的性能提升。英特爾AMX是特殊的指令集，能夠更好支持常見大模型的推理計算，AMX指令集在新一代至強6上進行了升級。

大幅的性能提升來自芯片多達128核的設計和SoC架構。

2年前的主流服務器采用的至強可擴展處理器核數在24-48核，至強6性能核擁有高達128核的設計。

“我們一直期待至強CPU核數有重大躍進，此次128核的實現，正是這樣一次恰到好處的巨大提升，這在過去的幾代產品中前所未有。”劉宏程說出了合作伙伴和客戶的期待。

英特爾實現多核采用了靈活的設計，在至強6性能核中有兩個單元：計算單元（compute die）和I/O單元（I/O die）。

計算單元包含了最重要的x86內核、內存控制器和緩存。I/O單元包含了領先的PCle、CXL、UPI等通用協議，也包括了英特爾獨有的加速器。

通過不同的排列組合，至強6性能核處理器可以滿足云邊端針對不同場景、不同性能、不同功耗的需求。

128核的英特爾至強6900P系列（代號Granite Rapids-AP）具備三個計算單元和兩個I/O單元，這種組合使其擁有高達128個x86內核。

128核至強6性能核處理器「重回巔峰」

英特爾市場營銷集團副總裁、中國區云與行業解決方案和數據中心銷售部總經理梁雅莉分享，至強6性能核CPU核數最大達到128核，在40%的利用率下，每瓦性能提升1.9倍，為AI、數據分析、科學計算等所有計算密集型業務提供了有力保障。

阿里云智能集團服務器研發總監劉禮寅分享，阿里云基于英特爾至強6的第九代ECS實例，數據庫有17%的性能提升，傳統的Web應用有20%的實例性能提升，Java應用是15%的性能提升。

128核至強6性能核處理器「重回巔峰」 超強性能必須匹配更快、更大的內存

多核的設計可以帶來計算性能的成倍增加，但AI工作負載最大的瓶頸并不在計算，而在于存儲，也就是數據的傳輸速度跟不上計算的速度，業界稱為“內存墻”。

為了充分釋放出多核計算的性能，計算能力與內存的平衡至關重要，所以最新發布的至強6性能核處理器的內存也重點升級。

英特爾至強6900P系列持高達每秒6400MT的DDR5內存、每秒8800MT的MRDIMM內存、6條UPI 2.0鏈路（速率高達每秒24 GT），96條PCIe 5.0或64條CXL 2.0通道、504MB的L3緩存，支持FP16數據格式的英特爾 AMX，可為AI和科學計算等內存帶寬敏感型工作負載提供MRDIMM選擇，且新增對CXL 2.0的支持。

128核至強6性能核處理器「重回巔峰」

相對于上一代至強內存支持5600MT/s大幅提升。

陳葆立解釋，MRDIMM利用數據緩沖區，實現兩個列的同步操作，允許一次向CPU傳輸128 字節的數據，傳統DRAM模塊一次能傳輸64字節。

對比數據能夠更直觀的呈現兩線的差距，同樣適用至強6性能核處理器，一個使用標配6400MT/s，一個是使用更快的MRDIMM內存，在科學計算、AI等對內存非常敏感的工作負載中，MRDIMM帶來了1.2-1.3倍的提升。

梁雅莉指出，使用MRDIMM之后，對比第五代英特爾至強處理器，帶寬最大可提高到2.3倍。

這里有一個有趣的話題，GPU解決AI訓練內存瓶頸的使用的是HBM，CPU是否也適合使用HBM？

“英特爾曾經在第四代至強可擴展處理器的時候推出過HBM的產品。不過HBM搭配CPU適用于特定的應用領域，受眾范圍相對較窄，當前的時間點和技術狀態以及應用，使用MRDIMM更適合、更泛用，或者說能夠面向更多內存敏感CPU應用的性能提升。”趙雷指出。

MRDIMM解決了更快的問題，CXL支持更多、更大內存。

CXL是一個通用協議，英特爾是這一新技術的發起方之一，目前已經有了CXL 1.0，而至強6性能核支持CXL 2.0。

128核至強6性能核處理器「重回巔峰」

“比起前一代的技術，現在的技術更成熟，能夠幫助客戶突破物理極限。”陳葆立說，“現在的機器可能只能插8條或者12條內存，通過CXL擴展，可以在數據庫或者大內存的場景里支持更多、更大的內存。”

在至強6性能核處理器產品的發布會上，英特爾的合作伙伴超聚變也分享了雙方在CXL方面的合作。

“超聚變CXL內存池與英特爾至強6性能核處理器完美結合，帶來了兩種極具性價比的使用模式。”朱勇進一步介紹，一種是內存池化集群模式。通過獨特的 non-switch 技術，消除了switch帶來的成本和訪問時延開銷，并降低30%的硬件成本。這一模式在集群內提供了內存資源的彈性分配與數據共享，為業務的靈活配置和調度提供更具競爭力的解決方案。

另一種是1+1超級服務器模式，這一模式下服務器直接使用內存池提供的超大內存，針對容量型業務可格外拓展80DIMM超大內存空間擴展，針對帶寬型業務，可額外擴展12x8的通道，總帶寬提升將近400GB/s。

聯想基礎設施業務群服務器產品部總經理周韜分享，基于至強6性能核的聯想ThinkSystem SC750 V4服務器，測試結果顯示在生物化學、氣象這些應用上面都有非常出色的性能。

計算性能和內存有很好的平衡之后，至強6性能核要在AI推理中大規模使用，就需要足夠的靈活性。

靈活性是吃下AI推理市場的必備技能

與AI訓練相對單一的需求不同，AI推理面向各行各業需求各不相同，也就需要靈活和可定制的解決方案。

不難發現，從至強6性能核的算力、內存設計，都具備比較高的靈活性和可擴展性，到服務器層面，基于至強6性能核的服務器也通過模塊化實現了較高的靈活性，能夠滿足包括AI在內的多樣化應用需求。

“現在所有的AI服務器或者加速系統，絕大部分的機頭也都是英特爾CPU處理器。我們與主流的GPU廠商、AI生態合作伙伴建立了良好的合作關系，共同定義至強規格以提供最佳的機頭體驗。”陳葆立進一步表示，“此外，DC-MHS 是開放計算項目OCP發布的數據中心模塊化硬件系統規范。模塊化設計縮短了集成和驗證周期，既可以加速產品面世，也可以更高效地為未來設計跨越多代做準備。”

潮信息服務器產品線總經理趙帥分享，每個客戶都希望獲得更好的能效，或者更好的TCO收益，在同樣算力單元下，基于不同的機房條件，用戶對于產品的設計要求會有不同。

今年初，浪潮和英特爾聯合上下游產業單位，打造了開放算力模組技術規范的項目，目前已經正式立項，這是國內首個服務器計算模組的設計標準，項目希望通過構建開放合作，融合創新的商業生態，來激發整個算力的創新。”

趙帥說，“基于模塊化、松耦合的開源架構，搭載英特爾至強6處理器的服務器NF3290G8可以很好地實現算力標準化，通過算力單元的擴展實現單路、雙單路架構的靈活擴展，并且能實現外圍組件的歸一化，讓平臺機型盡量統一，降低用戶的運維負擔，這臺服務器的前后窗可以靈活搭配AI加速卡或者智能網卡，滿足客戶對于多樣性場景用同一款機型的需求。”

不可忽視的液冷和安全升級

從計算和內存性能的平衡，再到足夠的靈活性，都是CPU能夠充分滿足AI推理需求的關鍵。

但要用CPU更多實現AI推理和應用，不能忽略隨著性能提升帶來的高功耗的散熱以及安全問題。

相比上一代至強平臺所需的電量是350瓦，至強6性能核需要500瓦的的供電，在增加30%功耗的情況下，算力雙倍提升。

“至強6 性能核500瓦的功耗，客觀上推動了液冷的發展和快速落地。過去350瓦或更低功耗，風冷沒問題，但從這一代開始，散熱器無一例外將非常夸張。”趙雷表示。

為了解決這個問題，英特爾聯合新華三成功突破油類單相浸沒散熱能力有限的技術難題，推出基于G-flow創新技術的平臺解決方案。