0
| 本文作者: 包永剛 | 2019-11-19 10:00 |
上周在舊金山舉行的2019英特爾人工智能峰會上(Intel AI SUMMIT 2019),英特爾公司副總裁兼人工智能產品事業部總經理Naveen Rao表示今年英特爾的AI收入預計將達到35億美元(約為245億元)。這個數據有兩方面的意義,一方面是英特爾2017年的AI收入為10億美元,2019年的AI收入如果符合預期意味著英特爾的AI營收兩年增長了250%。另一方面,在業界都在探索AI落地的當下,英特爾AI營收的快速增長將給業界一些參考意義。

市場需要什么樣的AI芯片?
這一次AI的熱潮,英特爾的CPU和英偉達的GPU最先受益,有意思的是,如果用以GPU為主要營收的英偉達的股價來看AI的發展,可以看到從2016年左右AI芯片火熱開始,英偉達的股價一路上升,這也是AI持續火熱的幾年。2018年底,英偉達股價開始大跌,經歷了幾次漲跌至今仍未回到2018年的高點,這一時期伴隨的是AI大規模落地的探索,我們可以將這視為AI的現實。

AI專用芯片
與英偉達一樣,英特爾在這幾年也享受到了AI帶來的收入,股價幾經漲跌,也在探索AI的落地好的途徑。Naveen Rao在2019英特爾人工智能峰會上演講時表示,在AI的領域里,很難靠一個單一的技術和一種方式或者一個系統支撐,而是需要ABCS (Approach, Budget,Chip, System),即途徑、預算、芯片和系統。并且,企業在AI發展的過程中,所處的位置是不一樣的。
Naveen Rao意思很明確,企業對于AI的需求不同,需要不同的產品以及產品組合去滿足。英特爾的AI收入也反應出了多種AI芯片的價值,2017年英特爾超過10億美元的AI收入來自于在數據中心使用英特爾至強處理器運行AI應用,而2019年35億美元的AI收入則來自多個AI產品,其中就包括上周宣布商用的NNP。
今年8月,英特爾公布了兩款新一代 AI 芯片,Nervana NNP-T 和 Nervana NNP-I。Nervana NNP-T主要用于深度學習訓練,采用了臺積電16nm FF+ 制程工藝,集成270 億個晶體管,硅片面積 680 平方毫米,支持 TensorFlow、PaddlePaddle、PYTORCH 訓練框架,也支持 C++ 深度學習軟件庫和編譯器 nGraph。

Nervana NNP-I用于大型數據中心的推理芯片,基于10nm工藝和 Ice Lake 內核打造, 英特爾表示它在 ResNet50 的效率可達 4.8TOPs/W,功率范圍在 10W 到 50W 之間。
上周的峰會上,Naveen Rao公布了NNP的性能,NNP-I1000對比英偉達T4有3.7倍的性能優勢。

除了應用于云端NNP,上周英特爾還發布了新一代Movidius VPU,代號是Keem Bay,面向邊緣端AI市場。新一代VPU采用全新的高效能架構,并且通過英特爾的 OpenVINO 來加速。與上一代VPU相比,其推理性能有10倍提升。英特爾公司物聯網事業部副總裁、視覺市場和渠道部門總經理Jonathan Ballon表示,在早期的試驗中,新一代VPU性能是英偉達 TX2 的 4 倍,是華為海思 Ascend 310 的 1.25 倍。能效方面,對英偉達TX2有6.2倍優勢,比英偉達Xavier和華為昇騰310也優勢明顯。
據悉,Nervana神經網絡處理器現已投入生產并完成客戶交付,新一代的VPU計劃在2020年上半年上市。百度人工智能研究員Kenneth Church表示,NNP-T用在了X-Man 4.0(百度的超級計算機)上,用了32個NNP-T每機架的產品。下一代的AI,我們會使用更多英特爾的產品,配合百度在AI方面的想法,包括OAI(Open Accelerator Infrastructure)開放加速器架構。
NNP-I則獲得了Facebook的采用,Facebook人工智能系統協同設計總監Misha Smelyanskiy表示,“在我看來,NNP-I和GLOW之間的配合,可以確保可以讓計算機視覺等等的工作負載,能夠更加的更加節約能源,更加高性能和更加優化的方式來加以處理。”
顯然,走在AI前沿的科技公司們需要專為AI設計的云端和邊緣端芯片。但英特爾和英偉達在新一輪AI浪潮中率先獲得的收入證明成熟的CPU和GPU同樣能夠在AI時代繼續發揮作用。
傳統芯片的AI價值
英特爾的AI收入從CPU開始,并在不斷提升至強可擴展處理器的AI性能,比如通過VNNI(英特爾矢量神經網絡指令)可以將推理性能提升三倍。Naveen Rao透露,下一代至強可擴展處理器Cooper Lake,增加了對bfloat16的支持,可以用來做一些非常復雜的深度學習的這種模型的訓練和推理,而且在這樣的模式之下可以跨CPU、加速器等接觸到使用到更多的工具包,訓練的性能有很大的提高。
CPU在AI推理中能夠體現優勢,但并不擅長AI訓練,擅長并行計算的GPU則優勢明顯。英特爾明年要發布獨立GPU已經不是什么秘密,在2019年超級計算大會上,英特爾宣布專為高性能計算和人工智能融合優化的全新獨立通用GPU。

雷鋒網了解到,此次展示的是基于英特爾Xe架構的新類別通用GPU,代號Ponte Vecchio,將采用英特爾7納米工藝進行制造,使用Foveros 3D和嵌入式多芯片互連橋接(EMIB)創新封裝技術,以及多種其它技術,如高帶寬存儲器、CXL互連技術以及其它專利技術。
英特爾高級副總裁、首席架構師,兼架構、圖形與軟件部門總經理Raja M. Koduri在展前發布會上表示,Xe圖形架構非常靈活,可以做到從低功耗領域到高性能計算領域的全覆蓋,一種架構,多種微架構,通用編程模型。
當然,類型齊全的AI處理器還少不了FPGA。本月,英特爾發布了目前全球密度最高的FPGA,全新Stratix 10 GX 10M,擁有1020萬個邏輯單元,433億顆晶體管,現已量產,即日出貨。全新FPGA針對ASIC原型設計與仿真市場,可加快下一代5G、AI、網絡ASIC驗證與創新。
如何實現AI收入的快速增長?
顯然,英特爾AI收入的增加很重要的一個原因就是齊全的AI芯片類型,這能夠讓其更大程度的滿足市場對AI芯片的需求。不過,更為關鍵的還是在于軟件。這不僅是因為軟件離用戶最近,能夠決定用戶的使用門檻。還因為在AI時代,業界都意識到異構多核架構對于AI落地的意義,如何降低異構系統的編程復雜度并提升異構硬件系統的效率非常關鍵。
英特爾所做的是提供統一的軟件平臺,其稱為oneAPI。同樣是在2019年超級計算大會上,英特爾發布了全新軟件行業計劃oneAPI,這個行業計劃是為跨多種包括CPU、GPU、FPGA和其他加速器在內的異構計算,提供了一個統一和簡化的應用程序開發編程模型。oneAPI包括了一項基于開放規范的行業計劃和一款beta產品,oneAPI beta產品為開發者提供了全套的開發工具,包括編譯器、編程庫、分析器等,并把這些工具封裝為特定領域的工具包。

Raja M. Koduri表示,高性能計算和人工智能工作負載需要包括CPU、通用GPU、FPGA,到本月初英特爾展示的更加專用的深度學習芯片NNP在內的多種架構。幫助客戶更簡便地釋放不同計算環境的潛力至關重要,英特爾致力于采取軟件先行的策略,為多架構提供統一可擴展的功能加速異構創新。
隨著oneAPI計劃的發布以及擁有了完整的AI芯片組合,雷鋒網認為英特爾的AI收入將會快速增長。在透露更多關于GPU消息的同時,英特爾就表示其以數據為中心的芯片產品組合和oneAPI計劃,為阿貢國家實驗室“極光”(Aurora)系統中百億億次級計算的高性能計算和人工智能工作負載奠定了基礎。

具體而言,“極光”的計算節點架構將由兩個10納米英特爾至強可擴展處理器(代號“Sapphire Rapids”)和六個Ponte Vecchio GPU共同組成。該系統同時還將支持超過10PB的內存和超過230PB的存儲容量,并能通過Cray Slingshot技術連接超過200個機架的節點。
這也就意味著,英特爾參與AI競爭的時候的優勢在于其擁有類型全面的AI芯片,并且,通過統一的軟件平臺oneAPI,盡可能降低AI應用的門檻,來加速AI的發展。更進一步,通過制程、封裝、架構、存儲、互連、安全、軟件的六大技術戰略,英特爾將不僅會局限于AI,而是構建在更大范圍內的以數據為中心時代的競爭力。
相關文章:
英特爾首席架構師Raja:未來10年計算架構的優化和提升將比過去50年還多
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。