AI推理芯片，大模型「下半場」的入場券

本文作者：高秀松

2023-11-17 21:21

導語：如果說大模型「上半場」是技術的較量，那么「下半場」則是商業化的比拼。一旦大模型成熟，與之而來的便是落地應用，滋生對推理芯片的龐大需求。

2023是“群模共舞”的元年。

先是ChatGPT的橫空出世給予眾人致命震撼，隨后國內諸多AI、互聯網公司迅速加大資源投入“練模”。

3月，百度發布文心一言，打響了“練模大戰”的第一槍。

在這場“模型大戰”中，算力作為不可或缺的重武器，一度成為眾公司爭搶的關鍵要素。

作為人工智能的三駕馬車之一，算力是訓練AI模型、推理任務的關鍵。倘若把訓練模型當作是做一道精致的菜肴，算力就好比一套稱手的烹飪工具。

世人皆知巧婦難為無米之炊，但再好的廚子，沒有一口好鍋、一把好刀，面對鮮美的食材也只能望而興嘆。

“大模型動輒百億級的參數，倉庫里沒有幾百張A100、H100，都談不上入圍。”

所謂兵馬未動、糧草先行。為了練模，模型廠商們對算力芯片的購買達到了前所未有的水平。大模型這波風潮下，最先受益的，既不是躬身入局的企業，也非下游場景用戶，而是以Nvidia為代表的算力芯片廠商。

5月，Nvidia市值一路飆升，成為首家市值達到1萬億美元的芯片企業。

如果把這場肇始于“練模”的造富奇跡歸結于大模型的「上半場」，那么大模型的「下半場」財富機遇，則是如何把大模型裝入應用場景之中。這正如云天勵飛CEO陳寧所言——

“生產大模型不是目的，千行百業的落地和應用才是最終目的。”

大模型雖然改變了傳統AI算法模型的生產模式，效率更高、效果更好、泛化能力更強。但從商業化層面，仍然跳脫不了AI落地的困境。

過去幾年時間，無數AI公司前赴后繼，趟出了一條血淋淋的路子，即AI+場景。而對于諸多碎片化、多樣化場景，AI公司們發現，邊緣計算能夠較好地解決AI落地應用的商業難題。

如今，大模型已然成為AI新范式，諸多廠商在嘗試商業化時，也提出了“行業大模型”“一行一模”的觀點，即用大模型來解決碎片化場景的業務痛點。

從這個角度看，在這條通往AI盈利的道路上，以靈活調度著稱的邊緣計算，將成為未來大模型廣泛落地到場景的重要一環。而為邊緣計算提供算力的AI推理芯片，也會迎來一次市場擴容。

掣肘AI落地的兩個難點：場景與成本

場景與成本是AI老生常談的話題，就像一道橫亙在理想與現實之間的長河，無法避開又很難繞行。即便是最知名的AI公司、技術天才，以及商業巨子，在這條河面前都束手無策、有心無力。久而久之，AI公司套上了“盈利魔咒”。

以ChatGPT為代表的大模型之所以備受推崇，原因無他：在眾人身處迷途之時，大模型讓逐夢者們看到了一絲黎明前的曙光。AI創業者林夕感嘆道：“大模型，AI之光。”

如果沒有大模型，很多AI公司可能熬不過2023的冬天。林夕表示，ChatGPT強大的邏輯推理能力，讓人們第一次近距離感受到了人工智能的厲害之處。“信心比黃金重要”，當整個社會認可大模型之后，資本才愿意繼續加注。

毫不夸張地說，大模型給那些資金流轉困難的AI公司們，強行續命了幾年。畢竟AI之夢，也難逃現實的雞零狗碎。

當然，這只是表象，AI如長夜、資本永不眠。資本從不為情懷買單，而是看到了大模型以極強的泛化能力，能夠有效解決場景和成本這一本質難題，從而帶來巨大的商業價值空間。這也正是逐夢者們看到的曙光——困擾AI商業化的難題有望得到破解。

過去，AI從實驗室走向應用場景，許多創業公司開始吭哧吭哧搞業務，在一個個碎片化場景里掘土挖地。但高昂的研發投入與實際業務產生的經濟價值相去甚遠，人效比極低，即所謂的“造血能力嚴重不足”。

以安防為例，雖然AI給這個行業帶來了革命性的變化，最終受益者卻并不是AI公司，而是為數不多的幾個安防巨頭。原因在于，安防碎片化場景特別多，需要AI，但并不需要昂貴且強大的AI。

這些安防大廠能夠從AI競賽中脫穎而出的秘密，除了原來to B穩定的渠道關系，更為重要的是，他們的人效比很高。這種優勢體現在產品上就是：同樣一個攝像頭，AI公司的產品天然貴上幾十塊。客戶自然而然用腳投票。

如今，那些名噪一時的CV公司，安防業務已經偃旗息鼓。究其原因，AI公司在解決碎片化場景需求時，一個任務一個模型的模式，造成研發成本居高不下，加之重復建設，導致整體的運營成本處于高位，而安防本身屬于臟活兒累活兒，事兒多錢少，AI公司自然而然會“水土不服”。

這種“牛刀殺雞”的現象并不局限于安防行業，但凡是AI所及之處，基本上都會面臨碎片化場景這一核心命題。在大模型未出世之前，AI對于碎片化場景非常頭疼，也嘗試過各種解題方式，比如小樣本學習、自動機器學習等，但效果并不明顯。

大模型無疑是當下解決碎片化場景的最優解，其極強的泛化能力，能夠實現“一模多用”，即一個模型解決N個任務。大模型從根本上改變了算法生產的模式，能夠解決碎片化、非標化問題，直接降低AI的各類成本，成為當下AI公司打破魔咒的重要路徑。

大模型「下半場」：邊緣計算成為重點

如果說大模型「上半場」是技術的較量，那么「下半場」則是商業化的比拼。

無可置疑，大模型將解決掣肘AI落地的碎片化難題，并極大地削減研發成本，給AI帶來質的飛躍，使其具備更大的想象空間。但這只能算是階段性勝利，只有客戶乖乖掏出錢包里的金幣，并持續復購，產生價值，AI才算取得成功。

這個AI商業閉環中，還涉及到一個部署成本的問題。

AI不是消費電子，即買即用，盡管其常常被嵌入至各類電子設備中。但AI的消費大戶，仍是以降本增效為目的的B/G客戶。這類客戶對于AI的最后一公里交付尤為重視，他們并不愿意為AI方案的部署花費任何多余的金幣。

傳統AI部署常見于云端一體，主要通過云端進行計算，感知端僅有微弱算力，數據在端側采，算法在云上跑。這種模式存在幾個問題：

云計算固然有大算力的好處，但對于一些需要快速響應、計算的場景，其存在的時滯現象非常致命；
云服務器費用高昂，許多企業并不需要大算力，盲目上云反而會造成算力浪費，性價比不高；
數據上云，存在一定安全風險；

為此，AI公司們在云端一體之間，增加了邊緣計算，來解決云端算力浪費及端側算力不足的問題。

邊緣計算的靈感得益于章魚的八只觸手。作為云端計算的協同和補充，邊緣計算能夠在數據源頭附近的網關執行數據處理、分析，這種獨特的優勢可以實現各單元之間執行不同的任務并實現多任務協同，既滿足碎片化場景的算力調度需求，又具備低延時、安全等特點。

并且，邊緣計算設備的部署成本相對較低，客戶不需要部署昂貴的云服務器就能用上AI，這一核心優勢使得邊緣計算備受青睞，已然成為AI落地的重要途徑之一。

但要真正讓算法模型在邊緣計算設備上跑起來，仍有兩個比較重要的難點。

第一，邊緣設備的算力比云端服務器弱，而大部分的算法模型，是在服務器上訓練的，算法模型要實現遷移，需要做大量的優化工作。

第二，算法模型要在邊緣設備上部署、執行推理任務，需要一顆強大的AI算力芯片，并針對芯片做適配，才能保證算法模型的運行效率。也就是說，AI算力芯片的生態極其重要，但現階段比較尷尬的是，AI算力芯片廠商較為分散。

可以預見的是，在大模型時代，第一個問題較為容易解決，因為大模型自帶極強的泛化能力。至于第二個點，則要比想象中難得多，其涉及到底層芯片技術的研發和攻關，以及對應的生態協同。如何讓邊緣設備運行大模型，對于AI芯片廠商而言，這既是機遇，也是挑戰。

大模型時代下，AI芯片的國產替代潮

AI芯片功能上分兩類，分別是訓練芯片和推理芯片。

訓練芯片主要用于大模型的訓練、學習和優化，側重于計算性能，而推理芯片則主要為模型的推理運算提供算力。二者之間的區別在于，訓練芯片重計算，推理芯片重效率（時延、功耗）。并且，從云邊端協同的角度看，訓練芯片多用于服務器，推理芯片則主要部署在邊端設備之上。

當前，國內大模型正處于“練模”階段，需要極強的算力支撐，因此AI公司們將目光更多放在了訓練芯片上，即購買大量的GPU算力來訓練算法模型。這也直接成就了Nvidia的萬億市值神話，其H100、H800等芯片一騎絕塵，國內則有華為、寒武紀等廠商在努力追趕。

一旦大模型成熟，與之而來的便是落地應用，這時必然要用到邊端設備，從而滋生出對推理芯片的龐大需求。

然而，由于不可抗力因素，現階段的訓練芯片和推理芯片皆受到貿易管制，在此背景下，AI芯片的國產替代提上了日程。

作為深圳AI第一股，云天勵飛在邊緣側AI芯片的布局已經成果初顯。2020年，云天勵飛第一代AI推理芯片DeepEye1000實現商用，并落地到AI相機、安全PC、商業機器人等邊緣計算場景。

云天勵飛副總裁、芯片產品線總經理李愛軍告訴雷峰網，大模型作為AI的進階態，本質上還是要落地到具體業務場景才能產生價值，而邊緣計算則是不可逆的趨勢，因此做好邊緣計算的推理芯片，對于未來大模型的應用至關重要。

在過去三年多的時間中，DeepEye1000廣泛落地到各行各業，但同時也帶來了諸多反饋：算力碎片化、算法長尾化、產品非標化、規模碎片化等痛點依舊存在，傳統以追求單一場景PPA的傳統芯片模式難以適應AI邊緣計算場景下人工智能落地的需求。

基于此，云天勵飛打造了新一代的邊緣計算芯片平臺DeepEdge10。

DeepEdge10屬于主控級SoC，可以滿足絕大部分場景的控制需要，同時基于云天勵飛自研的新一代的處理器NNP400T，可以高效支持Transformer。在架構方面，DeepEdge10采用了D2D Chiplet封裝結構，可以實現算力靈活擴展，并通過C2CMesh互聯擴展，可以支持千億級大模型部署。

相較于第一代DeepEye1000，DeepEdge10集成了2+8核通用算力CPU，整體算力提升了4倍以上，采用D2D Chiplet封裝，實現從12T到48T的算力覆蓋，總體性能比上一代芯片超過20倍。

在DeepEdge10的基礎上，云天勵飛還打造了Edge Server算力加速卡，最高支持1024Tops的NPU算力、1920GB/S的內存帶寬，以及512GB統一內存。目前，DeepEdge10已經支持主流開源模型超過100種，模型支持的數量還在更新，同時支持客戶模型定制化的部署。

具體性能上，在Edge Device 端，DeepEdge10Max運行端側70億參數的大模型可以獲得每秒27Token/s，最高可兼容130億參數的大模型。而在Edge Server上，采用C2C Mesh互聯，多卡協同，運行700億參數大模型可獲得42Token/s的生成速度，最高兼容千億級別參數的大模型。

據了解，DeepEdge10芯片平臺核心競爭力在于邊緣計算，可以針對不同的場景提供差異化算力，從而滿足碎片化、多樣化需求。目前，DeepEdge10已經進入了大規模的應用中，有近30家算法芯片化合作伙伴，所有使用云天芯片的產品合作伙伴，均可在線下載更新云天超過100多種算法。

李愛軍表示，大模型未來落地到機器人、無人駕駛汽車等場景，都需要用到推理芯片，而推理芯片正處于百家爭鳴的過程。而在國內，如何基于國產工藝實現推理芯片的研發、流片和商用至關重要。

現階段，國內芯片的成熟工藝處于14nm的節點。對于千億級、萬億級別的大模型，其推理芯片不但需要極強的計算能力，還要保持超低的功耗和超低的成本，對芯片制程的工藝達到了5nm、2nm。顯然，國產芯片離最高端的芯片還有一段距離。

不過，結合當前國內的生產工藝，云天勵飛與合作伙伴于2020年開始技術攻關，在ChipletD2D的技術上定制了一系列IP，實現了可以在14nm芯片上運行千億大模型的功能。雖然成本、功耗會高一些，但這已經是國產芯片的最優水平。至于更高工藝的芯片，國內芯片廠商既需要資源，也需要時間。

“我們志在打造國產工藝自主可控的AI芯片。”李愛軍告訴雷峰網(公眾號：雷峰網)，這條路道阻且長，但云天勵飛會堅定地走下去。雷峰網雷峰網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

高秀松

編輯

緊跟科技最前沿

發私信

當月熱門文章