引入LPU的英偉達，是在補強，還是在拆自己的護城河？｜GTC觀察

本文作者：陳悅琳

2026-04-03 16:48

導語：被DRAM成本碾壓的SRAM回歸，暗含推理時代哪些新趨勢？

GTC 2026落幕當天，英偉達透露早先與亞馬遜云科技（AWS）達成的大規模芯片采購協議，將在2027年前完成交付。

黃仁勛在大會上提到的2027年萬億美元營收目標，正在變成真金白銀的合同。

但真正讓行業側目的，是Groq芯片首次進入AWS數據中心——LPU到底蘊藏多大價值，值得英偉達如此力推？（LPU到底是不是推理最優解？歡迎添加作者微信 Evelynn7778 探討交流）

帶著這個疑問，我們（公眾號：雷峰網）與三位半導體與AI算力領域的老兵聊了聊，他們分別是：

徐凌杰：魔形智能CEO，曾任職于NVIDIA、AMD、三星北美研究院、阿里云，并聯合創辦了壁仞科技

羅彤：芯動科技首席技術官，歷任力積存儲中國區總經理、愛普存儲技術（杭州）總經理、德商柏獅電子亞洲區市場與銷售副總、日商凸版半導體新加坡董事總經理

劉昊飛：盛景嘉成創投創始合伙人，曾任中國移動系統架構師、漢能投資集團執行董事

黃仁勛的表達欲仍在延續。GTC落幕后，他依然四處講著OpenClaw的時代象征、Rubin機架的生態議題、以及Token經濟學的故事。當“十年寒窗無人問”的Token一夜成名，這場GTC究竟給中國芯片廠商留下了什么啟示？

談芯片：LPU背后：從經濟瓶頸到物理瓶頸，SRAM重回牌桌

“推理時代”已經到來。

兩個月前在CES大會上以六芯組合面世的Rubin平臺，這次升級為七芯——新加入的，是專為AI推理設計的專用芯片LPU。這是英偉達獲得Groq技術授權后，后者芯片首次出現在其產品組合中。

在劉昊飛看來，本次大會為LPU入場的造勢，離不開全民養蝦的熱潮。他表示，當Token使用量呈指數級增長時，降低推理成本與輸出延遲變得至關重要，而結構比GPU更簡化的LPU便顯出優勢——

LPU的一大亮點，是其SRAM（靜態隨機存取存儲器）架構大幅減少了數據搬運時間。羅彤指出，LPU采用的SRAM架構，此前曾因成本是DRAM的6倍而被替代。但RISC-V 鼻祖David Patterson說過：“一個小型SRAM的能效是DRAM的128倍。”

這意味著，當衡量標準從成本轉向能耗時，SRAM的優勢將得以重現。

羅彤進一步解釋，過去行業關注的是“一美元能買多少Token”，這是經濟學的邏輯。但在這次GTC上，黃仁勛特別強調“每焦耳能產生多少Token”，顯然是摩爾定律的失效讓他有了新的思考——物理極限的剛性不是其他因素可以比擬的。

因為地球上允許接受的能量是有限的，誰能用更少的能量產生Token，誰就能在算力峰值上領先。這正是從經濟瓶頸時代進入物理瓶頸時代后的新規則。

不過，徐凌杰也指出，Groq 3 LPU采用的純SRAM架構并非Groq一家獨有，阿里、Graphcore等公司都涉獵過；且“GPU+LPU”的異構架構也非首創，國內大廠早有嘗試，異構也是行業的演進方向。

盡管如此，他認為，“在大模型不同階段，用不同的芯片達到最好的效果，這個做法是毫無疑問的。”

以去年被提出的CPX為例，過去其與HBM版本的芯片比起來成本顯然大幅下降，但在GDDR也漲價的當下，CPX的“性價比”故事是否講得通已經存疑。（CPX當前性價比表現如何？可添加作者微信 Evelynn7778 交流）

或因為此，CPX在此次的GTC上銷聲匿跡。但他表示，在未來合適的時候，CPX可能還會“冒出來”。

據徐凌杰觀察，此次GTC傳遞出的更重要的信息是：黃仁勛提出Token分層定價，這意味著只要有人愿意買單，就能獲得最極致的性能。他直言，如果按照LPU的價值去計算，TAM（可觸達市場）價值一下子大了幾十倍，這是LPU最激動人心的地方。

然而，LPU帶來的變革也不是徹底的。

一位專家曾向羅彤表示，真正與眾不同的存在是英特爾的CPU、英偉達的GPU和谷歌TPU，其他PU只是類似將X、Y、Z三個基本元素通過不同比重進行組合、最終調制而成的混合物。

當前產業鏈最需要攻克的難題，還是提升芯片最基本的計算、存儲和連接單元的效率，并達到降本效果。

談架構：加碼整機柜算力，英偉達70%毛利率能否持續

從Blackwell NVL72到Rubin的機架設計，英偉達持續加碼“整機柜算力”的敘事。訓練時代的王者在推理時代打出這套組合拳，意欲為何？這也是三位嘉賓熱議的核心。

在劉昊飛看來，這是英偉達在推理時代進一步占據客戶心智地位的體現；而在徐凌杰看來，這種提高自我門檻的敘事選擇，本質是為了提高效率。

隨著模型參數膨脹，Token需求量激增，算力成本也急劇上升。“稀疏化激活”的MoE模型架構通過降低單Token計算量解決了成本問題，但也隨之衍生出“專家并行”等各種并行需求。

由于單芯片面積有限，MoE模型往往需要上百張卡協同工作。為了保障芯片間的高效通信，將各類芯片通過超節點耦合在一起，便成為順理成章的選擇。

但做超節點絕非易事。徐凌杰留意到，在CES大會上，黃仁勛前腳剛展示NVL72通過無纜化（cable less）設計將原本兩小時的組裝時間縮短至幾分鐘，AMD董事會主席及首席執行官蘇姿豐后腳推出的Helios產品，采用的還是英偉達兩年前的互聯方案——可見，大家都在跟進，但技術變化一日千里。（當前國產超節點建設有何新進展和挑戰？歡迎添加作者微信 Evelynn7778 交流）

技術迭代如此之快，那英偉達70%的毛利率未來還能否持續？

羅彤認為，英偉達不是光有技術，而是具備將技術轉化為長期盈利的能力。

在他看來，黃仁勛與哈薩比斯（DeepMind創始人）的商業邏輯很像，后者對DeepMind創建使命的闡釋“解決智能，再用智能解決一切”在圈內廣為流傳。

這體現在英偉達身上，就是其與臺積電、EDA巨頭Synopsys合作，在最尖端芯片的研發中利用自身算力改進芯片設計，通過“智能”反哺“智能”，飛輪由此高速轉起來。

不過，這種強掌控力，不僅基于對核心技術的布局，還源于英偉達對高價值環節的精準卡位。

徐凌杰指出，英偉達未來也不會獨占整條產業鏈，而是像華為、蘋果那樣，將毛利相對較低的部分交由供應鏈完成，做“只吃高增長部分的蛋糕”的鏈主企業。

同時，他也提醒，國產芯片公司不能盲目追求和英偉達一樣的高毛利，要在芯片互聯、模型軟硬件調優等領域突破創新的同時，通過性價比打開市場，帶動國產產業鏈一起成長。

談軟件：“龍蝦”配套開源模型，AI Factory下場和客戶搶飯碗？

養蝦潮也蔓延到了大會上。

映照黃仁勛所說的“每個公司都要有自己的OpenClaw戰略”，英偉達為龍蝦推出的企業版軟件棧NemoClaw正式亮相，配套了最新一代Nemotron開源模型。

在專門針對OpenClaw的基準測試PinchBench上，Nemotron任務成功率直逼Claude Opus 4.6、GPT-5.4。

英偉達在軟件棧上的持續迭代，是其在業內遙遙領先的一大護城河。

在大家看來，英偉達此舉也不是想與它的軟件客戶們“搶地盤”。羅彤指出，身為GPU公司的英偉達，必須自己先把應用跑通，才能有效引導客戶使用。

他打了個比喻：CPU像一把內部結構精巧復雜的手槍，任何人只要會扣動扳機就能上手；而GPU像一根棍子，結構簡單，但需要掌握技巧才能發揮最大威力。

徐凌杰則從商業邏輯角度補充：開源開放是英偉達的基本策略。就像黃仁勛講CUDA時第一個提到的詞“Install base”（安裝基礎），英偉達需要足夠多的客戶來構筑生態基礎。

他借用谷歌收購安卓的例子，指出前者不直接靠后者賺錢，而是基于后者系統讓自家搜索、瀏覽器等服務觸達更多用戶。

同理，英偉達也可以用開源軟件為硬件“帶貨”，這是前者最大的價值。如果有人想模仿，徐凌杰認為除非能做到整合人工智能底下“四層蛋糕”，放在國內語境來看，則需要產業鏈的互相配合。

但是，當下國內芯片公司，還普遍面臨軟件團隊規模小、客戶服務能力弱等困境，難以支撐完整的生態建設。（當前有哪些突圍之路值得借鑒？歡迎添加作者微信 Evelynn7778 探討分享經驗）

不過，幾位嘉賓也已指出了破局之道。在羅彤看來，國內芯片企業實力過于分散，與其幾十家小公司各自為戰，不如通過整合形成一兩家有實力的平臺型公司，集中資源搭建軟件生態和客戶服務體系。

徐凌杰對此則較為樂觀。他指出，國內大模型在開源層面已接近國外水平，通過從閉源模型蒸餾，有望取得更好的效果。

與此同時，超節點所需的散熱、互聯、供電等工程化能力，正是國內芯片產業的優勢所在，這讓國內廠商有望以美國幾分之一的成本進行量產。

以下是此次圓桌對話的精彩分享，雷峰網（公眾號：雷峰網）在進行了不改原意的編輯整理：

雷峰網(公眾號：雷峰網)·胡敏：各位對今年GTC最強烈的感受是什么？或者你們對這場會議印象最深刻的是什么？

羅彤：黃仁勛特別強調”Token”這個概念，并且將（計量）單位從成本轉成能量，即每焦耳能產生多少Token。從這次大會他開始提到物理極限而不是經濟極限來看，我認為那真的是摩爾定律在供應端到了快要終結的時候。

作為關注現實世界的科學，物理學與數學有一個很關鍵的不同：物理是要有邊界條件才有答案，但早先沒有人去看算力的能源邊界，因為一次計算的能耗是很低的，大概一萬億分之一焦耳，而一焦耳相當于把一克水升高一度的能量。

當下計算能耗這個概念變得重要是因為計算量變得很龐大，現在AI最主流的路線是把很多復雜問題解構成簡單的數據問題，用蠻力去解決，對物理資源的壓力就非常大，芯片的各種能力（算力，存力，運力）也被壓得非常極限。

最近DRAM內存荒、漲價非常離譜，都是因為達到了某種物理極限的結果，能源極限后就牽扯到了太空算力的問題。

除了物理極限，黃仁勛花時間講的還有和Open Claw配合的生態。他試圖把各種要素拼在一起，形成更大的掌控能力。這也是雙刃劍。如果一個公司把所有能力都掌握在自己內部，對外界來說是更危險的，因為能控制的因素就少了。

不過，英偉達今天之所以能漲得這么好，并不是因為把所有能力都抓在自己手里，而是分化在多方手里。沒有任何一個實體可以單獨造成巨大的損害，從安全角度考慮是好事。

此外安裝小龍蝦的設備是很典型的端側，執行輕量級的編排和調度，所以吃的內存不是很高，我認為（端側）是未來的大方向。

徐凌杰：在魔形智能成立的這兩年里，我們一直在講Token，之前對于投資人來說還是屬于比較抽象的，直到去年下半年中國各種超級應用出來，再加上最近小龍蝦火爆后，一把點燃了Token。我覺得這是在對的時機有對的機遇出現。

Token事實上是把人工智能蛋糕下面的四層完全封裝在一起，能夠整體地去做輸出。那整體來講，Token經濟學變得非常清晰，毫無疑問這是一個非常大的產業。

基于此，未來每個公司不僅要給員工發工資，還要另外配備Token，這是公司為智力付出的額外的成本。

剛剛羅總講到了物理的極限。其實兩年前我在參加臺北電腦展的時候，英偉達就第一次用了一個詞叫“technology limits”，也就是說行業整個發展方向不是在擠牙膏，（意味著）英偉達就是在貼著technology limits，甚至是說physical limits在往前走。

劉昊飛：可以用“熱”來形容。此時圣何塞午后在30度，正好趕上這一波技術熱浪。現場可以說是摩肩擦踵，從早到晚，有點像90年代北京站春運。我住在Palo Alto，距離圣何塞大概三四十公里，酒店每晚價格換算成人民幣在兩三千塊錢。

雷峰網·胡敏：如何看待Vera Rubin平臺這次引入的LPU？

徐凌杰：這次NVIDIA把Groq的LPU引入，把Attention跟FFN做分離，事實上我也了解到國內的大廠之前是在做嘗試的。這不是一個新的概念。

在大模型的不同階段，用不同芯片來達到最好的效果的做法是毫無疑問的。像去年提到的CPX，是RTX 6000 Pro的下一版，也是5090大內存版本的專業版，看起來相比HBM的版本芯片成本大幅下降。但今天GDDR也漲價了，那經濟上還算得過來？PCIe形態能否滿足效率？我覺得CPX可能接下來也會再冒出來，只是在不同階段起到不同的作用。

2016年Groq橫空出世時，我在硅谷和創始人Jonathan進行過多輪交流。現在其實在市場上提供服務的話，還是19 年底流片、20年回來的第一代芯片。后面因為融資問題一直沒有進展，直到碰到了大模型，Groq把這幾百個芯片集聯起來去做。

那我想這個芯片肯定是有可取之處，但是從這個流派來講，并不說只是他一家獨有的，像之前我們在阿里做的含光芯片、我們的CTO金琛之前在的Graphcore（后面被軟銀收購）做的芯片，也都是純SRAM架構。

從這個產品本身來講，我們看到的最大的信息不是性價比。黃仁勛反而講的是另外一個觀點，就是Token是分層的，只要有人愿意買單，我就給他最極致的性能。目前想在Groq這一采用SRAM架構的芯片上跑大模型，假設在放得下、極低延遲的情況下，那么是能給到比較好的Token質量。但當前它的容量比較小，不一定能跑起來。

如果按照給出的價格區間，大眾化的Token在 3 ~ 6 美金，那是不是有人愿意以幾十倍的溢價去付？我覺得這是黃仁勛提出的非常重要的點。他肯定是看到有人為了達到更好效果愿意這樣做。

這一下子擴大了TAM（可觸達市場）。今天講Token，關注的是每天的消耗量及增長速度。如果當前市場按照大模型使用Token的單價去算，這是一個數字。如果按照 LPU價值去算，那整個市場價值一下子大了幾十倍，想象力就變得非常大。

大家會想到我投了那么多的Capex（資本支出），投了那么多的公司，未來是有機會以幾十倍去變現，而不是說今天以幾塊錢的方式，這是LPU最激動人心的地方。倒不是說它的技術流派，因為之前已經有人在做了，而且異構本來就是個趨勢，不是省錢，是為了賺錢。

劉昊飛：LPU可以說是顛覆性設計。我們去年年底就花時間在研究LPU，發現其最大的特點在于設計結構更簡化。那簡化的好處是什么？大家都知道GPU比CPU（結構）更簡化，所以它做矩陣運算就非常快。而LPU比GPU更簡單，尤其體現在存儲方面。剛才也提到LPU不需要HBM，由此數據交換的延遲、顯存成本大幅降低，效率隨之變高。

NVIDIA這次專門強調LPU的原因在于，小龍蝦出來后，這幾個月的Token使用量呈指數級上漲，那么如何有效降低推理成本和輸出的延遲變得很重要。

其實我這次來的一個很重要的目的就是想知道英偉達如何看待LPU。在現場能看到很多人圍著展區聽分享，你想照張完整的照片都有些困難。所以我覺得這種架構設計確實值得關注。不過國內已經有創業團隊把工作做在前頭，我們也在評判是不是值得出手（投資）。

羅彤：我問過這方面的一個專家，以前是英特爾的，在他眼里真正與眾不同的就是英特爾CPU、英偉達GPU、谷歌TPU，其他的PU只是各種組合不一樣。類似把X、Y、Z三個基本元素通過不同比重進行組合，調制出一種混合物，而不是化合物。

所以從這個角度來講，對于產業鏈來說，最難的點還是把芯片最基本的計算、存儲和連接單元的效率做好，降成本。

這體現了我剛才說的經濟因素，之所以算力現在這么民主化，是摩爾定律帶來的——當芯片縮小，成本、能耗隨之降低。

但摩爾定律帶來的東西一定會被摩爾定律帶走。未來即便成本能降100倍，但如果算力想要高1萬倍，最終成本也要提一百倍，那就沒有什么人負擔得起了。所以未來的趨勢一定從算力民主化變成集中化，真正的算力承擔者會集中到云。

集中化的云端算力想要降低能耗和成本，在大規模集成里配置之間的互聯也很重要，所以互聯這次采用的是集成模塊，把光模塊與電芯片封裝在一起，以后會成為主流。

但技術難度高，國內要有高端芯片產能來支撐，否則全靠臺積電，產能是不夠用的。高通已經將其產能鎖定到2028年。這也就是摩爾定律消失的后果。

雷峰網·胡敏：未來1-3年，國產算力產業鏈有哪些您覺得比較確定性的機遇或者趨勢？

徐凌杰：更大的算力系統承載更大的模型，更大的模型帶來更高的智力，更高的智力產生更高的Token需求，這三個趨勢是非常明確的。

英偉達已經走出來了，給了我們樣板，只是在今天相對來講我們還沒那么有競爭力，因此需要一整條產業鏈往這個方向死磕，把所有能團結的力量團結在身邊。

劉昊飛：國內對算力的整體資本投入會保持持續增長，但同時也會產生相當程度的冗余，進而造成浪費、形成淘汰。