0
GTC 2026落幕當天,英偉達透露早先與亞馬遜云科技(AWS)達成的大規模芯片采購協議,將在2027年前完成交付。
黃仁勛在大會上提到的2027年萬億美元營收目標,正在變成真金白銀的合同。
但真正讓行業側目的,是Groq芯片首次進入AWS數據中心——LPU到底蘊藏多大價值,值得英偉達如此力推?(LPU到底是不是推理最優解?歡迎添加作者微信 Evelynn7778 探討交流)
帶著這個疑問,我們(公眾號:雷峰網)與三位半導體與AI算力領域的老兵聊了聊,他們分別是:
徐凌杰:魔形智能CEO,曾任職于NVIDIA、AMD、三星北美研究院、阿里云,并聯合創辦了壁仞科技
羅彤:芯動科技首席技術官,歷任力積存儲中國區總經理、愛普存儲技術(杭州)總經理、德商柏獅電子亞洲區市場與銷售副總、日商凸版半導體新加坡董事總經理
劉昊飛:盛景嘉成創投創始合伙人,曾任中國移動系統架構師、漢能投資集團執行董事
黃仁勛的表達欲仍在延續。GTC落幕后,他依然四處講著OpenClaw的時代象征、Rubin機架的生態議題、以及Token經濟學的故事。當“十年寒窗無人問”的Token一夜成名,這場GTC究竟給中國芯片廠商留下了什么啟示?
談芯片:LPU背后:從經濟瓶頸到物理瓶頸,SRAM重回牌桌
“推理時代”已經到來。
兩個月前在CES大會上以六芯組合面世的Rubin平臺,這次升級為七芯——新加入的,是專為AI推理設計的專用芯片LPU。這是英偉達獲得Groq技術授權后,后者芯片首次出現在其產品組合中。
在劉昊飛看來,本次大會為LPU入場的造勢,離不開全民養蝦的熱潮。他表示,當Token使用量呈指數級增長時,降低推理成本與輸出延遲變得至關重要,而結構比GPU更簡化的LPU便顯出優勢——
LPU的一大亮點,是其SRAM(靜態隨機存取存儲器)架構大幅減少了數據搬運時間。羅彤指出,LPU采用的SRAM架構,此前曾因成本是DRAM的6倍而被替代。但RISC-V 鼻祖David Patterson說過:“一個小型SRAM的能效是DRAM的128倍。”
這意味著,當衡量標準從成本轉向能耗時,SRAM的優勢將得以重現。
羅彤進一步解釋,過去行業關注的是“一美元能買多少Token”,這是經濟學的邏輯。但在這次GTC上,黃仁勛特別強調“每焦耳能產生多少Token”,顯然是摩爾定律的失效讓他有了新的思考——物理極限的剛性不是其他因素可以比擬的。
因為地球上允許接受的能量是有限的,誰能用更少的能量產生Token,誰就能在算力峰值上領先。這正是從經濟瓶頸時代進入物理瓶頸時代后的新規則。
不過,徐凌杰也指出,Groq 3 LPU采用的純SRAM架構并非Groq一家獨有,阿里、Graphcore等公司都涉獵過;且“GPU+LPU”的異構架構也非首創,國內大廠早有嘗試,異構也是行業的演進方向。
盡管如此,他認為,“在大模型不同階段,用不同的芯片達到最好的效果,這個做法是毫無疑問的。”
以去年被提出的CPX為例,過去其與HBM版本的芯片比起來成本顯然大幅下降,但在GDDR也漲價的當下,CPX的“性價比”故事是否講得通已經存疑。(CPX當前性價比表現如何?可添加作者微信 Evelynn7778 交流)
或因為此,CPX在此次的GTC上銷聲匿跡。但他表示,在未來合適的時候,CPX可能還會“冒出來”。
據徐凌杰觀察,此次GTC傳遞出的更重要的信息是:黃仁勛提出Token分層定價,這意味著只要有人愿意買單,就能獲得最極致的性能。他直言,如果按照LPU的價值去計算,TAM(可觸達市場)價值一下子大了幾十倍,這是LPU最激動人心的地方。
然而,LPU帶來的變革也不是徹底的。
一位專家曾向羅彤表示,真正與眾不同的存在是英特爾的CPU、英偉達的GPU和谷歌TPU,其他PU只是類似將X、Y、Z三個基本元素通過不同比重進行組合、最終調制而成的混合物。
當前產業鏈最需要攻克的難題,還是提升芯片最基本的計算、存儲和連接單元的效率,并達到降本效果。
談架構:加碼整機柜算力,英偉達70%毛利率能否持續
從Blackwell NVL72到Rubin的機架設計,英偉達持續加碼“整機柜算力”的敘事。訓練時代的王者在推理時代打出這套組合拳,意欲為何?這也是三位嘉賓熱議的核心。
在劉昊飛看來,這是英偉達在推理時代進一步占據客戶心智地位的體現;而在徐凌杰看來,這種提高自我門檻的敘事選擇,本質是為了提高效率。
隨著模型參數膨脹,Token需求量激增,算力成本也急劇上升。“稀疏化激活”的MoE模型架構通過降低單Token計算量解決了成本問題,但也隨之衍生出“專家并行”等各種并行需求。
由于單芯片面積有限,MoE模型往往需要上百張卡協同工作。為了保障芯片間的高效通信,將各類芯片通過超節點耦合在一起,便成為順理成章的選擇。
但做超節點絕非易事。徐凌杰留意到,在CES大會上,黃仁勛前腳剛展示NVL72通過無纜化(cable less)設計將原本兩小時的組裝時間縮短至幾分鐘,AMD董事會主席及首席執行官蘇姿豐后腳推出的Helios產品,采用的還是英偉達兩年前的互聯方案——可見,大家都在跟進,但技術變化一日千里。(當前國產超節點建設有何新進展和挑戰?歡迎添加作者微信 Evelynn7778 交流)
技術迭代如此之快,那英偉達70%的毛利率未來還能否持續?
羅彤認為,英偉達不是光有技術,而是具備將技術轉化為長期盈利的能力。
在他看來,黃仁勛與哈薩比斯(DeepMind創始人)的商業邏輯很像,后者對DeepMind創建使命的闡釋“解決智能,再用智能解決一切”在圈內廣為流傳。
這體現在英偉達身上,就是其與臺積電、EDA巨頭Synopsys合作,在最尖端芯片的研發中利用自身算力改進芯片設計,通過“智能”反哺“智能”,飛輪由此高速轉起來。
不過,這種強掌控力,不僅基于對核心技術的布局,還源于英偉達對高價值環節的精準卡位。
徐凌杰指出,英偉達未來也不會獨占整條產業鏈,而是像華為、蘋果那樣,將毛利相對較低的部分交由供應鏈完成,做“只吃高增長部分的蛋糕”的鏈主企業。
同時,他也提醒,國產芯片公司不能盲目追求和英偉達一樣的高毛利,要在芯片互聯、模型軟硬件調優等領域突破創新的同時,通過性價比打開市場,帶動國產產業鏈一起成長。
談軟件:“龍蝦”配套開源模型,AI Factory下場和客戶搶飯碗?
養蝦潮也蔓延到了大會上。
映照黃仁勛所說的“每個公司都要有自己的OpenClaw戰略”,英偉達為龍蝦推出的企業版軟件棧NemoClaw正式亮相,配套了最新一代Nemotron開源模型。
在專門針對OpenClaw的基準測試PinchBench上,Nemotron任務成功率直逼Claude Opus 4.6、GPT-5.4。
英偉達在軟件棧上的持續迭代,是其在業內遙遙領先的一大護城河。
在大家看來,英偉達此舉也不是想與它的軟件客戶們“搶地盤”。羅彤指出,身為GPU公司的英偉達,必須自己先把應用跑通,才能有效引導客戶使用。
他打了個比喻:CPU像一把內部結構精巧復雜的手槍,任何人只要會扣動扳機就能上手;而GPU像一根棍子,結構簡單,但需要掌握技巧才能發揮最大威力。
徐凌杰則從商業邏輯角度補充:開源開放是英偉達的基本策略。就像黃仁勛講CUDA時第一個提到的詞“Install base”(安裝基礎),英偉達需要足夠多的客戶來構筑生態基礎。
他借用谷歌收購安卓的例子,指出前者不直接靠后者賺錢,而是基于后者系統讓自家搜索、瀏覽器等服務觸達更多用戶。
同理,英偉達也可以用開源軟件為硬件“帶貨”,這是前者最大的價值。如果有人想模仿,徐凌杰認為除非能做到整合人工智能底下“四層蛋糕”,放在國內語境來看,則需要產業鏈的互相配合。
但是,當下國內芯片公司,還普遍面臨軟件團隊規模小、客戶服務能力弱等困境,難以支撐完整的生態建設。(當前有哪些突圍之路值得借鑒?歡迎添加作者微信 Evelynn7778 探討分享經驗)
不過,幾位嘉賓也已指出了破局之道。在羅彤看來,國內芯片企業實力過于分散,與其幾十家小公司各自為戰,不如通過整合形成一兩家有實力的平臺型公司,集中資源搭建軟件生態和客戶服務體系。
徐凌杰對此則較為樂觀。他指出,國內大模型在開源層面已接近國外水平,通過從閉源模型蒸餾,有望取得更好的效果。
與此同時,超節點所需的散熱、互聯、供電等工程化能力,正是國內芯片產業的優勢所在,這讓國內廠商有望以美國幾分之一的成本進行量產。
以下是此次圓桌對話的精彩分享,雷峰網(公眾號:雷峰網)在進行了不改原意的編輯整理:
雷峰網(公眾號:雷峰網)·胡敏:各位對今年GTC最強烈的感受是什么?或者你們對這場會議印象最深刻的是什么?
羅彤:黃仁勛特別強調”Token”這個概念,并且將(計量)單位從成本轉成能量,即每焦耳能產生多少Token。從這次大會他開始提到物理極限而不是經濟極限來看,我認為那真的是摩爾定律在供應端到了快要終結的時候。
作為關注現實世界的科學,物理學與數學有一個很關鍵的不同:物理是要有邊界條件才有答案,但早先沒有人去看算力的能源邊界,因為一次計算的能耗是很低的,大概一萬億分之一焦耳,而一焦耳相當于把一克水升高一度的能量。
當下計算能耗這個概念變得重要是因為計算量變得很龐大,現在AI最主流的路線是把很多復雜問題解構成簡單的數據問題,用蠻力去解決,對物理資源的壓力就非常大,芯片的各種能力(算力,存力,運力)也被壓得非常極限。
最近DRAM內存荒、漲價非常離譜,都是因為達到了某種物理極限的結果,能源極限后就牽扯到了太空算力的問題。
除了物理極限,黃仁勛花時間講的還有和Open Claw配合的生態。他試圖把各種要素拼在一起,形成更大的掌控能力。這也是雙刃劍。如果一個公司把所有能力都掌握在自己內部,對外界來說是更危險的,因為能控制的因素就少了。
不過,英偉達今天之所以能漲得這么好,并不是因為把所有能力都抓在自己手里,而是分化在多方手里。沒有任何一個實體可以單獨造成巨大的損害,從安全角度考慮是好事。
此外安裝小龍蝦的設備是很典型的端側,執行輕量級的編排和調度,所以吃的內存不是很高,我認為(端側)是未來的大方向。
徐凌杰:在魔形智能成立的這兩年里,我們一直在講Token,之前對于投資人來說還是屬于比較抽象的,直到去年下半年中國各種超級應用出來,再加上最近小龍蝦火爆后,一把點燃了Token。我覺得這是在對的時機有對的機遇出現。
Token事實上是把人工智能蛋糕下面的四層完全封裝在一起,能夠整體地去做輸出。那整體來講,Token經濟學變得非常清晰,毫無疑問這是一個非常大的產業。
基于此,未來每個公司不僅要給員工發工資,還要另外配備Token,這是公司為智力付出的額外的成本。
剛剛羅總講到了物理的極限。其實兩年前我在參加臺北電腦展的時候,英偉達就第一次用了一個詞叫“technology limits”,也就是說行業整個發展方向不是在擠牙膏,(意味著)英偉達就是在貼著technology limits,甚至是說physical limits在往前走。
劉昊飛:可以用“熱”來形容。此時圣何塞午后在30度,正好趕上這一波技術熱浪。現場可以說是摩肩擦踵,從早到晚,有點像90年代北京站春運。我住在Palo Alto,距離圣何塞大概三四十公里,酒店每晚價格換算成人民幣在兩三千塊錢。
雷峰網·胡敏:如何看待Vera Rubin平臺這次引入的LPU?
徐凌杰:這次NVIDIA把Groq的LPU引入,把Attention跟FFN做分離,事實上我也了解到國內的大廠之前是在做嘗試的。這不是一個新的概念。
在大模型的不同階段,用不同芯片來達到最好的效果的做法是毫無疑問的。像去年提到的CPX,是RTX 6000 Pro的下一版,也是5090大內存版本的專業版,看起來相比HBM的版本芯片成本大幅下降。但今天GDDR也漲價了,那經濟上還算得過來?PCIe形態能否滿足效率?我覺得CPX可能接下來也會再冒出來,只是在不同階段起到不同的作用。
2016年Groq橫空出世時,我在硅谷和創始人Jonathan進行過多輪交流。現在其實在市場上提供服務的話,還是19 年底流片、20年回來的第一代芯片。后面因為融資問題一直沒有進展,直到碰到了大模型,Groq把這幾百個芯片集聯起來去做。
那我想這個芯片肯定是有可取之處,但是從這個流派來講,并不說只是他一家獨有的,像之前我們在阿里做的含光芯片、我們的CTO金琛之前在的Graphcore(后面被軟銀收購)做的芯片,也都是純SRAM架構。
從這個產品本身來講,我們看到的最大的信息不是性價比。黃仁勛反而講的是另外一個觀點,就是Token是分層的,只要有人愿意買單,我就給他最極致的性能。目前想在Groq這一采用SRAM架構的芯片上跑大模型,假設在放得下、極低延遲的情況下,那么是能給到比較好的Token質量。但當前它的容量比較小,不一定能跑起來。
如果按照給出的價格區間,大眾化的Token在 3 ~ 6 美金,那是不是有人愿意以幾十倍的溢價去付?我覺得這是黃仁勛提出的非常重要的點。他肯定是看到有人為了達到更好效果愿意這樣做。
這一下子擴大了TAM(可觸達市場)。今天講Token,關注的是每天的消耗量及增長速度。如果當前市場按照大模型使用Token的單價去算,這是一個數字。如果按照 LPU價值去算,那整個市場價值一下子大了幾十倍,想象力就變得非常大。
大家會想到我投了那么多的Capex(資本支出),投了那么多的公司,未來是有機會以幾十倍去變現,而不是說今天以幾塊錢的方式,這是LPU最激動人心的地方。倒不是說它的技術流派,因為之前已經有人在做了,而且異構本來就是個趨勢,不是省錢,是為了賺錢。
劉昊飛:LPU可以說是顛覆性設計。我們去年年底就花時間在研究LPU,發現其最大的特點在于設計結構更簡化。那簡化的好處是什么?大家都知道GPU比CPU(結構)更簡化,所以它做矩陣運算就非常快。而LPU比GPU更簡單,尤其體現在存儲方面。剛才也提到LPU不需要HBM,由此數據交換的延遲、顯存成本大幅降低,效率隨之變高。
NVIDIA這次專門強調LPU的原因在于,小龍蝦出來后,這幾個月的Token使用量呈指數級上漲,那么如何有效降低推理成本和輸出的延遲變得很重要。
其實我這次來的一個很重要的目的就是想知道英偉達如何看待LPU。在現場能看到很多人圍著展區聽分享,你想照張完整的照片都有些困難。所以我覺得這種架構設計確實值得關注。不過國內已經有創業團隊把工作做在前頭,我們也在評判是不是值得出手(投資)。
羅彤:我問過這方面的一個專家,以前是英特爾的,在他眼里真正與眾不同的就是英特爾CPU、英偉達GPU、谷歌TPU,其他的PU只是各種組合不一樣。類似把X、Y、Z三個基本元素通過不同比重進行組合,調制出一種混合物,而不是化合物。
所以從這個角度來講,對于產業鏈來說,最難的點還是把芯片最基本的計算、存儲和連接單元的效率做好,降成本。
這體現了我剛才說的經濟因素,之所以算力現在這么民主化,是摩爾定律帶來的——當芯片縮小,成本、能耗隨之降低。
但摩爾定律帶來的東西一定會被摩爾定律帶走。未來即便成本能降100倍,但如果算力想要高1萬倍,最終成本也要提一百倍,那就沒有什么人負擔得起了。所以未來的趨勢一定從算力民主化變成集中化,真正的算力承擔者會集中到云。
集中化的云端算力想要降低能耗和成本,在大規模集成里配置之間的互聯也很重要,所以互聯這次采用的是集成模塊,把光模塊與電芯片封裝在一起,以后會成為主流。
但技術難度高,國內要有高端芯片產能來支撐,否則全靠臺積電,產能是不夠用的。高通已經將其產能鎖定到2028年。這也就是摩爾定律消失的后果。
雷峰網·胡敏:未來1-3年,國產算力產業鏈有哪些您覺得比較確定性的機遇或者趨勢?
徐凌杰:更大的算力系統承載更大的模型,更大的模型帶來更高的智力,更高的智力產生更高的Token需求,這三個趨勢是非常明確的。
英偉達已經走出來了,給了我們樣板,只是在今天相對來講我們還沒那么有競爭力,因此需要一整條產業鏈往這個方向死磕,把所有能團結的力量團結在身邊。
劉昊飛:國內對算力的整體資本投入會保持持續增長,但同時也會產生相當程度的冗余,進而造成浪費、形成淘汰。
但GTC帶給我們的啟發是,國內也需要強鏈主,不僅打磨自身內功,還帶動整個產業鏈的繁榮。這需要包容。希望兩三年后有初步的苗頭。
羅彤:一些半導體行業高層經常和我說:“我們不需要很多人,但需要很厲害的人。”也就是說,這個行業要增加對頂級人才的重視。
另外,如果水平差一點的話,我建議選小的細分賽道。雖然你很多地方不是頂級水平,但你在這個賽道仍能做到降維打擊,避免競爭。相比能力不夠咬牙切齒的勉力而為,我覺得這是更可持續的路徑。天天咬牙切齒很累的。在沒有衡量自己的實力的情況下,就去和最強的一決高下,這是不明智的行為。
作者持續關注AI算力芯片、整機架設計與布局等情況,以及上下游相關,更多信息可添加作者微信 Evelynn7778 交流。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。