云天勵(lì)飛羅憶：推理超越訓(xùn)練，國(guó)產(chǎn)算力的真正戰(zhàn)場(chǎng)在生態(tài)與成本丨GAIR 2025

本文作者：楊依婷

2025-12-18 14:17

導(dǎo)語(yǔ)：推理正在首次超過(guò)訓(xùn)練，AI真正開(kāi)始“用電而不是發(fā)電”

2025年12月12-13日，第八屆GAIR全球人工智能與機(jī)器人大會(huì)在深圳·博林天瑞喜來(lái)登酒店正式啟幕。

作為AI 產(chǎn)學(xué)研投界的標(biāo)桿盛會(huì)，GAIR自2016年創(chuàng)辦以來(lái)，始終堅(jiān)守“傳承+創(chuàng)新”內(nèi)核，始終致力于連接技術(shù)前沿與產(chǎn)業(yè)實(shí)踐。

在人工智能逐步成為國(guó)家競(jìng)爭(zhēng)核心變量的當(dāng)下，算力正以前所未有的速度重塑技術(shù)路徑與產(chǎn)業(yè)結(jié)構(gòu)。13日舉辦的「AI 算力新十年」專(zhuān)場(chǎng)聚焦智能體系的底層核心——算力，從架構(gòu)演進(jìn)、生態(tài)構(gòu)建到產(chǎn)業(yè)化落地展開(kāi)系統(tǒng)討論，試圖為未來(lái)十年的中國(guó)AI產(chǎn)業(yè)，厘清關(guān)鍵變量與發(fā)展方向。

GAIR 2025「AI 算力新十年」專(zhuān)場(chǎng)上，云天勵(lì)飛副總裁羅憶發(fā)表了題為《芯智AI筑基，普惠點(diǎn)亮未來(lái)》的主題演講，系統(tǒng)闡述了他對(duì)國(guó)產(chǎn)芯片路徑和AI普惠化的核心判斷。

云天勵(lì)飛羅憶：推理超越訓(xùn)練，國(guó)產(chǎn)算力的真正戰(zhàn)場(chǎng)在生態(tài)與成本丨GAIR 2025

當(dāng)大多數(shù)人還在討論人工智能“是否有用”的2014年，一家中國(guó)公司已經(jīng)選擇了一條更難、也更遠(yuǎn)的路——同時(shí)押注算法與芯片，試圖從底層構(gòu)建屬于自己的AI技術(shù)體系。此后十余年，從深度學(xué)習(xí)的早期探索，到大模型席卷全球，再到算力成為國(guó)家級(jí)命題，這家公司幾乎完整經(jīng)歷了中國(guó)人工智能產(chǎn)業(yè)從萌芽、加速到分化競(jìng)爭(zhēng)的全過(guò)程。

某種意義上，云天勵(lì)飛本身，就是一段中國(guó)AI產(chǎn)業(yè)的微觀縮影。

云天勵(lì)飛副總裁羅憶，正是這段歷程的重要參與者與推動(dòng)者之一。早年，他需要一次次向客戶和產(chǎn)業(yè)界解釋“人工智能究竟能解決什么問(wèn)題”；而今天，在推理成本、算力結(jié)構(gòu)與生態(tài)壁壘成為行業(yè)核心議題的背景下，他思考的重心，已轉(zhuǎn)向如何讓AI真正“用得起、用得久、用得廣”。

與許多聚焦單點(diǎn)技術(shù)突破的敘事不同，羅憶的視角始終錨定在一個(gè)更現(xiàn)實(shí)、也更具產(chǎn)業(yè)意義的閉環(huán)之中：應(yīng)用生產(chǎn)數(shù)據(jù)，數(shù)據(jù)訓(xùn)練算法，算法定義芯片，芯片賦能應(yīng)用，最終推動(dòng)整個(gè)AI生態(tài)的正向飛輪。在他看來(lái)，AI的競(jìng)爭(zhēng)不只發(fā)生在實(shí)驗(yàn)室和算力榜單上，更發(fā)生在真實(shí)行業(yè)、真實(shí)成本與真實(shí)規(guī)模化落地的場(chǎng)景之中。

在國(guó)產(chǎn)算力加速突圍、推理逐漸超越訓(xùn)練成為產(chǎn)業(yè)主戰(zhàn)場(chǎng)的當(dāng)下，這種來(lái)自一線實(shí)踐者的判斷，尤顯珍貴。它試圖回答的，并非“能否對(duì)標(biāo)某一家巨頭”，而是一個(gè)更根本的問(wèn)題：在高度封閉、生態(tài)壁壘森嚴(yán)的全球算力競(jìng)爭(zhēng)格局中，國(guó)產(chǎn)芯片究竟應(yīng)當(dāng)如何找到自己的生存空間與增長(zhǎng)路徑。

演講結(jié)束后，雷峰網(wǎng)與羅憶就演講中提及的“生態(tài)融入”、“AI惠普”等關(guān)鍵議題，進(jìn)行了更深入的探討。以下是雷峰網(wǎng)在不改原意的基礎(chǔ)上，根據(jù)對(duì)話過(guò)程做的整理與編輯：

對(duì)話環(huán)節(jié)

問(wèn)：您在演講中回顧了科技史的發(fā)展，云天的AI芯片也跨越了CNN到Transformer，您認(rèn)為兩個(gè)時(shí)代對(duì)于芯片需求最大的不同是什么？

答：從云天選擇NPU路線一路走來(lái)，現(xiàn)在面臨一個(gè)最顯性的變化：Scaling Law驅(qū)動(dòng)下，技術(shù)瓶頸開(kāi)始螺旋式地出現(xiàn)。最初是算力瓶頸，隨后發(fā)現(xiàn)本質(zhì)是內(nèi)存容量瓶頸，接著是帶寬瓶頸，再后來(lái)瓶頸從芯片內(nèi)部擴(kuò)展到服務(wù)器之間，這才催生了“超節(jié)點(diǎn)”這類(lèi)系統(tǒng)級(jí)方案。這反映出一個(gè)根本轉(zhuǎn)變：今天的芯片公司早已不止于設(shè)計(jì)芯片，必須提供全棧的系統(tǒng)工程能力。

其次是市場(chǎng)加速度帶來(lái)的生態(tài)壓力。從去年到今年，市場(chǎng)推理需求增長(zhǎng)近百倍，模型迭代周期從過(guò)去的數(shù)月縮短至如今幾乎每周更新。曾經(jīng)做NPU可以“慢工出細(xì)活”，花三個(gè)月將算法優(yōu)化到極致；但現(xiàn)在三個(gè)月時(shí)間窗口早已關(guān)閉，新模型已迭代數(shù)輪。因此，我們必須主動(dòng)兼容并融入CUDA在內(nèi)的主流開(kāi)發(fā)生態(tài)，否則客戶的遷移與適配成本會(huì)顯著上升，商業(yè)化節(jié)奏也會(huì)被拉慢。本質(zhì)上是技術(shù)突破帶動(dòng)產(chǎn)業(yè)化進(jìn)程極速壓縮，過(guò)去半年一年遇到一次的瓶頸，現(xiàn)在可能三個(gè)月就遇到，推動(dòng)技術(shù)螺旋式前進(jìn)。

從中國(guó)路徑上講，我們肯定還是兩條腿走路。國(guó)產(chǎn)生態(tài)，不管是RISC-V還是像昇騰這樣的國(guó)產(chǎn)萬(wàn)卡生態(tài)，它還得自己要慢慢走。另外一方面，也必須融入高速迭代的CUDA生態(tài)，這個(gè)逃不掉。

問(wèn)：在Transformer時(shí)代，要讓推理能夠更成功，你感覺(jué)比較關(guān)鍵的因素會(huì)是什么？

答：從我們的角度，總體上來(lái)講走向最終成功是要融入生態(tài)或者是擁抱生態(tài)。但是作為一個(gè)追趕者，進(jìn)來(lái)之后必須得有自己的價(jià)值，要有一技之長(zhǎng)，要有一個(gè)特別長(zhǎng)的長(zhǎng)板，然后才有時(shí)間換空間，去慢慢彌補(bǔ)自己的短板，慢慢融入到生態(tài)。

問(wèn)：您講到中國(guó)更強(qiáng)調(diào)普惠AI的應(yīng)用滲透，那您認(rèn)為當(dāng)下AI推理普及面臨的最大挑戰(zhàn)是什么？降低單位token成本嗎？

答：我覺(jué)得顯然就是成本問(wèn)題。大家希望AI越來(lái)越精準(zhǔn)來(lái)達(dá)到行業(yè)使用的要求，以前發(fā)現(xiàn)再努力也做不到、現(xiàn)在就發(fā)現(xiàn)其實(shí)通過(guò)努力，通過(guò)長(zhǎng)思考、長(zhǎng)上下文的理解、帶入私域的知識(shí)是能做到的、但代價(jià)很大，那么怎么選擇？所以后面就是降本的問(wèn)題了。

問(wèn)：您認(rèn)為從芯片公司的角度，要在推理市場(chǎng)構(gòu)建護(hù)城河的關(guān)鍵是什么？

答：融入生態(tài)護(hù)城河。現(xiàn)在很多圈子都是“互為生態(tài)”的格局，每種核心技術(shù)都有它的適用方上下游。狹義來(lái)說(shuō)，生態(tài)其實(shí)就是自己的上下游，但如今技術(shù)棧實(shí)在太深、太廣，每一個(gè)細(xì)分領(lǐng)域都在形成自己的生態(tài)圈。

比如最近我們也參與了中移動(dòng)提出的OISA體系，共同突破萬(wàn)億級(jí)MoE大模型推理集群Scale up的瓶頸，圍繞 AI 芯片互聯(lián)、超節(jié)點(diǎn)等系統(tǒng)級(jí)方向與產(chǎn)業(yè)伙伴共同攻關(guān)，核心目標(biāo)是提升國(guó)產(chǎn) AI 芯片在規(guī)模化推理（包括 MoE 等復(fù)雜負(fù)載）場(chǎng)景下的互聯(lián)效率與互通性，推動(dòng)集群 Scale-up 能力演進(jìn)。

以后如果要把“超節(jié)點(diǎn)”真正做成可復(fù)制、可規(guī)模化的推理基礎(chǔ)設(shè)施，除了芯片本身，互聯(lián)協(xié)議、交換與網(wǎng)絡(luò)、系統(tǒng)軟件與調(diào)度等關(guān)鍵環(huán)節(jié)都必須做到協(xié)同兼容。因此，我們后續(xù)也持續(xù)參與國(guó)產(chǎn)技術(shù)棧與關(guān)鍵標(biāo)準(zhǔn)生態(tài)的共建，讓產(chǎn)品更順暢地進(jìn)入主流系統(tǒng)形態(tài)與客戶工程體系。

問(wèn)：對(duì)于實(shí)現(xiàn)生成式AI的普惠，云天在未來(lái)1-2年內(nèi)的目標(biāo)是什么？長(zhǎng)期的策略是什么？

答：我覺(jué)得現(xiàn)在的話，一個(gè)是修好內(nèi)功，技術(shù)上你首先要有一技之長(zhǎng)，圍繞推理落地最關(guān)鍵的指標(biāo)，把一項(xiàng)或幾項(xiàng)核心能力做到足夠突出、可復(fù)用、可交付——讓客戶在成本、能效、時(shí)延或工程化效率上能明確感知到價(jià)值。第二是用更開(kāi)放的方式進(jìn)入頭部生態(tài)與頭部客戶體系，一方面積極參與主流技術(shù)棧與產(chǎn)業(yè)生態(tài)合作，降低適配門(mén)檻；另一方面也會(huì)通過(guò)多種合作形態(tài)（包括聯(lián)合創(chuàng)新、聯(lián)合解決方案、產(chǎn)業(yè)協(xié)同等）與頭部客戶建立更深度的驗(yàn)證與共創(chuàng)關(guān)系，盡快形成可復(fù)制的標(biāo)桿與規(guī)模化路徑。對(duì)我們來(lái)講，策略是先進(jìn)圈子，先進(jìn)頭部的圈子，在真實(shí)應(yīng)用中逐步長(zhǎng)出自己的生態(tài)。

演講全文

以下是羅憶演講的精彩內(nèi)容，雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))作了不改變?cè)獾恼砼c編輯：

大家好，我是來(lái)自云天勵(lì)飛的羅憶，主要負(fù)責(zé)推理芯片相關(guān)的生態(tài)建設(shè)工作。

云天勵(lì)飛成立于2014年，是一家深圳本土的人工智能芯片企業(yè)。

2014年公司創(chuàng)立時(shí)，人工智能尚未像今天這樣被普遍認(rèn)為是第四次工業(yè)革命的核心技術(shù)，我們?cè)谳^長(zhǎng)時(shí)間里需要不斷向客戶和產(chǎn)業(yè)界證明人工智能的價(jià)值。但在這個(gè)過(guò)程中，云天勵(lì)飛逐漸積累了端到端的全棧技術(shù)能力。

從歷史視角看，中國(guó)在早期技術(shù)體系上曾長(zhǎng)期領(lǐng)先全球，但在第一、第二、第三次工業(yè)革命中，一些關(guān)鍵生產(chǎn)力工具和核心技術(shù)的突破，拉開(kāi)了不同國(guó)家和地區(qū)之間的差距。

進(jìn)入AI時(shí)代，今天我們可以看到中美之間的競(jìng)爭(zhēng)態(tài)勢(shì)較為明顯。美國(guó)在人才、資金、先進(jìn)制程方面要卡中國(guó)的脖子，但同時(shí)，中國(guó)在過(guò)去多年的技術(shù)積累下，與美國(guó)在整個(gè)AI產(chǎn)業(yè)鏈領(lǐng)域的差距是在逐步縮短的。

雖然目前來(lái)看，還無(wú)法實(shí)現(xiàn)全面的國(guó)產(chǎn)替代，但今天產(chǎn)業(yè)界的同仁們，都在屢屢艱辛地實(shí)踐，總是要有一些國(guó)家實(shí)驗(yàn)室和大企業(yè)要去攻關(guān)核心技術(shù)，守住產(chǎn)業(yè)發(fā)展的底線。

拐點(diǎn)已至：推理超越訓(xùn)練，國(guó)產(chǎn)算力占比過(guò)半

云天勵(lì)飛羅憶：推理超越訓(xùn)練，國(guó)產(chǎn)算力的真正戰(zhàn)場(chǎng)在生態(tài)與成本丨GAIR 2025

從整個(gè)技術(shù)發(fā)展的浪潮來(lái)看，2014年至2022年，AI產(chǎn)業(yè)整體迭代節(jié)奏相對(duì)穩(wěn)定，通常以三個(gè)月到半年為周期。

2022年底被普遍認(rèn)為是一個(gè)重要拐點(diǎn)——大模型時(shí)代正式到來(lái)，行業(yè)整體沿著Scaling Law發(fā)展，通過(guò)更大算力、更多數(shù)據(jù)和更大參數(shù)規(guī)模，不斷提升模型能力，使得它能夠更泛化地進(jìn)行服務(wù)。

從2023年初大模型興起開(kāi)始，技術(shù)和產(chǎn)品的迭代速度明顯加快。無(wú)論是做底層技術(shù)還是應(yīng)用層的企業(yè)，普遍感受到學(xué)習(xí)和適應(yīng)的壓力，整個(gè)產(chǎn)業(yè)的迭代節(jié)奏，已經(jīng)進(jìn)入以“周”為尺度的迭代，甚至我們說(shuō)，中美之間的迭代，可能只是5小時(shí)~8小時(shí)的迭代，你方唱罷我登場(chǎng)。

直到2025年1月初DeepSeek-R1的發(fā)布，這一趨勢(shì)出現(xiàn)了新的變化。

DeepSeek的核心意義主要是兩件事。

首先，縮短了開(kāi)源模型與閉源模型之間的時(shí)間差；其次，它只用了二十分之一的硬件成本，復(fù)現(xiàn)類(lèi)似閉源的效果。包括千問(wèn)的一系列蒸餾模式，也說(shuō)明在真實(shí)行業(yè)應(yīng)用中，萬(wàn)億參數(shù)、千億參數(shù)模型在成本上難以長(zhǎng)期承受。

從本質(zhì)上看，模型參數(shù)規(guī)模越大，單位推理成本就越高。每一次推理所需的算力、帶寬、KV Cache都會(huì)呈幾何級(jí)數(shù)增長(zhǎng)。

在產(chǎn)業(yè)應(yīng)用中，我們實(shí)踐出一套基本邏輯：

訓(xùn)練階段可以持續(xù)探索模型能力上限

應(yīng)用階段必須通過(guò)稀疏化、蒸餾、量化、數(shù)據(jù)格式優(yōu)化等方式，不斷降低推理成本

只有這樣，AI才能真正實(shí)現(xiàn)普惠，才能在千行百業(yè)中規(guī)模化落地。

如果類(lèi)比工業(yè)革命，訓(xùn)練更像是“發(fā)電”，而推理更像是“用電”。

訓(xùn)練屬于技術(shù)皇冠，需要少數(shù)頭部企業(yè)解決大規(guī)模集群?jiǎn)栴}；而真正進(jìn)入行業(yè)和社會(huì)運(yùn)行體系的，是推理能力，需要云、邊、端多層次的芯片形態(tài)支撐。

據(jù)我們觀察，今年至少存在兩個(gè)重要拐點(diǎn)。

第一，推理算力消耗將首次超過(guò)訓(xùn)練。

云天勵(lì)飛羅憶：推理超越訓(xùn)練，國(guó)產(chǎn)算力的真正戰(zhàn)場(chǎng)在生態(tài)與成本丨GAIR 2025

黃仁勛在今年的一次演講中提到，他認(rèn)為推動(dòng)英偉達(dá)股價(jià)上升的三條曲線中的前兩條，第一條是預(yù)訓(xùn)練，第二條是后訓(xùn)練，現(xiàn)在新的一條scaling實(shí)際就是Long Thinking。

從產(chǎn)業(yè)數(shù)據(jù)來(lái)看，推理Token消耗正在快速增長(zhǎng)。2023年ChatBot時(shí)代以快問(wèn)快答為主，而現(xiàn)在已經(jīng)進(jìn)入長(zhǎng)上下文、聯(lián)網(wǎng)搜索和深度思考階段，Token消耗顯著增加。

2024年的數(shù)據(jù)顯示，國(guó)內(nèi)企業(yè)Token消耗量同比增長(zhǎng)超過(guò)100倍，谷歌的日Token調(diào)用量已達(dá)到約43萬(wàn)億，這個(gè)數(shù)據(jù)已經(jīng)滯后了，目前仍在持續(xù)增長(zhǎng)。

我記得，據(jù)6月份國(guó)家數(shù)據(jù)局公布的數(shù)據(jù)，中國(guó)互聯(lián)網(wǎng)整個(gè)日Token調(diào)用量是30萬(wàn)億，到9月份，字節(jié)跳動(dòng)一家就已經(jīng)達(dá)到了30萬(wàn)億/天。我們內(nèi)部有段時(shí)間跟字節(jié)了解交流，據(jù)說(shuō)最近可能已經(jīng)突破了40萬(wàn)億/天，這個(gè)增速實(shí)在是非常驚人，而且這個(gè)速度絲毫沒(méi)有放緩的意思。

第二，預(yù)計(jì)到年底，國(guó)內(nèi)AI芯片出貨/部署結(jié)構(gòu)中，國(guó)產(chǎn)AI芯片占比有較大概率超過(guò)50%，整體份額超過(guò)非國(guó)產(chǎn)高端GPU。

中國(guó)路徑：以應(yīng)用落地，反哺AI生態(tài)

AI的發(fā)展上，我們可以看到美國(guó)從“AI行動(dòng)計(jì)劃”，到最近的“創(chuàng)世紀(jì)計(jì)劃”，持續(xù)從國(guó)家層面推動(dòng)AI發(fā)展，包括現(xiàn)在的美股，基本都是靠AI概念的科技企業(yè)在支撐股價(jià)，科技類(lèi)的已經(jīng)達(dá)到了50%以上。而中國(guó)股市上，科技類(lèi)可能占比還不到10%。

從2024年Q3到今年9月，北美四大云廠商2025資本開(kāi)支增長(zhǎng)了83.5%，像谷歌、亞馬遜這些頭部云廠商紛紛自研芯片以爭(zhēng)取成本優(yōu)勢(shì)。

中國(guó)也有一系列政策的出臺(tái)，最集中的其實(shí)是今年年中推出的“人工智能+”計(jì)劃，這個(gè)政策極具中國(guó)特色，或者說(shuō)非常符合中國(guó)的路徑。

對(duì)中國(guó)來(lái)說(shuō)，最重要的事情其實(shí)是通過(guò)應(yīng)用的滲透以及千行百業(yè)的落地，去推動(dòng)或反哺整個(gè)AI的繁榮。

我們一直堅(jiān)信一個(gè)“數(shù)據(jù)飛輪”，應(yīng)用生產(chǎn)數(shù)據(jù)，數(shù)據(jù)訓(xùn)練算法，算法定義芯片，芯片的規(guī)模化應(yīng)用推動(dòng)整個(gè)產(chǎn)業(yè)的發(fā)展。

中國(guó)的特色是有一部分頭部的企業(yè)，包括AI訓(xùn)練的廠商，用更大規(guī)模的訓(xùn)練集群去追趕與美國(guó)頭部閉源模型的差距，甚至通過(guò)工程化的方式，一方面，是為了降低訓(xùn)練成本，更進(jìn)一步，是為了降低未來(lái)的推理成本。

并且，中國(guó)有非常好的基礎(chǔ)設(shè)施，在基礎(chǔ)數(shù)字化、行業(yè)應(yīng)用、應(yīng)用人群以及應(yīng)用熱情上都具備明顯優(yōu)勢(shì)，這個(gè)滲透率也會(huì)進(jìn)一步推動(dòng)以AI推理芯片為核心的資本投入的增長(zhǎng)。

因此，在中美的動(dòng)態(tài)競(jìng)爭(zhēng)中，雙方在政策導(dǎo)向、核心目標(biāo)與技術(shù)路線上存在一定差異：美國(guó)更側(cè)重于占據(jù)技術(shù)制高點(diǎn)，并將其作為經(jīng)濟(jì)增長(zhǎng)的核心錨點(diǎn)；而中國(guó)的核心在于加速應(yīng)用市場(chǎng)發(fā)展，特別是提升AI推理芯片的國(guó)產(chǎn)化替代速度。

同時(shí)，我覺(jué)得剛才幾位分享嘉賓都講到一個(gè)非常重要的事情，當(dāng)前國(guó)內(nèi)芯片產(chǎn)業(yè)最大的挑戰(zhàn)在于軟件與生態(tài)建設(shè)。在這方面，我們也有自己的布局與思考。

最近在香港的一次峰會(huì)上，我們的董事長(zhǎng)跟AI先驅(qū)Hinton（杰弗里·辛頓）有過(guò)一次對(duì)話，Hinton一直擔(dān)心，AI的發(fā)展速度過(guò)快，而相應(yīng)的倫理與安全規(guī)范卻未能同步跟上。另外他還提到，“只致力于讓AI更聰明而不考慮應(yīng)用，這是個(gè)大錯(cuò)誤。”這個(gè)應(yīng)用，包含生態(tài)、倫理、安全、監(jiān)管等一系列問(wèn)題。

對(duì)我們而言，不僅要在技術(shù)上不斷精進(jìn)，更要追求普惠與向善的目標(biāo)，讓AI真正以可承受的成本解決生產(chǎn)力問(wèn)題，為各行各業(yè)創(chuàng)造價(jià)值。

GPNPU=生態(tài)兼容 + 能效特長(zhǎng) + 存儲(chǔ)突破

在推理上，始終存在“性能-成本-精度”三角權(quán)衡挑戰(zhàn)的關(guān)系。

云天勵(lì)飛自進(jìn)入該賽道起，便從小模型時(shí)代出發(fā)，基于自研NPU指令集，堅(jiān)持走AI普惠與極致性價(jià)比的路線，通過(guò)算法與算力的一體化設(shè)計(jì)，在邊緣側(cè)及城市各類(lèi)場(chǎng)景中深化應(yīng)用。

隨著模型規(guī)模擴(kuò)大與應(yīng)用范式多樣化，技術(shù)路線大致分為三類(lèi)：

以CUDA生態(tài)為代表的GPGPU主要解決大集群訓(xùn)練問(wèn)題；

NPU則繼續(xù)在極致能效與功耗上發(fā)揮優(yōu)勢(shì)；

針對(duì)云端推理，行業(yè)共識(shí)正趨向于GPNPU。

我們則從專(zhuān)用架構(gòu)走向更通用的設(shè)計(jì)。兩條技術(shù)路線正在不斷重疊與融合。

國(guó)內(nèi)云端大算力推理芯片的技術(shù)路線選擇，我們列了一個(gè)公式：

GPNPU=GPGPU+NPU+3DM

其核心任務(wù)是：

軟件生態(tài)盡可能兼容CUDA。

保持NPU設(shè)計(jì)的高效性與模型親和性。

確保芯片在產(chǎn)業(yè)化應(yīng)用中實(shí)現(xiàn)高算力利用率。

此外，在大模型推理規(guī)模化落地（尤其解碼階段）中，性能瓶頸往往不再只體現(xiàn)在算力本身，而是更突出地體現(xiàn)在顯存容量、互聯(lián)帶寬以及節(jié)點(diǎn)間互聯(lián)帶寬等系統(tǒng)約束上。在高端存儲(chǔ)如HBM供應(yīng)受限的背景下，我們必須尋求更多解決方案。因此，我們?nèi)χС?D Memory技術(shù)路線，這是在國(guó)產(chǎn)化、大容量、高帶寬方向?qū)崿F(xiàn)突破的關(guān)鍵，只有更多廠商支持，該技術(shù)的產(chǎn)業(yè)化與商業(yè)化成熟度才能加速。

云天勵(lì)飛羅憶：推理超越訓(xùn)練，國(guó)產(chǎn)算力的真正戰(zhàn)場(chǎng)在生態(tài)與成本丨GAIR 2025

未來(lái)，云端AI基礎(chǔ)設(shè)施必將走向異構(gòu)化與高性價(jià)比方向。這不僅體現(xiàn)在單個(gè)模型的計(jì)算與訪存分離，也體現(xiàn)在需用不同規(guī)模的模型服務(wù)不同場(chǎng)景需求。

如同一個(gè)公司不會(huì)全部雇傭博士生，合理的性價(jià)比配置才能實(shí)現(xiàn)高效產(chǎn)出。其核心公式可簡(jiǎn)化為：（資本開(kāi)支CAPEX + 營(yíng)運(yùn)成本OPEX）÷（加速卡吞吐量 × 設(shè)備利用率）。

很重要的是，現(xiàn)在的大模型推理為什么要做PD分離？因?yàn)镻和D階段完全不一樣，P階段是計(jì)算密集型，而D階段絕大部分時(shí)候，算力在等數(shù)據(jù)搬運(yùn)。

云天勵(lì)飛羅憶：推理超越訓(xùn)練，國(guó)產(chǎn)算力的真正戰(zhàn)場(chǎng)在生態(tài)與成本丨GAIR 2025

如何更高效地解決這個(gè)問(wèn)題？我們通過(guò)數(shù)據(jù)格式優(yōu)化、模型量化等一系列算法技術(shù)，在確保模型精度的前提下，顯著提升了計(jì)算與數(shù)據(jù)搬運(yùn)的實(shí)際效率，從而持續(xù)降低了單位Token的推理成本。

云天勵(lì)飛羅憶：推理超越訓(xùn)練，國(guó)產(chǎn)算力的真正戰(zhàn)場(chǎng)在生態(tài)與成本丨GAIR 2025

目前，國(guó)內(nèi)云廠商的Token報(bào)價(jià)多以百萬(wàn)為單位，成本普遍在10元以上，無(wú)服務(wù)水平協(xié)議保障的模型調(diào)用成本甚至超過(guò)20元。我們認(rèn)為，未來(lái)三到五年，百萬(wàn)Token成本必須降至1元人民幣以內(nèi)，才能支撐“人工智能+”計(jì)劃所要求的滲透率目標(biāo)。

最后，簡(jiǎn)單講一下云天勵(lì)飛，公司自2024年創(chuàng)立以來(lái)，始終秉持“算法+芯片”雙輪驅(qū)動(dòng)的技術(shù)路徑，目前芯片已迭代至第四代。第五代芯片將全面轉(zhuǎn)向GPNPU架構(gòu)，并在原有自主設(shè)計(jì)的NPU指令集及多年行業(yè)技術(shù)積累基礎(chǔ)上，向通用推理方向演進(jìn)。

2020年，公司全面轉(zhuǎn)向國(guó)內(nèi)工藝體系，并成為國(guó)內(nèi)最早實(shí)現(xiàn)D2D Chiplet技術(shù)的企業(yè)之一，該工藝是突破算力制約的關(guān)鍵路徑，也是國(guó)產(chǎn)算力芯片發(fā)展的共同方向。

在存儲(chǔ)技術(shù)方面，我們認(rèn)為3DM是國(guó)產(chǎn)工藝未來(lái)實(shí)現(xiàn)突破的重要方向。盡管目前可采用海外HBM3e乃至后續(xù)產(chǎn)品，但其產(chǎn)業(yè)鏈與供應(yīng)鏈仍存在較大不確定性，因此我們堅(jiān)持全面推進(jìn)國(guó)產(chǎn)化，致力于發(fā)展3DM等突破性工藝，并期待更多芯片企業(yè)加入，共同推動(dòng)產(chǎn)業(yè)成熟。

在本代商用芯片中，我們通過(guò)一次流片即可封裝出適用于端、邊、云等多種場(chǎng)景的系列芯片，算力覆蓋8T、16T、64T直至128T，其中最高規(guī)格的Edge200芯片可完整支持深度推理任務(wù)。

從公司愿景出發(fā)，云天勵(lì)飛致力于全面擁抱人工智能浪潮。無(wú)論是在智能硬件、智能攝像頭、具身智能、人形機(jī)器人還是云推理等領(lǐng)域，我們均圍繞“端邊云”體系布局了三條芯片產(chǎn)品線：“深穹”面向云推理，“深界”專(zhuān)注于端側(cè)NPU芯片，“深擎”則是面向人工智能的SoC芯片。我們期待基于國(guó)產(chǎn)工藝，全面推動(dòng)AI技術(shù)的落地與應(yīng)用。

以上是我的分享，謝謝大家。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

楊依婷

編輯

歡迎添加作者微信EATINGNTAE進(jìn)行交流~

發(fā)私信

當(dāng)月熱門(mén)文章