0
| 本文作者: 楊依婷 | 2025-12-18 14:17 |
2025年12月12-13日,第八屆GAIR全球人工智能與機(jī)器人大會(huì)在深圳·博林天瑞喜來(lái)登酒店正式啟幕。
作為AI 產(chǎn)學(xué)研投界的標(biāo)桿盛會(huì),GAIR自2016年創(chuàng)辦以來(lái),始終堅(jiān)守“傳承+創(chuàng)新”內(nèi)核,始終致力于連接技術(shù)前沿與產(chǎn)業(yè)實(shí)踐。
在人工智能逐步成為國(guó)家競(jìng)爭(zhēng)核心變量的當(dāng)下,算力正以前所未有的速度重塑技術(shù)路徑與產(chǎn)業(yè)結(jié)構(gòu)。13日舉辦的「AI 算力新十年」專(zhuān)場(chǎng)聚焦智能體系的底層核心——算力,從架構(gòu)演進(jìn)、生態(tài)構(gòu)建到產(chǎn)業(yè)化落地展開(kāi)系統(tǒng)討論,試圖為未來(lái)十年的中國(guó)AI產(chǎn)業(yè),厘清關(guān)鍵變量與發(fā)展方向。
GAIR 2025「AI 算力新十年」專(zhuān)場(chǎng)上,云天勵(lì)飛副總裁羅憶發(fā)表了題為《芯智AI筑基,普惠點(diǎn)亮未來(lái)》的主題演講,系統(tǒng)闡述了他對(duì)國(guó)產(chǎn)芯片路徑和AI普惠化的核心判斷。

當(dāng)大多數(shù)人還在討論人工智能“是否有用”的2014年,一家中國(guó)公司已經(jīng)選擇了一條更難、也更遠(yuǎn)的路——同時(shí)押注算法與芯片,試圖從底層構(gòu)建屬于自己的AI技術(shù)體系。此后十余年,從深度學(xué)習(xí)的早期探索,到大模型席卷全球,再到算力成為國(guó)家級(jí)命題,這家公司幾乎完整經(jīng)歷了中國(guó)人工智能產(chǎn)業(yè)從萌芽、加速到分化競(jìng)爭(zhēng)的全過(guò)程。
某種意義上,云天勵(lì)飛本身,就是一段中國(guó)AI產(chǎn)業(yè)的微觀縮影。
云天勵(lì)飛副總裁羅憶,正是這段歷程的重要參與者與推動(dòng)者之一。早年,他需要一次次向客戶和產(chǎn)業(yè)界解釋“人工智能究竟能解決什么問(wèn)題”;而今天,在推理成本、算力結(jié)構(gòu)與生態(tài)壁壘成為行業(yè)核心議題的背景下,他思考的重心,已轉(zhuǎn)向如何讓AI真正“用得起、用得久、用得廣”。
與許多聚焦單點(diǎn)技術(shù)突破的敘事不同,羅憶的視角始終錨定在一個(gè)更現(xiàn)實(shí)、也更具產(chǎn)業(yè)意義的閉環(huán)之中:應(yīng)用生產(chǎn)數(shù)據(jù),數(shù)據(jù)訓(xùn)練算法,算法定義芯片,芯片賦能應(yīng)用,最終推動(dòng)整個(gè)AI生態(tài)的正向飛輪。在他看來(lái),AI的競(jìng)爭(zhēng)不只發(fā)生在實(shí)驗(yàn)室和算力榜單上,更發(fā)生在真實(shí)行業(yè)、真實(shí)成本與真實(shí)規(guī)模化落地的場(chǎng)景之中。
在國(guó)產(chǎn)算力加速突圍、推理逐漸超越訓(xùn)練成為產(chǎn)業(yè)主戰(zhàn)場(chǎng)的當(dāng)下,這種來(lái)自一線實(shí)踐者的判斷,尤顯珍貴。它試圖回答的,并非“能否對(duì)標(biāo)某一家巨頭”,而是一個(gè)更根本的問(wèn)題:在高度封閉、生態(tài)壁壘森嚴(yán)的全球算力競(jìng)爭(zhēng)格局中,國(guó)產(chǎn)芯片究竟應(yīng)當(dāng)如何找到自己的生存空間與增長(zhǎng)路徑。
演講結(jié)束后,雷峰網(wǎng)與羅憶就演講中提及的“生態(tài)融入”、“AI惠普”等關(guān)鍵議題,進(jìn)行了更深入的探討。以下是雷峰網(wǎng)在不改原意的基礎(chǔ)上,根據(jù)對(duì)話過(guò)程做的整理與編輯:
問(wèn): 您在演講中回顧了科技史的發(fā)展,云天的AI芯片也跨越了CNN到Transformer,您認(rèn)為兩個(gè)時(shí)代對(duì)于芯片需求最大的不同是什么?
答:從云天選擇NPU路線一路走來(lái),現(xiàn)在面臨一個(gè)最顯性的變化:Scaling Law驅(qū)動(dòng)下,技術(shù)瓶頸開(kāi)始螺旋式地出現(xiàn)。最初是算力瓶頸,隨后發(fā)現(xiàn)本質(zhì)是內(nèi)存容量瓶頸,接著是帶寬瓶頸,再后來(lái)瓶頸從芯片內(nèi)部擴(kuò)展到服務(wù)器之間,這才催生了“超節(jié)點(diǎn)”這類(lèi)系統(tǒng)級(jí)方案。這反映出一個(gè)根本轉(zhuǎn)變:今天的芯片公司早已不止于設(shè)計(jì)芯片,必須提供全棧的系統(tǒng)工程能力。
其次是市場(chǎng)加速度帶來(lái)的生態(tài)壓力。從去年到今年,市場(chǎng)推理需求增長(zhǎng)近百倍,模型迭代周期從過(guò)去的數(shù)月縮短至如今幾乎每周更新。曾經(jīng)做NPU可以“慢工出細(xì)活”,花三個(gè)月將算法優(yōu)化到極致;但現(xiàn)在三個(gè)月時(shí)間窗口早已關(guān)閉,新模型已迭代數(shù)輪。因此,我們必須主動(dòng)兼容并融入CUDA在內(nèi)的主流開(kāi)發(fā)生態(tài),否則客戶的遷移與適配成本會(huì)顯著上升,商業(yè)化節(jié)奏也會(huì)被拉慢。本質(zhì)上是技術(shù)突破帶動(dòng)產(chǎn)業(yè)化進(jìn)程極速壓縮,過(guò)去半年一年遇到一次的瓶頸,現(xiàn)在可能三個(gè)月就遇到,推動(dòng)技術(shù)螺旋式前進(jìn)。
從中國(guó)路徑上講,我們肯定還是兩條腿走路。國(guó)產(chǎn)生態(tài),不管是RISC-V還是像昇騰這樣的國(guó)產(chǎn)萬(wàn)卡生態(tài),它還得自己要慢慢走。另外一方面,也必須融入高速迭代的CUDA生態(tài),這個(gè)逃不掉。
問(wèn): 在Transformer時(shí)代,要讓推理能夠更成功,你感覺(jué)比較關(guān)鍵的因素會(huì)是什么?
答: 從我們的角度,總體上來(lái)講走向最終成功是要融入生態(tài)或者是擁抱生態(tài)。但是作為一個(gè)追趕者,進(jìn)來(lái)之后必須得有自己的價(jià)值,要有一技之長(zhǎng),要有一個(gè)特別長(zhǎng)的長(zhǎng)板,然后才有時(shí)間換空間,去慢慢彌補(bǔ)自己的短板,慢慢融入到生態(tài)。
問(wèn):您講到中國(guó)更強(qiáng)調(diào)普惠AI的應(yīng)用滲透,那您認(rèn)為當(dāng)下AI推理普及面臨的最大挑戰(zhàn)是什么?降低單位token成本嗎?
答: 我覺(jué)得顯然就是成本問(wèn)題。大家希望AI越來(lái)越精準(zhǔn)來(lái)達(dá)到行業(yè)使用的要求,以前發(fā)現(xiàn)再努力也做不到、現(xiàn)在就發(fā)現(xiàn)其實(shí)通過(guò)努力,通過(guò)長(zhǎng)思考、長(zhǎng)上下文的理解、帶入私域的知識(shí)是能做到的、但代價(jià)很大,那么怎么選擇?所以后面就是降本的問(wèn)題了。
問(wèn): 您認(rèn)為從芯片公司的角度,要在推理市場(chǎng)構(gòu)建護(hù)城河的關(guān)鍵是什么?
答: 融入生態(tài)護(hù)城河。現(xiàn)在很多圈子都是“互為生態(tài)”的格局,每種核心技術(shù)都有它的適用方上下游。狹義來(lái)說(shuō),生態(tài)其實(shí)就是自己的上下游,但如今技術(shù)棧實(shí)在太深、太廣,每一個(gè)細(xì)分領(lǐng)域都在形成自己的生態(tài)圈。
比如最近我們也參與了中移動(dòng)提出的OISA體系,共同突破萬(wàn)億級(jí)MoE大模型推理集群Scale up的瓶頸,圍繞 AI 芯片互聯(lián)、超節(jié)點(diǎn)等系統(tǒng)級(jí)方向與產(chǎn)業(yè)伙伴共同攻關(guān),核心目標(biāo)是提升國(guó)產(chǎn) AI 芯片在規(guī)模化推理(包括 MoE 等復(fù)雜負(fù)載)場(chǎng)景下的互聯(lián)效率與互通性,推動(dòng)集群 Scale-up 能力演進(jìn)。
以后如果要把“超節(jié)點(diǎn)”真正做成可復(fù)制、可規(guī)模化的推理基礎(chǔ)設(shè)施,除了芯片本身,互聯(lián)協(xié)議、交換與網(wǎng)絡(luò)、系統(tǒng)軟件與調(diào)度等關(guān)鍵環(huán)節(jié)都必須做到協(xié)同兼容。因此,我們后續(xù)也持續(xù)參與國(guó)產(chǎn)技術(shù)棧與關(guān)鍵標(biāo)準(zhǔn)生態(tài)的共建,讓產(chǎn)品更順暢地進(jìn)入主流系統(tǒng)形態(tài)與客戶工程體系。
問(wèn): 對(duì)于實(shí)現(xiàn)生成式AI的普惠,云天在未來(lái)1-2年內(nèi)的目標(biāo)是什么?長(zhǎng)期的策略是什么?
答: 我覺(jué)得現(xiàn)在的話,一個(gè)是修好內(nèi)功,技術(shù)上你首先要有一技之長(zhǎng),圍繞推理落地最關(guān)鍵的指標(biāo),把一項(xiàng)或幾項(xiàng)核心能力做到足夠突出、可復(fù)用、可交付——讓客戶在成本、能效、時(shí)延或工程化效率上能明確感知到價(jià)值。第二是用更開(kāi)放的方式進(jìn)入頭部生態(tài)與頭部客戶體系,一方面積極參與主流技術(shù)棧與產(chǎn)業(yè)生態(tài)合作,降低適配門(mén)檻;另一方面也會(huì)通過(guò)多種合作形態(tài)(包括聯(lián)合創(chuàng)新、聯(lián)合解決方案、產(chǎn)業(yè)協(xié)同等)與頭部客戶建立更深度的驗(yàn)證與共創(chuàng)關(guān)系,盡快形成可復(fù)制的標(biāo)桿與規(guī)模化路徑。對(duì)我們來(lái)講,策略是先進(jìn)圈子,先進(jìn)頭部的圈子,在真實(shí)應(yīng)用中逐步長(zhǎng)出自己的生態(tài)。
以下是羅憶演講的精彩內(nèi)容,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))作了不改變?cè)獾恼砼c編輯:
大家好,我是來(lái)自云天勵(lì)飛的羅憶,主要負(fù)責(zé)推理芯片相關(guān)的生態(tài)建設(shè)工作。
云天勵(lì)飛成立于2014年,是一家深圳本土的人工智能芯片企業(yè)。
2014年公司創(chuàng)立時(shí),人工智能尚未像今天這樣被普遍認(rèn)為是第四次工業(yè)革命的核心技術(shù),我們?cè)谳^長(zhǎng)時(shí)間里需要不斷向客戶和產(chǎn)業(yè)界證明人工智能的價(jià)值。但在這個(gè)過(guò)程中,云天勵(lì)飛逐漸積累了端到端的全棧技術(shù)能力。
從歷史視角看,中國(guó)在早期技術(shù)體系上曾長(zhǎng)期領(lǐng)先全球,但在第一、第二、第三次工業(yè)革命中,一些關(guān)鍵生產(chǎn)力工具和核心技術(shù)的突破,拉開(kāi)了不同國(guó)家和地區(qū)之間的差距。
進(jìn)入AI時(shí)代,今天我們可以看到中美之間的競(jìng)爭(zhēng)態(tài)勢(shì)較為明顯。美國(guó)在人才、資金、先進(jìn)制程方面要卡中國(guó)的脖子,但同時(shí),中國(guó)在過(guò)去多年的技術(shù)積累下,與美國(guó)在整個(gè)AI產(chǎn)業(yè)鏈領(lǐng)域的差距是在逐步縮短的。
雖然目前來(lái)看,還無(wú)法實(shí)現(xiàn)全面的國(guó)產(chǎn)替代,但今天產(chǎn)業(yè)界的同仁們,都在屢屢艱辛地實(shí)踐,總是要有一些國(guó)家實(shí)驗(yàn)室和大企業(yè)要去攻關(guān)核心技術(shù),守住產(chǎn)業(yè)發(fā)展的底線。

從整個(gè)技術(shù)發(fā)展的浪潮來(lái)看,2014年至2022年,AI產(chǎn)業(yè)整體迭代節(jié)奏相對(duì)穩(wěn)定,通常以三個(gè)月到半年為周期。
2022年底被普遍認(rèn)為是一個(gè)重要拐點(diǎn)——大模型時(shí)代正式到來(lái),行業(yè)整體沿著Scaling Law發(fā)展,通過(guò)更大算力、更多數(shù)據(jù)和更大參數(shù)規(guī)模,不斷提升模型能力,使得它能夠更泛化地進(jìn)行服務(wù)。
從2023年初大模型興起開(kāi)始,技術(shù)和產(chǎn)品的迭代速度明顯加快。無(wú)論是做底層技術(shù)還是應(yīng)用層的企業(yè),普遍感受到學(xué)習(xí)和適應(yīng)的壓力,整個(gè)產(chǎn)業(yè)的迭代節(jié)奏,已經(jīng)進(jìn)入以“周”為尺度的迭代,甚至我們說(shuō),中美之間的迭代,可能只是5小時(shí)~8小時(shí)的迭代,你方唱罷我登場(chǎng)。
直到2025年1月初DeepSeek-R1的發(fā)布,這一趨勢(shì)出現(xiàn)了新的變化。
DeepSeek的核心意義主要是兩件事。
首先,縮短了開(kāi)源模型與閉源模型之間的時(shí)間差;其次,它只用了二十分之一的硬件成本,復(fù)現(xiàn)類(lèi)似閉源的效果。包括千問(wèn)的一系列蒸餾模式,也說(shuō)明在真實(shí)行業(yè)應(yīng)用中,萬(wàn)億參數(shù)、千億參數(shù)模型在成本上難以長(zhǎng)期承受。
從本質(zhì)上看,模型參數(shù)規(guī)模越大,單位推理成本就越高。每一次推理所需的算力、帶寬、KV Cache都會(huì)呈幾何級(jí)數(shù)增長(zhǎng)。
在產(chǎn)業(yè)應(yīng)用中,我們實(shí)踐出一套基本邏輯:
訓(xùn)練階段可以持續(xù)探索模型能力上限
應(yīng)用階段必須通過(guò)稀疏化、蒸餾、量化、數(shù)據(jù)格式優(yōu)化等方式,不斷降低推理成本
只有這樣,AI才能真正實(shí)現(xiàn)普惠,才能在千行百業(yè)中規(guī)模化落地。
如果類(lèi)比工業(yè)革命,訓(xùn)練更像是“發(fā)電”,而推理更像是“用電”。
訓(xùn)練屬于技術(shù)皇冠,需要少數(shù)頭部企業(yè)解決大規(guī)模集群?jiǎn)栴};而真正進(jìn)入行業(yè)和社會(huì)運(yùn)行體系的,是推理能力,需要云、邊、端多層次的芯片形態(tài)支撐。
據(jù)我們觀察,今年至少存在兩個(gè)重要拐點(diǎn)。
第一,推理算力消耗將首次超過(guò)訓(xùn)練。

黃仁勛在今年的一次演講中提到,他認(rèn)為推動(dòng)英偉達(dá)股價(jià)上升的三條曲線中的前兩條,第一條是預(yù)訓(xùn)練,第二條是后訓(xùn)練,現(xiàn)在新的一條scaling實(shí)際就是Long Thinking。
從產(chǎn)業(yè)數(shù)據(jù)來(lái)看,推理Token消耗正在快速增長(zhǎng)。2023年ChatBot時(shí)代以快問(wèn)快答為主,而現(xiàn)在已經(jīng)進(jìn)入長(zhǎng)上下文、聯(lián)網(wǎng)搜索和深度思考階段,Token消耗顯著增加。
2024年的數(shù)據(jù)顯示,國(guó)內(nèi)企業(yè)Token消耗量同比增長(zhǎng)超過(guò)100倍,谷歌的日Token調(diào)用量已達(dá)到約43萬(wàn)億,這個(gè)數(shù)據(jù)已經(jīng)滯后了,目前仍在持續(xù)增長(zhǎng)。
我記得,據(jù)6月份國(guó)家數(shù)據(jù)局公布的數(shù)據(jù),中國(guó)互聯(lián)網(wǎng)整個(gè)日Token調(diào)用量是30萬(wàn)億,到9月份,字節(jié)跳動(dòng)一家就已經(jīng)達(dá)到了30萬(wàn)億/天。我們內(nèi)部有段時(shí)間跟字節(jié)了解交流,據(jù)說(shuō)最近可能已經(jīng)突破了40萬(wàn)億/天,這個(gè)增速實(shí)在是非常驚人,而且這個(gè)速度絲毫沒(méi)有放緩的意思。
第二,預(yù)計(jì)到年底,國(guó)內(nèi)AI芯片出貨/部署結(jié)構(gòu)中,國(guó)產(chǎn)AI芯片占比有較大概率超過(guò)50%,整體份額超過(guò)非國(guó)產(chǎn)高端GPU。
AI的發(fā)展上,我們可以看到美國(guó)從“AI行動(dòng)計(jì)劃”,到最近的“創(chuàng)世紀(jì)計(jì)劃”,持續(xù)從國(guó)家層面推動(dòng)AI發(fā)展,包括現(xiàn)在的美股,基本都是靠AI概念的科技企業(yè)在支撐股價(jià),科技類(lèi)的已經(jīng)達(dá)到了50%以上。而中國(guó)股市上,科技類(lèi)可能占比還不到10%。
從2024年Q3到今年9月,北美四大云廠商2025資本開(kāi)支增長(zhǎng)了83.5%,像谷歌、亞馬遜這些頭部云廠商紛紛自研芯片以爭(zhēng)取成本優(yōu)勢(shì)。
中國(guó)也有一系列政策的出臺(tái),最集中的其實(shí)是今年年中推出的“人工智能+”計(jì)劃,這個(gè)政策極具中國(guó)特色,或者說(shuō)非常符合中國(guó)的路徑。
對(duì)中國(guó)來(lái)說(shuō),最重要的事情其實(shí)是通過(guò)應(yīng)用的滲透以及千行百業(yè)的落地,去推動(dòng)或反哺整個(gè)AI的繁榮。
我們一直堅(jiān)信一個(gè)“數(shù)據(jù)飛輪”,應(yīng)用生產(chǎn)數(shù)據(jù),數(shù)據(jù)訓(xùn)練算法,算法定義芯片,芯片的規(guī)模化應(yīng)用推動(dòng)整個(gè)產(chǎn)業(yè)的發(fā)展。
中國(guó)的特色是有一部分頭部的企業(yè),包括AI訓(xùn)練的廠商,用更大規(guī)模的訓(xùn)練集群去追趕與美國(guó)頭部閉源模型的差距,甚至通過(guò)工程化的方式,一方面,是為了降低訓(xùn)練成本,更進(jìn)一步,是為了降低未來(lái)的推理成本。
并且,中國(guó)有非常好的基礎(chǔ)設(shè)施,在基礎(chǔ)數(shù)字化、行業(yè)應(yīng)用、應(yīng)用人群以及應(yīng)用熱情上都具備明顯優(yōu)勢(shì),這個(gè)滲透率也會(huì)進(jìn)一步推動(dòng)以AI推理芯片為核心的資本投入的增長(zhǎng)。
因此,在中美的動(dòng)態(tài)競(jìng)爭(zhēng)中,雙方在政策導(dǎo)向、核心目標(biāo)與技術(shù)路線上存在一定差異:美國(guó)更側(cè)重于占據(jù)技術(shù)制高點(diǎn),并將其作為經(jīng)濟(jì)增長(zhǎng)的核心錨點(diǎn);而中國(guó)的核心在于加速應(yīng)用市場(chǎng)發(fā)展,特別是提升AI推理芯片的國(guó)產(chǎn)化替代速度。
同時(shí),我覺(jué)得剛才幾位分享嘉賓都講到一個(gè)非常重要的事情,當(dāng)前國(guó)內(nèi)芯片產(chǎn)業(yè)最大的挑戰(zhàn)在于軟件與生態(tài)建設(shè)。在這方面,我們也有自己的布局與思考。
最近在香港的一次峰會(huì)上,我們的董事長(zhǎng)跟AI先驅(qū)Hinton(杰弗里·辛頓)有過(guò)一次對(duì)話,Hinton一直擔(dān)心,AI的發(fā)展速度過(guò)快,而相應(yīng)的倫理與安全規(guī)范卻未能同步跟上。另外他還提到,“只致力于讓AI更聰明而不考慮應(yīng)用,這是個(gè)大錯(cuò)誤。”這個(gè)應(yīng)用,包含生態(tài)、倫理、安全、監(jiān)管等一系列問(wèn)題。
對(duì)我們而言,不僅要在技術(shù)上不斷精進(jìn),更要追求普惠與向善的目標(biāo),讓AI真正以可承受的成本解決生產(chǎn)力問(wèn)題,為各行各業(yè)創(chuàng)造價(jià)值。
在推理上,始終存在“性能-成本-精度”三角權(quán)衡挑戰(zhàn)的關(guān)系。
云天勵(lì)飛自進(jìn)入該賽道起,便從小模型時(shí)代出發(fā),基于自研NPU指令集,堅(jiān)持走AI普惠與極致性價(jià)比的路線,通過(guò)算法與算力的一體化設(shè)計(jì),在邊緣側(cè)及城市各類(lèi)場(chǎng)景中深化應(yīng)用。
隨著模型規(guī)模擴(kuò)大與應(yīng)用范式多樣化,技術(shù)路線大致分為三類(lèi):
以CUDA生態(tài)為代表的GPGPU主要解決大集群訓(xùn)練問(wèn)題;
NPU則繼續(xù)在極致能效與功耗上發(fā)揮優(yōu)勢(shì);
針對(duì)云端推理,行業(yè)共識(shí)正趨向于GPNPU。
我們則從專(zhuān)用架構(gòu)走向更通用的設(shè)計(jì)。兩條技術(shù)路線正在不斷重疊與融合。
國(guó)內(nèi)云端大算力推理芯片的技術(shù)路線選擇,我們列了一個(gè)公式:
GPNPU=GPGPU+NPU+3DM
其核心任務(wù)是:
軟件生態(tài)盡可能兼容CUDA。
保持NPU設(shè)計(jì)的高效性與模型親和性。
確保芯片在產(chǎn)業(yè)化應(yīng)用中實(shí)現(xiàn)高算力利用率。
此外,在大模型推理規(guī)模化落地(尤其解碼階段)中,性能瓶頸往往不再只體現(xiàn)在算力本身,而是更突出地體現(xiàn)在顯存容量、互聯(lián)帶寬以及節(jié)點(diǎn)間互聯(lián)帶寬等系統(tǒng)約束上。在高端存儲(chǔ)如HBM供應(yīng)受限的背景下,我們必須尋求更多解決方案。因此,我們?nèi)χС?D Memory技術(shù)路線,這是在國(guó)產(chǎn)化、大容量、高帶寬方向?qū)崿F(xiàn)突破的關(guān)鍵,只有更多廠商支持,該技術(shù)的產(chǎn)業(yè)化與商業(yè)化成熟度才能加速。

未來(lái),云端AI基礎(chǔ)設(shè)施必將走向異構(gòu)化與高性價(jià)比方向。這不僅體現(xiàn)在單個(gè)模型的計(jì)算與訪存分離,也體現(xiàn)在需用不同規(guī)模的模型服務(wù)不同場(chǎng)景需求。
如同一個(gè)公司不會(huì)全部雇傭博士生,合理的性價(jià)比配置才能實(shí)現(xiàn)高效產(chǎn)出。其核心公式可簡(jiǎn)化為:(資本開(kāi)支CAPEX + 營(yíng)運(yùn)成本OPEX)÷(加速卡吞吐量 × 設(shè)備利用率)。
很重要的是,現(xiàn)在的大模型推理為什么要做PD分離?因?yàn)镻和D階段完全不一樣,P階段是計(jì)算密集型,而D階段絕大部分時(shí)候,算力在等數(shù)據(jù)搬運(yùn)。

如何更高效地解決這個(gè)問(wèn)題?我們通過(guò)數(shù)據(jù)格式優(yōu)化、模型量化等一系列算法技術(shù),在確保模型精度的前提下,顯著提升了計(jì)算與數(shù)據(jù)搬運(yùn)的實(shí)際效率,從而持續(xù)降低了單位Token的推理成本。

目前,國(guó)內(nèi)云廠商的Token報(bào)價(jià)多以百萬(wàn)為單位,成本普遍在10元以上,無(wú)服務(wù)水平協(xié)議保障的模型調(diào)用成本甚至超過(guò)20元。我們認(rèn)為,未來(lái)三到五年,百萬(wàn)Token成本必須降至1元人民幣以內(nèi),才能支撐“人工智能+”計(jì)劃所要求的滲透率目標(biāo)。
最后,簡(jiǎn)單講一下云天勵(lì)飛,公司自2024年創(chuàng)立以來(lái),始終秉持“算法+芯片”雙輪驅(qū)動(dòng)的技術(shù)路徑,目前芯片已迭代至第四代。第五代芯片將全面轉(zhuǎn)向GPNPU架構(gòu),并在原有自主設(shè)計(jì)的NPU指令集及多年行業(yè)技術(shù)積累基礎(chǔ)上,向通用推理方向演進(jìn)。
2020年,公司全面轉(zhuǎn)向國(guó)內(nèi)工藝體系,并成為國(guó)內(nèi)最早實(shí)現(xiàn)D2D Chiplet技術(shù)的企業(yè)之一,該工藝是突破算力制約的關(guān)鍵路徑,也是國(guó)產(chǎn)算力芯片發(fā)展的共同方向。
在存儲(chǔ)技術(shù)方面,我們認(rèn)為3DM是國(guó)產(chǎn)工藝未來(lái)實(shí)現(xiàn)突破的重要方向。盡管目前可采用海外HBM3e乃至后續(xù)產(chǎn)品,但其產(chǎn)業(yè)鏈與供應(yīng)鏈仍存在較大不確定性,因此我們堅(jiān)持全面推進(jìn)國(guó)產(chǎn)化,致力于發(fā)展3DM等突破性工藝,并期待更多芯片企業(yè)加入,共同推動(dòng)產(chǎn)業(yè)成熟。
在本代商用芯片中,我們通過(guò)一次流片即可封裝出適用于端、邊、云等多種場(chǎng)景的系列芯片,算力覆蓋8T、16T、64T直至128T,其中最高規(guī)格的Edge200芯片可完整支持深度推理任務(wù)。
從公司愿景出發(fā),云天勵(lì)飛致力于全面擁抱人工智能浪潮。無(wú)論是在智能硬件、智能攝像頭、具身智能、人形機(jī)器人還是云推理等領(lǐng)域,我們均圍繞“端邊云”體系布局了三條芯片產(chǎn)品線:“深穹”面向云推理,“深界”專(zhuān)注于端側(cè)NPU芯片,“深擎”則是面向人工智能的SoC芯片。我們期待基于國(guó)產(chǎn)工藝,全面推動(dòng)AI技術(shù)的落地與應(yīng)用。
以上是我的分享,謝謝大家。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。