哪家中國芯片公司能「吃下」大模型？

本文作者：包永剛

2023-07-31 18:39

導語：中國AI芯片公司的天花板，可能是AMD。

哪家中國芯片公司能「吃下」大模型？

作者｜包永剛

編輯｜王亞峰

ChatGPT火爆時，浩然被兩股矛盾的情緒夾在縫隙：一面是興奮，一面是悲傷。

作為一名AI芯片公司的高級軟件工程師，ChatGPT大爆發(fā)前夜，浩然對自己參與研發(fā)的大算力AI芯片充滿信心，他相信為特定AI算法研發(fā)的專用芯片，相比英偉達通用的GPGPU在同等功耗下可以有2倍的性能優(yōu)勢，價格可以做到50%甚至更低，只要軟件體驗不太差，客戶一定會買單。

可ChatGPT掀起的大模型熱潮，讓浩然和同行們都開始思考，AI算法是否有從百家爭鳴走向大一統(tǒng)的可能。

這意味著，過去為特定領(lǐng)域AI算法研發(fā)的專用AI芯片，由于計算負載特性的急劇變化，之前的性價比優(yōu)勢會被明顯削弱，英偉達兼具高帶寬、高互聯(lián)特性的通用GPU優(yōu)勢將會進一步擴大，想要和英偉達競爭的難度更大了，這讓浩然有些悲觀。

但從自己工作的角度，AI算法的大一統(tǒng)可以讓硬件工程師和軟件工程師工作的目標都更清晰，工作會難度降低，這是浩然歡呼的理由。

“我不相信英偉達能一直保持領(lǐng)先。”芯片架構(gòu)師宇陽保持信心，“GPU不見得是大模型的最佳解，中國AI芯片公司里一定會有能和英偉達掰手腕的公司。

國內(nèi)眾多的AI大芯片公司，誰能吃下大模型市場？

芯片公司想喝口大模型的湯也不容易

就算是英偉達長久以來的競爭對手AMD，在英偉達大口吃AI大模型肥肉的時候，AMD也沒喝上多少湯。綜合實力不及AMD的國內(nèi)初創(chuàng)公司們，就算嘴上高呼趕超英偉達，心里也清楚能做互聯(lián)網(wǎng)公司的第二供應商，喝上大模型的湯就是巨大的成功。

大模型火爆，全世界的公司都在找英偉達買GPU。原先售價3萬多美元的最新款H800 GPU，就算終端售價加價1萬多美元依舊一卡難求。這種供不應求的盛況直接將英偉達的市值推向1萬億美元，創(chuàng)造了全球半導體公司市值的新紀錄。

“客戶很奇怪，就算AMD有性能不錯的GPU現(xiàn)貨，許多想要購買H800 GPU的人依舊不為所動。”一家AI芯片公司的高管道出想要超越英偉達的難度。

技術(shù)出身，如今已是芯片公司高管的洪杰深諳其中的道理，“客戶對AMD的要求和對英偉達產(chǎn)品的要求一樣，有的時候甚至更苛刻，客戶愿意買單的替代產(chǎn)品是比英偉達的GPU便宜，體驗還要差不多。”

“采購英偉達GPU量最大的公司還沒有第二供應商。”洪杰感嘆，“不得不承認英偉達的強大，現(xiàn)階段不要說超越英偉達，成為二供都很難。”

困難的事情往往收益很高，像是字節(jié)跳動這類大客戶，每年采購英偉達GPU的訂單金額就接近百億元。只要能從英偉達嘴里分到幾十億的市場份額，就足夠養(yǎng)活幾家國內(nèi)的AI芯片公司。

離開AMD創(chuàng)業(yè)的人成為二供的概率會更大嗎？歡迎添加文章作者微信BENSONEIT聊聊離開AMD的人。

「追隨派」和「創(chuàng)新派」爭搶大模型

國內(nèi)AI大芯片初創(chuàng)公司非常特別，有跟隨英偉達路線做GPGPU的初創(chuàng)公司，可以叫他們“追隨派”。也有另辟蹊徑，設(shè)計AI專用芯片（也就是DSA，Domain Specific Architecture，領(lǐng)域?qū)Ｓ眉軜?gòu)）的“創(chuàng)新派”。

這是一個非常有趣的現(xiàn)象，因為在國外只有創(chuàng)新派沒有追隨派，也就是沒人選擇走GPGPU的技術(shù)路線創(chuàng)業(yè)。

“所有人都知道，沿著英偉達的路徑不可能超越英偉達，這幾乎是不證自明的事情。并且，西方的創(chuàng)業(yè)者更喜歡做顛覆式創(chuàng)新。”洪杰分析，“尋求顛覆式創(chuàng)新的架構(gòu)師們對AI計算問題的理解與定義不同，自然也計出了各種不同的AI芯片架構(gòu)。”

谷歌定義的TPU專用性很強，是一個典型的領(lǐng)域?qū)Ｓ眯酒珼SA。被譽為全球AI芯片獨角獸的SambaNova Systems選擇了可重構(gòu)架構(gòu)。Cerebras Systems走了一條直接用晶圓做芯片的路。英國AI芯片獨角獸Graphcore創(chuàng)造了獨特的IPU架構(gòu)。

國內(nèi)也有多家走DSA路徑創(chuàng)業(yè)的AI大芯片公司，比如寒武紀、昆侖芯、燧原科技、瀚博半導體、墨芯人工智能。

“選擇DSA路徑創(chuàng)業(yè)還有一個優(yōu)勢，核心IP設(shè)計門檻相對較低。”芯片編譯器專家德輝打了個比方，

用搭樂高來理解設(shè)計GPGPU和DSA的難度，設(shè)計GPGPU就是面向18歲以上玩家的樂高，有許多精細的小模塊，拼起來難度大但作品很精巧。設(shè)計DSA就像是面向5歲的樂高，模塊更大拼起來更容易。

“DSA的門檻可以很低，上限也可以很高。”宇陽說，“ GPU也是一個DSA。最初的GPU圖形專用加速芯片，沒有可編程性，后來英偉達為其增加了通用性之后才變成了GPGPU。”

英偉達將GPU變?yōu)榇蟊娬J知里的通用芯片，也是通過了近20年的努力，從建立CUDA軟件生態(tài)到成熟，讓GPGPU能做圖形加速，AI計算，科學計算。

“從技術(shù)維度，區(qū)別CPU和DSA可以看其是否能運行Windows、Linux這樣的操作系統(tǒng)。”宇陽補充，“從這個角度看GPU依舊是DSA。”

只是在大部分人眼里，英偉達的GPGPU已然成為了一顆通用芯片，在當下最為火熱的AI市場里供不應求。

早已看到英偉達GPGPU強大的中國創(chuàng)業(yè)者，直接選擇了GPGPU架構(gòu)進行創(chuàng)業(yè)，就像天數(shù)智芯、登臨科技、壁仞科技、海飛科。

“選擇GPGPU的路徑雖然不能超越英偉達，但有國產(chǎn)替代的剛需，而且這條路線可以通過多種技術(shù)方案做到‘兼容CUDA’，降低用戶的軟件切換成本。”浩然直言，“有了國產(chǎn)替代的需求，讓中國大芯片創(chuàng)業(yè)公司有機會與英偉達競爭，并且最終一定會留下幾家AI大芯片的公司。”

這時誰能吃下大模型的問題就變成了追隨派和創(chuàng)新派的機會誰更大？

兩派相爭，創(chuàng)新派已死？

一個非常犀利的觀點是，DSA已死。這是一個極具爭議性的話題，探討這個話題可以添加作者微信BENSONEIT。

這種論調(diào)核心的邏輯是英偉達編程性很強的GPGPU已經(jīng)通過了AI大模型的驗證，在Transformer讓AI算法趨于收斂的現(xiàn)狀下，英偉達可以通過手工優(yōu)化底層代碼，高效調(diào)度底層硬件獲得持續(xù)的性能提升，讓已經(jīng)流片量產(chǎn)的DSA不再擁有設(shè)計之初的巨大性能優(yōu)勢。

“算法不確定的時候，英偉達沒有動力針對某個算法做手工優(yōu)化。這讓針對某類算法（比如CNN）的DSA可以有2倍甚至更多的性能優(yōu)勢。”浩然對DSA的未來有些悲觀，“現(xiàn)在算法和模型收斂，英偉達進行手工優(yōu)化可以充分釋放出硬件的性能，每一代CUDA升級都會帶來10-20%的性能提升。而通過底層硬件固化實現(xiàn)性價比優(yōu)勢的DSA要持續(xù)通過軟件優(yōu)化提升性能的難度很大，極端的情況軟件甚至沒有多大的提升空間。”

德輝從他擅長的編譯角度解釋，F(xiàn)lashAttention系列工作在大模型上的驚艷效果，正是說明針對特定模型（比如CNN類網(wǎng)絡(luò)）的手工融合大算子是一種典型手段，本質(zhì)是通過手工將特定的模型子結(jié)構(gòu)從存儲受限（memory bound）轉(zhuǎn)化成了計算受限（compute bound），最大程度發(fā)揮出了GPU的計算性能。

“這種方式只是做了局部的優(yōu)化，手工成本比較高，也難以泛化到整個模型或者新的模型。”德輝不認為DSA已死，“只有擁有一個能夠自動生成融合算子的編譯器，GPU才能最大程度發(fā)揮出性能優(yōu)勢。但英偉達的軟件經(jīng)過十多年迭代，也還沒有這樣的編譯器，這是一個業(yè)界難題。”

比編譯器更底層的芯片架構(gòu)，也決定著計算AI大模型任務的效率。

宇陽也指出了GPU架構(gòu)的局限性，GPU為了保證很強的編程性，在架構(gòu)上借鑒了CPU的設(shè)計，芯片上沒有緩沖器（Buffer），每次操作的對象只能是寄存器，典型寄存器大小是個很短的向量，比如64字節(jié)，這是保證編程靈活性的最好設(shè)計，但數(shù)據(jù)要不斷在芯片內(nèi)部和外部存儲之間搬運，效率不高。

“AI大模型動輒就是上百億個參數(shù)，要提升計算效率需要盡量減少數(shù)據(jù)的搬移。DSA可以為大模型設(shè)計很大的片上緩存，一次可以操作64字節(jié)的上千倍，相比GPGPU有明顯優(yōu)勢。”宇陽指出。

兩者的差別非常明顯，GPGPU計算 AI模型時計算單元的利用率一般情況下只有30%-40%，而DSA一般都能做到計算單元的利用率達到80%-90%。

“許多人沒看到DSA的核心價值——數(shù)據(jù)流優(yōu)化。”德輝的經(jīng)驗告訴他，“通過充分發(fā)揮DSA片上有的大存儲器（SRAM）優(yōu)勢，利用編譯器進行徹底優(yōu)化，實現(xiàn)理想的圖編譯，每一層都把大模型計算的存儲受限轉(zhuǎn)化為計算受限，能夠最大化DSA的優(yōu)勢。”

而DSA的優(yōu)勢沒被充分挖掘出來，還是因為許多DSA芯片公司都在用英偉達的思路設(shè)計軟件。

“用英偉達GPGPU的方法設(shè)計軟件既是一個思維定式，也是一個經(jīng)過驗證成功的路，風險更低。并且，要針對DSA的優(yōu)勢用另外的思路設(shè)計編譯器，也有技術(shù)上的挑戰(zhàn)，比如打破算子邊界帶來的復雜性。”這是德輝的心得。

即便再看好DSA，宇陽和德輝都沒有否認未來的趨勢是混合DSA。

專用和通用融合才是大模型的最優(yōu)解

“一個完美的AI大模型處理器應該是用T4 GPU的計算核心，用H100 GPU的顯存。”洪杰用一個形象的說法道出大模型的真實需求。

而兼具通用性和專用性的混合DSA芯片才是滿足大模型需求的理想產(chǎn)品，未來AI芯片公司的比拼是混合DSA。

6年前，英偉達的Volta架構(gòu)首次為深度學習加入了Tensor Core，此后的每代架構(gòu)都不斷優(yōu)化Tensor Core，增強GPU的AI性能。

2022年發(fā)布的H100 GPU，又增加了軟硬結(jié)合的Transformer Engine，目的是加速AI大模型計算。

Tensor Core和Transformer引擎，都是為AI工作流設(shè)計的專用計算單元。也就是說，英偉達早就在“通用”的GPGPU上增加了“專用”的AI加速單元，這種融合設(shè)計兼顧了GPGPU的通用性，又能發(fā)揮專用加速單元的能效比優(yōu)勢，更像是大模型的最優(yōu)解。

這里有一個會讓人費解的問題，既然AI模型都穩(wěn)定了，為什么不是設(shè)計一個Transformer專用的加速芯片，還需要通用性？

“算法的類別雖然從幾千種變成幾百種，但還在不斷優(yōu)化，只有具備足夠的通用性，才能最大化芯片的價值。”宇陽解釋。

“從芯片的設(shè)計規(guī)律看，設(shè)計一個Transformer專用加速芯片，去‘賭’未來三至五年內(nèi)不會有新的模型結(jié)構(gòu)顛覆性的替換掉Transformer，也是一個非常瘋狂的想法。”浩然補充。

那混合DSA的路線明確之后，各家芯片的差異會如何體現(xiàn)？

“混合DSA其實就是在通用的CPU和純粹專用的DSA之間找一個平衡點。不同的架構(gòu)師選擇的點會完全不一樣，但到底誰的設(shè)計更好，需要時間的檢驗。因為架構(gòu)的設(shè)計不是一個純粹的技術(shù)問題，還與當時所處的時間，環(huán)境有很大關(guān)系。”宇陽這樣認為。

其中有賭的部分，浩然說，“混合DSA的片上存儲（SRAM）非常貴，因為需要占用的芯片面積非常大，所以到底設(shè)計多大的SRAM，需要賭。”

最終混合DSA芯片之間差異將會很小。

“就像如今安卓系統(tǒng)和iOS系統(tǒng)越來越像一樣，最后能夠留下來的混合DSA架構(gòu)的AI芯片，可能也是80%相同，只有20%不同。”洪杰做出了這樣的判斷。

但在走到這一天之前，混合DSA還有一個巨大的難題——比GPGPU和DSA都更復雜的軟件棧。這很容易理解，既然是將兩種架構(gòu)融合，系統(tǒng)就更加復雜，難度自然也更大。

當然，更明確的算法又能降低軟件開發(fā)和優(yōu)化的難度。

此時，就可以回到最初的問題，中國芯片公司誰能喝到大模型的湯？

誰能更快吃上大模型？

商業(yè)的成功不是單純的技術(shù)路線“好壞”就可以決定，現(xiàn)在可以看到的是，跟隨派轉(zhuǎn)向混合DSA的技術(shù)難度相對低一些，創(chuàng)新派有RISC-V CPU可選，可謂各有優(yōu)劣。具體到每一家公司的時候，情況又各不相同。

“GPU的眾核（Many Core）設(shè)計，相比DSA的設(shè)計難度更大，所以已經(jīng)設(shè)計出GPGPU的初創(chuàng)公司，再增加一個DSA，比DSA增加一個GPGPU的難度小一些。”浩然從眾核設(shè)計的難度判斷各家芯片公司面臨的挑戰(zhàn)大小。

“GPU的一致性控制確實很難。”宇陽部分認同浩然的觀點，“但增加可編程性并不一定就是要做一個GPGPU，有很多路徑可選。”

德輝就非常看好RISC-V CPU加上DSA的混合DSA，“RISC-V CPU可以提供向量計算，并且有足夠的通用性，與DSA混合是一個不錯的選擇。”

這種混合DSA方式要自己建立軟件生態(tài)，需要投入的資源巨大。

“芯片要落地非常關(guān)鍵的是要接受客戶的批評和質(zhì)疑，然后務實的迭代。”洪杰的想法是，“芯片公司要把客戶不愿做的活都做了，比如遷移芯片的大量工作，讓客戶可以無感遷移，但這需要極大的人力和時間的投入。”

相比之下，DSA路徑的公司想兼容CUDA生態(tài)的難度比GPGPU路徑的公司難度更大。

但對于走GPGPU路徑創(chuàng)業(yè)的公司也不是一件容易的事情，要兼容英偉達的CUDA生態(tài)，硬件設(shè)計和軟件都要盡量接近英偉達，才能實現(xiàn)接近英偉達GPU的性能。

“AMD就是走兼容英偉達的路，國內(nèi)公司走這條路的天花板就是AMD。”德輝指出，“在部分場景做到英偉達80%的體驗沒有問題，但超越不了英偉達。”

再大致看看各家的情況，追隨派里天數(shù)智芯和登臨科技具有先發(fā)優(yōu)勢，壁仞科技也被多位內(nèi)工程師視作黑馬。

創(chuàng)新派里的寒武紀受到美國禁令的限制前途難料；燧原科技每一代產(chǎn)品都采用了HBM（高帶寬存儲器）適合大模型，但和其它公司一樣，軟件是個不小的挑戰(zhàn)。

注意一個時間點，2025年英特爾計劃推出融合其GPU和DSA的新一代AI芯片，那時候AI芯片的競爭將會更加激烈。

你看好哪家AI芯片公司？歡迎添加本文作者微信BENSONEIT交流。

注文中浩然、宇陽、洪杰、德輝均為化名雷峰網(wǎng)(公眾號：雷峰網(wǎng))

福利票上線，免費搶500新幣/張的大會通票

為答謝雷峰網(wǎng)忠實讀者，我們提供20張GAIR SUMMIT 2023免費門票，掃碼下方二維碼，即可有機會獲取，先到先得。

哪家中國芯片公司能「吃下」大模型？

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

包永剛

編輯

發(fā)私信

當月熱門文章