AIGC “一夜爆紅”，我們需要什么樣的AI芯片？

本文作者：吳優

2023-03-06 15:08

導語：AI芯片的分工方式正在發生改變。

AI繪畫和ChatGPT的火爆，再一次引發行業內對AI的火熱討論。

ChatGPT僅僅推出兩個月，月活用戶就已經突破了1億，成為史上用戶增長速度最快的消費級應用程序，文生圖（text-to-image）也在僅僅兩個月內就從外國網友和中國極客手中的小眾黑科技快速移植到普通用戶都能觸手可及的小程序和手機APP中。

AI以嶄新的應用形式又一次刺激人類對科技的想象，但這些讓人興奮應用的體驗感依然沒有想象中絲滑，例如AI繪畫會畫出與主題完全不相干的圖片，ChatGPT也時常一本正經地胡說八道。

技術更新誕生新的應用，而新應用出現的問題往往又倒逼技術的升級更新，AIGC勢必也會在AI芯片領域掀起新的浪潮。

現象級AI引發范式變革，芯片算力需求井噴

如何理解AIGC？即一種AI生成式內用技術，讓AI完成原本只有人類才能做到的原創性工作，可以將其理解為是從PGC（專業生成）轉向UGC（用戶生成）之后的又一次內容生成的范式轉移。

事實上早在2014年，對抗生成網絡GAN（Gemerative）就已經能夠利用現有樣本生成新圖像，例如給GAN模型喂入大量的人臉數據，便能生成真假難辨的人臉照片，比較常見的應用是我們在短視頻平臺中見到的“假笑特效”、“老人特效”、“讓老照片動起來”等視頻特效，但這一波不足以讓AIGC概念爆火。

直到有大模型、可控性、多模態等技術為AIGC賦能，AIGC才愈發走向成熟，終于有了更加出色的應用表現。

需要強調的是，對于AI而言，如何理解用戶輸入語言的含義是運作的關鍵，而AI對人類語言的理解主要基于被喂入的數據——被喂入的數據越多，理解能力越強，即模型越大，理解能力越強。這一點在ChatGPT上也得到了證明，其友好對話能力也是基于較新的GPT-3.5這一大規模的通用語言模型，通過對來自四面八方的大量文本進行訓練，從而產生類似人類的反應。

不巧的是，AIGC對大模型的訴求與GAN有許多相悖之處，例如GAN需要一個特定的數據集而不是大量的數據集進行學習，不能實現泛化使用。業界在嘗試基于GAN做文生圖的技術也時常出現描述文本缺失、分辨率低、難以理解高層次語義信息等問題。

不過這些問題在后來出現的Diffusion+ CLIP的技術結合中得到解決，前者通過多步生成圖片，且每一步都是一個自編碼器，從而保證訓練的穩定性，后者負責圖文匹配驗證，以確保生成的圖片能夠符合文字描述。

探討支撐AIGC發展的主要技術，可以發現，無論是AI繪畫還是ChatGPT的爆火，主要都是得益于深度學習模型方面的創新，不斷創新的算法、預訓練模型以及多模態等技術的融合推動了AIGC的變革，其所產生的商業價值潛力巨大。

2023年2月1日， Open AI率先一步嘗試商業化，推出了名為ChatGPT Plus的訂閱服務，每月收費20美元，訂閱的用戶可以獲得全天候的服務，并在高峰時段享有優先訪問權，用戶不僅能夠提前使用新功能，同時應用的響應時間也會更快。Open AI 預計2023年，ChatGPT將實現2億美元的營收。而這也引發了一大批互聯網公司對ChatGPT的布局，繼谷歌獻上Bard之后，華為、百度、騰訊、阿里巴巴等頭部企業也都紛紛表示，已經擁有在研對標ChatGPT相關的模型及產品，致力于打造中國版ChatGPT。

2018年谷歌發布了基于Transformer機器學習方法的自然語言處理與訓練模型BERT，人工智能就進入大模型參數的預訓練模型時代，當下的預訓練模型參數數量、訓練數據模型正在按照每年300倍的趨勢增長，而人工智能硬件算力增長速度與模型計算量的增長速度存在萬倍差距。ChatGPT的出現與商業變現，意味著模型計算量的增長速度將進一步加快，芯片算力需求出現井噴，不僅是對AI訓練芯片單點算力需求的提升，還包括對算力定制化、多元化需求的提升，甚至對數據傳輸速度也提出了更高的要求。

IDC預計，到2025年人工智能芯片市場規模將達到726億美元。目前每臺人工智能服務商普遍配置2個GPU，未來18個月，GPU、ASIC和FPGA的搭載率均會上升。通用性遞減、專用性增強是AI芯片的主要發展方向。國際大廠將越來越重視打造從云端訓練到終端響應的全套AI芯片生態體系。

AI芯片分工生變，云端推理加速轉移

據外媒semianalysis報道，ChatGPT每天在計算硬件方面的運營成本為694444美元，Open AI需要大約3617臺HGX A100服務器（28936個GPU）為ChatGPT提供服務。真正需要用云端芯片進行推理的需求增加，云端無法承受如此龐大的數據和工作量，如果能夠將AI云端芯片的處理工作向邊緣側轉移，或許將為大模型的訓練和推理釋放更多的計算空間。

與此同時，用戶需求也在改變著典型的AI芯片分工方式，一方面消費者希望保護個人數據隱私，即將終端數據保留在終端設備上，另一方面，消費者又需要可靠的數據，并即時獲得處理結果，數據不斷從邊緣側產生，AI處理的重心正在持續向邊緣轉移。

AIGC “一夜爆紅”，我們需要什么樣的AI芯片？

因此，將推理工作轉移至邊緣側終端完成也成為不少企業為之努力的目標和趨勢。高通就在推升終端側的推理能力方面有著出色表現。

雷峰網(公眾號：雷峰網)了解到，高通正在采取不同的方式實現終端側的學習能力，對包括小樣本學習、無監督持續學習、聯邦學習和低復雜度的終端側訓練等方向的研究，且已經取得了一些成效。

通過小樣本學習，在關鍵詞識別方面，AI能夠“看完”某一人的筆跡或書面文字之后快速進行辨認，也能在用戶錄入數據時進行局部模型適應，憑借少量樣本數據和數據標記能力，提升關鍵詞識別能力。

在聯邦學習方面，云端創造的模型被下發到邊緣側終端之后，基于一定程度的離線學習，終側端就可以根據消費者實際情況調整模型，由于終端側學習的過程會產生噪音，因此還能將其回傳到云端進一步提升模型的泛化能力。在實際的應用場景中，如果一輛汽車不斷在多個國家的不同路況上行駛，云端模型就可以持續進行適應，假以時日模型經過優化，就能打造出更加優秀的自動駕駛汽車模型。

為了讓AI在終側端發揮最大作用，高通也有針對性的技術創新。

例如，高通支持INT4的精度推理。INT4相比INT8能夠實現60% 的能效提升和90%的AI推理速度提升，如果從INT8轉化到INT4、或從浮點計算轉化到整數計算，在同樣的算力下能夠處理更多的數據。如果將32位浮點模型轉化為INT4模型，能效甚至能夠提升到64倍。

智能終端性能升級成必然，高通已賦能20億終端

提升邊緣側處理能力已經成為全民所需，高通已經在這一方面取得了不少突破性成果，且將不少AI算法應用到了影像和圖形處理等功能中，為業界提供了一條發展思路。

首先，高通專注統一技術路線圖進行產品開發，涵蓋了邊緣AI、前沿的視覺效果和視覺技術、圖形和游戲技術、新穎的多媒體效果、極快處理速度，以及5G連接能力等特性。高通將這些技術進行規模化擴展，從耳機等較低復雜度的產品到汽車等高復雜度的產品。這些AI技術中包括了自然語言處理、面部識別等不同的能力。

AIGC “一夜爆紅”，我們需要什么樣的AI芯片？

其次，高通的AI引擎已經賦能20億終端。高通的AI引擎包含圖形處理單元、CPU、以及更關鍵的Hexagon處理器，其中Hexagon處理器又包含標量、向量和張量處理器，這些處理器能夠很好地與神經網絡模型的不同部分實現匹配。基準測試顯示，高通AI引擎在自然語言處理、目標檢測等模型方面都實現了一定的性能優化。

另外，高通還在芯片子系統中集成了一個小型“始終在線”小引擎，稱之為高通傳感器中樞，能同時處理多路數據流，包括傳感器、語音和音頻、連接和始終感知的攝像頭等。這一傳感器中樞通過AI性能的提升已經具備識別隱患聲音的能力，例如能夠對半夜傳來的玻璃破碎聲記下監測和預警。

高通還開發了具有高度可擴展性的硬件架構，針對應用需求進行擴展開發，例如高通的驍龍移動平臺，通常會配置一個Hexagon處理器實例；但如果擴展到計算等其他業務時，也可以使用兩個Hexagon處理器實例；面向汽車、云和邊緣，則可以使用多個Hexagon處理器實例來提高算力。

AIGC “一夜爆紅”，我們需要什么樣的AI芯片？