Infra大咖齊聚一堂，一場關于大模型基建的百家爭鳴| GAIR 2023

本文作者：聰聰

2023-08-23 10:39

導語：降低成本和門檻，讓新科技革命發生。

編者按：2023年 8 月 14 日，由GAIR研究院、雷峰網(公眾號：雷峰網)、世界科技出版社、科特勒咨詢集團聯合主辦的第七屆GAIR全球人工智能與機器人大會，在新加坡烏節大酒店拉開帷幕。過去一段時間，ChatGPT將人工智能推向熱潮。據統計，目前國內已經有100余家大模型，這也成為本次大會探討的主要議題之一。

根據大會安排，峰會首日進行到下午16時，以“大模型時代的超級基建”為主題的圓桌論壇，在云啟資本合伙人陳昱主持下正式開啟。

參與本次圓桌論壇的嘉賓有：

尤洋：新加坡國立大學校長青年教授，潞晨科技創始人

季昕華：UCloud董事長

星爵：Ziliz 創始人兼 CEO

圍繞大模型基礎設施建設面臨的挑戰、如何降低大模型訓練成本等話題，參會嘉賓進行了熱烈討論。

關于挑戰，尤洋認為，通信基礎設施非常重要。過去，挖礦等一些非AI需求的GPU就沒有很好的高速互聯。季昕華認為主要大模型的訓練主要面臨資金、算力、工程等方面的挑戰。星爵則強調了數據方面的問題。

對業內非常關心的成本問題，尤洋表示，大模型訓練的一個巨大負擔是訓練計算量太大。同時，他也給出了相應的解決方式；季昕華詳細解釋了優刻得如何通過降低電費、化購買為租用等五個方面幫助客戶降本增效；星爵則從數據層面給出了相應得方案。

圓桌結尾，電腦報創始人陳宗周發表了總結感言，他對各位嘉賓的演講和工作成果都給予了盛贊。陳老師還特別提到，很多講者已經把事業做得非常龐大，但依然非常謙遜，中間更是有不少人是年輕一代的榜樣。

Infra大咖齊聚一堂，一場關于大模型基建的百家爭鳴| GAIR 2023

最后，在大家的掌聲中，大模型時代的超級基建圓桌論壇環節正式結束，大會首日活動也由此畫上圓滿句號。

以下是圓桌討論部分內容，雷峰網根據現場速記做了不改原意的縮寫。

陳昱：謝謝雷峰網舉辦這么好的一個活動。大家都知道，今年AI是一個最熱的話題，但是AI的應用離不開底層基礎設施支撐。所以，我們今天有幸邀請了三位大咖，來討論一下基礎大模型的一些相關問題。首先，第一個問題是，在當前的技術水平下面，大模型的基礎設施建設會有什么挑戰？

尤洋：我個人覺得，首先，通信的基礎設施非常重要。比如說，我們把大模型劃分到了很多GPU服務器，把它劃分成很多塊，本質上其實我們最終都是要匯總的。劃分多少次，最終至少需要匯總多少次。這種情況下，我們也看到，在GPT3出現以前，英偉達在2019年就收購了Mellanox。當然我相信英偉達應該還是有很好的前瞻性。收購Mellanox的目的就是為了打造高速網絡。這也引申出了另外一個問題，之前很多非AI的GPU 之所以很難用來訓練大模型的，往往就是因為沒有很好的高速互聯。

季昕華：在國內，我們服務了五六十家做大模型的公司。主要有哪些挑戰呢？一是資金門檻，需要大量的資金投入做大模型；二是算力門檻，現在大部分公司都沒有足夠的卡來做支撐；三是工程問題，就是整個卡之間的網絡鏈接、數據存儲性能問題，以及整個訓練過程掉卡問題。這些問題都會使得整個訓練周期會變得非常長。另外，安全問題也是蠻突出的，這些問題都會影響到大模型的訓練以及未來應用。

星爵：我們一般會說 AI有三個技術支柱，就是算法、算力和數據。我們現在已經到了一個時代，新一代的算法對算力和數據都有更高要求。剛才兩位都提到了芯片、算力這方面的基礎設施，我想強調下數據層面的問題。世界上有 80%以上的數據都這種非結構化的數據：不管是文本、圖片、視頻，還是人的對話和行為都屬于非結構化的數據。而在過去十多年，非結構化數據的管理能力主要由谷歌、微軟等大公司掌握。新AI時代對數據管理的要求也會變得更大，如何更好地做好智能的數據基建是一個很大的挑戰。

陳昱：數據的確是一個非常重要的話題，那下面這兩個問題其實是和數據相關的。第一個問題是怎么看待數據的安全和隱私問題。我知道季總以前也是黑客出身，應該也非常 SQL injection ，那大模型時代很容易延展到 prompt injection。季總怎么看這方面問題。

季昕華：我們認為整個大模型有四個方面的安全挑戰。

第一，大模型是把數據和程序結合在一起的，而在傳統的計算機里面，程序和數據是分開的。但是在大模型里面，數據有可能是程序的一個執行命令，這方面，目前也沒有太多人研究。我們最近在分析這件事，比如，讓一個 agent 去執行一個命令的時候，這個命令本身可能是一段文字。所以，文字和程序之間可以被套用，存在很大的風險。特別是，如果大模型未來操縱整個人類的世界，風險可能會更大。

第二，是數據劫持問題，通過 promote 進行劫持，這方面不少人都在做研究。這里，對于場景的劫持會更嚴重一些。第三，大模型的輸出目前是童言無忌的，沒有做權限的隔離，這里的風險是非常大的。

第四，是所有的輸入數據都有可能會被它所記錄，造成隱私的泄露。

陳昱：星爵有什么觀點嗎？我不知道數據和隱私會不會在向量數據庫里面做管理？還是這是應用層的一個問題。

星爵：從我們現在看到的應用來講，向量數據其實已經做了一層類似的數據加密。可以把整個的這個神經網絡看作一個encode。比如說，在數據進入我們向量數據庫以前，會有一個 transformation 的過程，把圖片、視頻、文本等向量化，向量化本身的話會用一個大模型的方式去提取一個embedding。這個過程基本上是不太可逆的，否則計算量太大。從這個層面來講，向量數據庫已經實現了一定程度的數據脫敏。

陳昱：接下來，這個問題是跟錢相關的。大家都知道大模型就是無論是訓練還是使用，其實都是非常費錢。無論底層的云，尤教授的軟件，還是向量數據庫，都有很大的成本優化空間。這里，我就想請各位談一下怎么去幫大家省錢的。

尤洋：站在我們角度看，主要是訓練計算量太大，解決的有效方式主要有三個角度：一是不改變硬件條件下試試能否加速收斂；二是，針對下層軟件，在不改變模型結果前提下，能否提供更好的基礎設施；三是能否進行模型優化。所以，我們主要還是在軟件層面上看能不能使它的訓練的更高效、更快，從而去降低成本。

季昕華：我們現在主要通過五個方面幫助客戶降本增效。一是降低電費。不論做訓練還是推理，電費大約占總成本的15%左右，優刻得烏蘭察布數據中心能夠把電費單價從1塊錢/度降低到3毛錢/度；二是化購買為租用。由于訓練一般分階段，因此公司可以選擇租用模式。比起購買，租用會極大降低使用者的成本；三是通過網絡帶寬和存儲帶寬來提高使用者的訓練效率；四是通過壓縮模型等手段，來降低推理成本。畢竟，未來推理成本可能會遠大于訓練成本；五是通過一體機的模式，即私有部署的模式推進私有化大模型。

星爵：就降低成本而言，從向量數據庫角度，非結構化數據管理方面來看，主要包括三方面：第一，要有更好的算法，這意味著能更好地發發揮硬件效果；第二，要更聰明地利用個體存儲；第三，要比以往有更強的有效利用硬件的能力。

陳昱：感謝各位嘉賓的時間，謝謝大家。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

聰聰

主筆

個人微信：Congc_a，歡迎添加交流。

發私信

當月熱門文章