成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    業界 正文
    發私信給聰聰
    發送

    0

    Infra大咖齊聚一堂,一場關于大模型基建的百家爭鳴| GAIR 2023

    本文作者: 聰聰 2023-08-23 10:39
    導語:降低成本和門檻,讓新科技革命發生。

    編者按:2023年 8 月 14 日,由GAIR研究院、雷峰網(公眾號:雷峰網)、世界科技出版社、科特勒咨詢集團聯合主辦的第七屆GAIR全球人工智能與機器人大會,在新加坡烏節大酒店拉開帷幕。過去一段時間,ChatGPT將人工智能推向熱潮。據統計,目前國內已經有100余家大模型,這也成為本次大會探討的主要議題之一。

    根據大會安排,峰會首日進行到下午16時,以“大模型時代的超級基建”為主題的圓桌論壇,在云啟資本合伙人陳昱主持下正式開啟。

    參與本次圓桌論壇的嘉賓有:

    尤洋:新加坡國立大學校長青年教授,潞晨科技創始人

    季昕華:UCloud董事長

    星爵:Ziliz 創始人兼 CEO

    圍繞大模型基礎設施建設面臨的挑戰、如何降低大模型訓練成本等話題,參會嘉賓進行了熱烈討論。

    關于挑戰,尤洋認為,通信基礎設施非常重要。過去,挖礦等一些非AI需求的GPU就沒有很好的高速互聯。季昕華認為主要大模型的訓練主要面臨資金、算力、工程等方面的挑戰。星爵則強調了數據方面的問題。

    對業內非常關心的成本問題,尤洋表示,大模型訓練的一個巨大負擔是訓練計算量太大。同時,他也給出了相應的解決方式;季昕華詳細解釋了優刻得如何通過降低電費、化購買為租用等五個方面幫助客戶降本增效;星爵則從數據層面給出了相應得方案。

    圓桌結尾,電腦報創始人陳宗周發表了總結感言,他對各位嘉賓的演講和工作成果都給予了盛贊。陳老師還特別提到,很多講者已經把事業做得非常龐大,但依然非常謙遜,中間更是有不少人是年輕一代的榜樣。

    Infra大咖齊聚一堂,一場關于大模型基建的百家爭鳴| GAIR 2023

    最后,在大家的掌聲中,大模型時代的超級基建圓桌論壇環節正式結束,大會首日活動也由此畫上圓滿句號。

    以下是圓桌討論部分內容,雷峰網根據現場速記做了不改原意的縮寫。

    陳昱:謝謝雷峰網舉辦這么好的一個活動。大家都知道,今年AI是一個最熱的話題,但是AI的應用離不開底層基礎設施支撐。所以,我們今天有幸邀請了三位大咖,來討論一下基礎大模型的一些相關問題。首先,第一個問題是,在當前的技術水平下面,大模型的基礎設施建設會有什么挑戰?

    尤洋:我個人覺得,首先,通信的基礎設施非常重要。比如說,我們把大模型劃分到了很多GPU服務器,把它劃分成很多塊,本質上其實我們最終都是要匯總的。劃分多少次,最終至少需要匯總多少次。這種情況下,我們也看到,在GPT3出現以前,英偉達在2019年就收購了Mellanox。當然我相信英偉達應該還是有很好的前瞻性。收購Mellanox的目的就是為了打造高速網絡。這也引申出了另外一個問題,之前很多非AI的GPU 之所以很難用來訓練大模型的,往往就是因為沒有很好的高速互聯。

    季昕華:在國內,我們服務了五六十家做大模型的公司。主要有哪些挑戰呢?一是資金門檻,需要大量的資金投入做大模型;二是算力門檻,現在大部分公司都沒有足夠的卡來做支撐;三是工程問題,就是整個卡之間的網絡鏈接、數據存儲性能問題,以及整個訓練過程掉卡問題。這些問題都會使得整個訓練周期會變得非常長。另外,安全問題也是蠻突出的,這些問題都會影響到大模型的訓練以及未來應用。

    星爵:我們一般會說 AI有三個技術支柱,就是算法、算力和數據。我們現在已經到了一個時代,新一代的算法對算力和數據都有更高要求。剛才兩位都提到了芯片、算力這方面的基礎設施,我想強調下數據層面的問題。世界上有 80%以上的數據都這種非結構化的數據:不管是文本、圖片、視頻,還是人的對話和行為都屬于非結構化的數據。而在過去十多年,非結構化數據的管理能力主要由谷歌、微軟等大公司掌握。新AI時代對數據管理的要求也會變得更大,如何更好地做好智能的數據基建是一個很大的挑戰。

    陳昱:數據的確是一個非常重要的話題,那下面這兩個問題其實是和數據相關的。第一個問題是怎么看待數據的安全和隱私問題。我知道季總以前也是黑客出身,應該也非常 SQL injection ,那大模型時代很容易延展到 prompt injection。季總怎么看這方面問題。

    季昕華:我們認為整個大模型有四個方面的安全挑戰。

    第一,大模型是把數據和程序結合在一起的,而在傳統的計算機里面,程序和數據是分開的。但是在大模型里面,數據有可能是程序的一個執行命令,這方面,目前也沒有太多人研究。我們最近在分析這件事,比如,讓一個 agent 去執行一個命令的時候,這個命令本身可能是一段文字。所以,文字和程序之間可以被套用,存在很大的風險。特別是,如果大模型未來操縱整個人類的世界,風險可能會更大。

    第二,是數據劫持問題,通過 promote 進行劫持,這方面不少人都在做研究。這里,對于場景的劫持會更嚴重一些。 第三,大模型的輸出目前是童言無忌的,沒有做權限的隔離,這里的風險是非常大的。

    第四,是所有的輸入數據都有可能會被它所記錄,造成隱私的泄露。

    陳昱:星爵有什么觀點嗎?我不知道數據和隱私會不會在向量數據庫里面做管理?還是這是應用層的一個問題。

    星爵:從我們現在看到的應用來講,向量數據其實已經做了一層類似的數據加密??梢园颜麄€的這個神經網絡看作一個encode。比如說,在數據進入我們向量數據庫以前,會有一個 transformation 的過程,把圖片、視頻、文本等向量化,向量化本身的話會用一個大模型的方式去提取一個embedding。這個過程基本上是不太可逆的,否則計算量太大。從這個層面來講,向量數據庫已經實現了一定程度的數據脫敏。

    陳昱:接下來,這個問題是跟錢相關的。大家都知道大模型就是無論是訓練還是使用,其實都是非常費錢。無論底層的云,尤教授的軟件,還是向量數據庫,都有很大的成本優化空間。這里,我就想請各位談一下怎么去幫大家省錢的。

    尤洋:站在我們角度看,主要是訓練計算量太大,解決的有效方式主要有三個角度:一是不改變硬件條件下試試能否加速收斂;二是,針對下層軟件,在不改變模型結果前提下,能否提供更好的基礎設施;三是能否進行模型優化。所以,我們主要還是在軟件層面上看能不能使它的訓練的更高效、更快,從而去降低成本。

    季昕華:我們現在主要通過五個方面幫助客戶降本增效。一是降低電費。不論做訓練還是推理,電費大約占總成本的15%左右,優刻得烏蘭察布數據中心能夠把電費單價從1塊錢/度降低到3毛錢/度;二是化購買為租用。由于訓練一般分階段,因此公司可以選擇租用模式。比起購買,租用會極大降低使用者的成本;三是通過網絡帶寬和存儲帶寬來提高使用者的訓練效率;四是通過壓縮模型等手段,來降低推理成本。畢竟,未來推理成本可能會遠大于訓練成本;五是通過一體機的模式,即私有部署的模式推進私有化大模型。

    星爵:就降低成本而言,從向量數據庫角度,非結構化數據管理方面來看,主要包括三方面:第一,要有更好的算法,這意味著能更好地發發揮硬件效果;第二,要更聰明地利用個體存儲;第三,要比以往有更強的有效利用硬件的能力。

    陳昱:感謝各位嘉賓的時間,謝謝大家。


    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說