0
| 本文作者: 何思思 | 2023-08-23 14:13 |

作者丨何思思
編輯丨林覺民
2023 年 8月14日,第七屆GAIR全球人工智能與機器人大會在新加坡烏節大酒店正式開幕。論壇由GAIR研究院、雷峰網、世界科技出版社、科特勒咨詢集團聯合主辦。
大會共開設10個主題論壇,聚焦大模型時代下的AIGC、Infra、生命科學、教育,SaaS、web3、跨境電商等領域的變革創新。此次大會是在大模型技術爆炸時代,首個出海的AI頂級論壇,也是中國人工智能影響力的一次跨境溢出。
在第一天的大模型時代的超級基建專場上,Zilliz創始人兼CEO星爵進行了以“向量數據庫作為新一代基礎設施如何為大模型提供語義存儲”為主題的精彩演講。
過去的每個十年,AI都邁向一個新的階段。星爵指出,受限于研發成本和開發難度,過去十年全球僅有1%的開發者專注于AI領域的研發工作,但如今有了大模型和向量數據庫作為能力基座,一個AI 應用的開發僅僅需要兩三個工程師一個周末的時間便可完成。
“忽如一夜春風來,千樹萬樹梨花開。”對于大模型,星爵如此評價道。除此之外,星爵還強調了向量數據庫之于大模型的重要性。他認為,向量數據庫承擔著大模型數據片外存儲的重任,不管是圖片、視頻語言還是生物學中蛋白質的三維結構,都可以用向量的方式表征它的語義。
回到大模型目前落地遇到的最主要困境,即數據實時性和私域專有數據的問題,學術界和工業界存在兩種解決方案,一是通過Fine tuning的方式迭代演進,讓大模型學到更多的知識;二是通過Vector search的方法,把最新的私域知識存在向量數據庫中,需要時在向量數據庫中做基于語義的向量檢索,這兩種方法都可以為大模型提供更加精準的答案。
但是從成本角度出發,向量數據庫的成本是Fine tuning的1/ 1000。所以大模型廠商都無一例外地推薦開發者使用向量檢索的方式做知識庫管理,以便和模型有一個更好交互,降低落地使用成本的同時,提升在業務中的實際效果。
以下是星爵的現場演講內容,雷峰網(公眾號:雷峰網)作了不改變原意的編輯及整理
星爵:謝謝主持人,特別開心能來到新加坡跟大家交流,今天我分享的主題是關于向量數據庫作為新一代為 AI 時代提供語義存儲的基礎設施有哪些機會和挑戰。
我們都知道過去十多年AI發展的特別快,基本上每隔十年都會來到一個新的階段。如果我們把時間線拉得更長一點,過去十年最大的革命浪潮是什么?是移動計算。
十年前硅谷有一個很常見的現象:一群狂熱的開發者利用周末的時間,甚至24小時內就能做出一個移動應用程序,這也是為什么我們經常說十年前涌現了一波很好的AI開發浪潮,年紀稍長的人可能都知道在上一次移動計算的浪潮開始前,開發一個移動應用程序是相當復雜的,比如當時諾基亞的塞班程序,從編譯器到工具開發起來困難重重。
上一代的移動開發主要以安卓和iOS為代表,它極大地簡化了移動的開發棧,使得數以千萬計的開發人員涌入進來,他們只需選擇一個開發平臺,以類似MongoDB的數據存儲管理,再加上類似Figma、 Sketch的設計工具,就可以用一個周末的時間做出一個移動開發程序,這就是我們過去十年AI發展的結果。
但隨著AI工具棧復雜程度的提高,也相應地帶來了很多問題:
一方面,企業要想做一個AI程序,需要在幾百個項目中挑出幾十個項目,從運維、調優、訓練到最后的部署都需要花費大量的人力、物力、財力。
另一方面,對工業界的AI應用方來說,成本是居高不下的。此外,AI 應用開發程序的復雜程度也極大地限制了開發人員的進入。根據過往十年全球GitHub的數據顯示,全球僅有不到1%的開發者從事AI開發工作,也就是說全球工程師的數量不足100萬,所以我們會發現AI開發工程師通常會輕輕松松地拿到豐厚的報酬、股票期權甚至是更好的跳槽機會,但其實這對整個AI行業的發展是非常不利的。
怎么改變?
今年上半年整個AI行業發生了翻天覆地的變化,可以用“忽如一夜春風來,千樹萬樹梨花開”形容。還是拿今年3月份在硅谷看到的現象舉例:很多AI開發的愛好者常常聚集起來,用一個周末的時間做出一款應用程序。在研發過程中,他們基本會用很簡單的工具棧;接著選一個類似ChatGPT的大模型平臺管理包括文本、圖片、視頻、知識庫等在內的數據;隨后他們會找一個系統做向量數據庫,把數據用語義的方式管理起來,提供一個很好的語義檢索;最后還他們需要Prompt Engineer提出很好的問題,這樣就能保證三個人的小組在周末就輕輕松松地做出一個基于大語言模型的應用開發程序。
我們把這套開發工具棧提煉成“CVP stack”,C代表類似 ChatGPT 這樣的開發平臺,它后面有大模型,有一套完整API生態;V 代表Vector Database 向量數據庫,負責數據的語義檢索和管理;P代表 Prompt Engineer,他們負責把業務邏輯用大語言模型能夠理解的語義方式表達出來。

過去半年,國內出現了一些增長很快的開源的開發框架,本質上都是圍繞CVP stack 所展開的更簡化的開發工具。我們有一個預測:CVP stack能極大地降低開發成本。因為未來不只會有大模型,還會有多語言模型,跨模態模型,跨領域模型,這些模型都會極大地簡化開發程度,包括向量數據庫、Prompt Engineer都能開發出各種各樣的應用程序,這就會驅使大量開發者涌入AI應用程序開發這個賽道。
我相信未來三年一定會有越來越多的人擁抱 AI 開發。其實現在我們也已經看到這個趨勢,比如做一個APP,一個網站或者一個startup,基本是無大模型、無AI不成 startup,大家都在考慮把自己做的應用程序用大模型重做一次,這就意味著未來AI開發會變地越來越民主化。
向量數據庫的應用場景:私域知識庫、應用開發程序、數據處理
我還想著重跟大家分享一下,為什么向量數據庫承擔了大模型數據片外存儲的重任?
如果打開一個神經網絡,我們可以看到里面每個節點傳輸數據的權重,這就是我們說的向量。 所以大語言模型中傳輸數據的基本單元,你就可以認為向量是一個最基本的語義的傳輸單元,不管是圖片、視頻語言還是生物學中蛋白質的三維結構,都可以用向量的方式表征它的語義。
向量其實已經成為了非結構化數據在AI中語義表達的一種最根本的表達形式和基本的數據單元,這就是為什么要把各種各樣的數據向量化后,存在向量數據庫中,等到需要時再在向量數據庫中做語義的檢索和管理。
如果回到大模型目前落地遇到的最主要困境,即數據實時性和私域專有數據的問題,學術界和工業界存在兩種解決方案,一是通過Fine tuning的方式迭代演進,讓大模型學到更多的知識;二是通過Vector search的方法,把最新的私域知識存在向量數據庫中,需要時在向量數據庫中做基于語義的向量檢索,這兩種方法都可以為大模型提供更加精準的答案。
但是從成本角度出發,向量數據庫的成本是Fine tuning的1/ 1000。所以大模型廠商都無一例外地推薦開發者使用向量檢索的方式做知識庫管理,以便和模型有一個更好交互,降低落地使用成本的同時,提升在業務中的實際效果。
所以一個最簡單的總結就是,大語言模型負責計算,向量數據庫負責存儲尤其是語義存儲。在過去半年時間里,向量數據庫也涌現出了一系列的應用場景,我們總結為四類:
用向量數據庫構建各行業各企業的私域知識庫。我們知道每個企業都有很多數據,包括Word 文檔、會議摘要、PDF、產品說明書等,這些其實都可以通過向量化的方式提取語義放到向量數據庫中,當和大語言模型交互時,就可以把相應領域的相關知識,作為一個prompt 傳給大語言模型。
當然我們肯定不想把所有的知識都傳給大模型,因為所有知識庫加起可能有幾百萬、幾千萬甚至上億個token,所以就需要精確定位到和“我”提問的問題上下相關的內容,定位越精準,就意味著可以用越少的token、越經濟的方法得到你想要的結果。
那通過向量數據庫檢索的方式就可以從你的私域知識庫中找到相關的片段,然后把它構建為 prompt的一部分傳遞給大語言模型,從而得到一個更好的結果,這就解決了大語言模型在某些領域“胡說八道”的現象。
同時大語言模型重新訓練一次的更新速度是非常慢的,像GPT其實是基于2021年9月之前的知識構建的,更新訓練模型時通常會涉及到整個模型的全訓練、調優以及收斂等,成本非常高,這時就可以把實時增量的知識通過向量數據庫的方式供給大模型。
第二,用大語言模型+向量數據庫+Prompt Engineer (CVP Stack)的方式,構建基于大語言模型的應用開發程序。其實我們在調用OpenAI時發現,大模型有時候產生出來的問題非常好,那這些問題實質上就可以成為知識庫的一部分。
在這個過程中,我們會思考如果用向量數據庫的方式把這些知識緩存下來,這樣下次再需要獲得同類知識時,就不需要再次調用大模型,我們把這個能力稱為基于語義的新一代緩存。 我們知道上一段的緩存基本上是基于Memory Cache、Redis,本質上是基于關鍵字匹配的一個正定的緩存。
而在大語言模型中,同樣的問題可以有不同的答案且每個答案都是正確的,不同但類似的問題,也可以得到相同的答案甚至類似的答案。也就是說不同的人在問相同的問題時,有不同的問法,這就需要通過向量數據庫提供一個模糊語義的檢索和匹配。基于這樣的需求,今年我們開源了一個GPTCache的項目,僅 4 個多月時間已經在Git Hub上收獲了5000顆Star,全球范圍內擁有100 多家企業級用戶。
第三,用戶在調用大語言模型時肯定希望模型越用越好,且越來越能理解用戶的需求,甚至可以預測接下來會發生什么。所以我們在使用的過程中,大模型會把歷史的交互情況緩存下來,以便為下一次交互提供上下文的參考。上下文越來越多時,相應的管理工作也會變得相當復雜,這時向量數據庫就可以存儲你每次的交互內容、個性定制話題,從而讓大模型越來越了解你。
第四,在訓練大語言模型的過程中,要灌入各種各樣的數據,這時就會涉及數據對齊,數據清洗、數據處理等工作,實際上這些工作已經可以用向量數據庫的方式做預處理了。
向量數據庫的下一個殺手锏級應用:AI Agent
當我們看到向量數據的這些場景時,也會好奇AI的下一個殺手級應用是什么?向量數據庫的下一個殺手锏級的應用在哪里?
其實從今天上午到現在,大家不止一次提到了AI Agent。大概三個月前在Hacker News上就引發了一場非常激烈的討論,這是我當天做的截屏,大概持續了幾個小時,這應該是當天討論最熱的一個Topic。
Auto-GPT基本兩個多月就在GitHub上收獲了十四萬顆star,是有史以來最快達到這個成績的一個項目,斯坦福的這篇論文也指明了無數工程師、大學研究人員下一代研發的方向等。此外,一些領先的企業也已經開始做相關探索。比如現在商業化領域已經出現了類似名人明星的代理,我們可以跟他們聊天互動等。
其實,AI Agent 本質上是AI從Copilot 走向Autopilot 的一個必然階段。比如現在不管是微軟的代碼生成,還是微軟PPT的輔助工具都可能叫做Copilot。但是我覺得下一步如果這些智能代理能具備很強的推理能力、很強的感知能力、很好的記憶力,它就一定能進行自我迭代、自我演化,真正成為一個Autopilot。那在我們向更強大的AI Agent演進的過程中,向量數據庫將承擔一個類似人類的長期記憶的角色。

我們都知道人的大腦有很多分區,人有一項最基本的能力,就是能夠記憶。我們記得我們背的第一首古詩是什么、記得十年前我們跟某個人的對話是什么樣的,記得當時是什么樣的場景得出了什么樣的結論等等。相應地,在AI Agent的演進過程中,向量數據庫就提供了長期記憶,也就是類似人類的海馬體的功能。
總體而言,我認為,新一代AI的篇章剛剛展開,未來一定會出現跨模態、多模態、甚至跨領域的大模型。Zilliz從2018年開始做向量數據庫,我們也希望能和更多的AI科研人員、創業者、工程師們一起探討AI發展以及未來AI的邊界,謝謝。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。