0

作者丨何思思
編輯丨林覺民
2021年北京中關村多了一家科技公司——潞晨科技。
作為一家創業公司,潞晨科技這個名字可能還不被大家所熟知,但是其創始人尤洋卻憑借“ACM SIGHPC杰出博士論文獎、NUS校長青年教授、亞洲福布斯30歲以下精英榜”等多個頭銜,被業界熟知。
談到最近火出圈的大模型,其實尤洋早在2018年就參與了谷歌BERT的訓練,并把訓練時間從3天降到了76分鐘。據尤洋介紹,至今仍有企業在使用當時訓練BERT時設計的方法。
而潞晨科技的創立要從2020年說起,彼時的尤洋剛剛從美國加利福尼亞大學伯克利分校畢業并獲得博士學位,這一年 OpenAI 發布了當時全球規模最大的預訓練語言模型 GPT-3,正是在這時尤洋有了做大模型的想法。
尤洋告訴雷峰網: GPT-3出來時并沒有出圈,但當時我就預判到大模型一定是未來的一大發展趨勢,因為疫情影響,所以一直在等一個機會。
直到2021年這個想法才真正落地了,同年7月尤洋只身一人創辦了潞晨科技,同時這件事情也受到了資本的青睞,成立近一年半的時間潞晨科技已經完成了3輪融資。其中包括了創新工場、真格基金兩家VC機構的超千萬元投資。
值得注意的是,創立之初潞晨科技就選擇了一條和其他廠商不同的路線,即不做通用大模型,圍繞降本增效做文章,本質上是為了降低大模型的訓練成本,提高大模型的訓練速度。
緣何這么做?
尤洋曾公開表示過,過去六年大模型參數量每18個月增長了40倍,過去三年每18月增長了340倍,而硬件的增長速度大概每18個月增長1.7倍,完全跟不上節奏。訓練成本高、周期長,是當前大模型企業最需要克服的難題。
同時,他還表示,我的本職專長是研究高性能計算,用很樸實的話說,就是想辦法讓大模型訓練的越快,越省錢。
可以說,尤洋選擇的路線是驗證其研究成果最有效的途徑。
雷峰網了解到,目前潞晨科技的研發主要分為三部分:一是做大模型訓練系統——Colossal-AI;二是訓練100億到200億參數的行業模型;三是做PaaS(Platform as a Service)平臺。其中Colossal-AI系統已經有世界500強,2000強的客戶在使用。
“現階段的重點是Colossal-AI系統的開發,未來不管是GPT、PaLM還是任何一家大模型都可以用Colossal-AI訓練,因為我們的系統就是幫他們省錢省時間的”尤洋補充道。
談到具體能降多少成本?尤洋這樣說:“假如用最基本的方案訓練GPT 大概要1000 萬美金,假如用業界最好的方案,能把成本降到300萬美金,我們的方案則可以降到140萬美金,也就是在最便宜的方案上再降一半,當然這些是絕對優化,如果加上收斂性優化可能降的會更多,但也會影響模型。”
成本只是一方面,與其他廠商不同的是,潞晨更注重“開源”二字,因為在尤洋看來,AI發展到現在正是因為它足夠開放,未來AI競爭的焦點是生態,即有多少人在用你的軟件,有多少人在給你反饋,只有反饋多了你才能不斷迭代優化,才能吸引更多用戶。
“一個好的AI生態,應該有三四千個用戶或者三四千家企業去使用去貢獻,這樣整個生態的力量勢必會比大廠的實力要強?!?br/>
以下是雷峰網和尤洋的對話:
大學教授創辦AI公司,技術契合,想讓企業低成本獲得大模型
雷峰網:作為一名大學老師,為什么想要創業?
尤洋:主要是技術比較契合,GPT是2020年出來的,當時GPT1、2的影響力還不是很大,后來GPT3也沒有出圈。但GPT3出來的時候我已經在思考這件事情了,當時我就有一種預判,大模型肯定是未來的一大趨勢,但大模型在各行業落地的難點就是計算成本。
我本職的技術專長是研究高性能計算,用很樸實的話說,就是想辦法讓大模型訓練的越快,越省錢。比如之前我們和谷歌合作,訓練出了當時最好的模型BERT,訓練時間從3天降到了76分鐘,也產生了一些價值,現在也有很多人在用我們當時設計的方法。
其實2020年剛畢業時就在思考這件事,2021年年初我就覺得需要創業了,但趕上了疫情,其實一直在找機會。
雷峰網:最初受誰影響做這件事的?
尤洋:2021年之前就有一些VC找過我,像李開復老師2021年四五月份就聯系到了我,7月份我來北京和他們見了一面,過了不到一周他們就給我發了投資意向書。
雷峰網:所以是李開復讓你下定決心做這件事的?
尤洋:我覺得讓我下定決心的是我們對技術的判斷,其實在李開復老師之前,一些個人天使也有投資意向。
雷峰網(公眾號:雷峰網):18個月完成三輪融資,是誰先投的?
尤洋:創新工場最先給的投資意向書,真格基金知道創新工場給了,也迅速跟進了,所以我們2021年8月份就完成了融資,對外PR后藍馳聯系到了我們,9月份和他們老板見了一面,十一之前就給我發了投資意向書。只不過十一假期之后到元旦前我們一直在做公司的VIE結構,浪費了很多時間。
雷峰網:資金有了具體怎么搭建團隊的?2020年就開始了?
尤洋:對,其實我們公司成立時只有我自己一個人,正好當時新加坡國立大學的一批學生畢業了,就把他們邀請過來了,然后又從社會上招募了幾個人。
雷峰網:潞晨的融資一直很順利,您認為資方看中的是什么?
尤洋:和我之前訓練BERT的經歷有關,我的那項技術創新工場內部的AI 工程院現在也在用,我覺得這是投我的一個原因,再加上我是美國博士,其實在業界還是有一定知名度的。
創新工場投我們的時候,我們什么也沒有,他們看的就是我個人的一些積累和之前做過的一些有用的東西,藍馳投我們的時候,我們剛想好要做開源社區,他們可能對開源社區也比較看好,最近一輪紅杉資本投我們是已經初見一些效果了,并且他們也比較相信開源。
三條線齊頭并進,被動獲客高于主動獲客
雷峰網:潞晨給自己設定的大模型路線是什么樣的?
尤洋:主要分為三部分:一是做訓練大模型的系統—Colossal-AI;理論上不管GPT、LLaMA還是其他大模型都可以用Colossal-AI訓練,因為我們的系統就是幫他們省錢省時間的;二是訓練大模型,做100億到200億參數的面向行業的垂直模型;三是做PaaS平臺,把需要訓練大模型的人集成到我們的平臺上去,這樣三個飛輪就能形成一個正向的循環。
雷峰網:現在做到哪一步了?
尤洋:三個團隊在同時做,主要精力還在Colossal-AI上面,當然第二部分也在做,主要幫助企業做大模型的私有化部署,第三部分未來的商業化可能會多一些。
雷峰網:具體怎么給客戶提供服務?
尤洋:要么買我們的企業版軟件,要么用Colossal-AI訓練自己的大模型,然后我們給他的機器做優化。
雷峰網:Colossal-AI的效果如何了?
尤洋:其實我們自己測試了,肯定是能降低成本的,并且現在已經有很多人在用了。
雷峰網:所以說現在Colossal-AI已經做得很成熟了?
尤洋:沒有絕對好的事情,我們的產品3到6個月會升級一次,要想變得更穩定的話,還是需要一定時間去迭代的。
雷峰網:具體點比如王小川或者其他家用Colossal-AI訓練的話,成本大概能降低到多少?
尤洋:我們做過計算,假如用最基本的方案,比如Python、DDP等沒有經過優化方法訓練GPT 大概要1000 萬美金。比如用業界最好的方案,能降到300萬美金,效果也不會打折扣,因為是矩陣張量優化,不是收斂性優化,收斂性優化會影響模型精度。那我們的方案可以降到140萬美金,就是在最便宜的方案上再降一半,當然這些都是絕對優化,如果加上收斂性優化可能降的會更多,但也會影響模型。
雷峰網:效果已經這么好了,那豈不是其他企業想做都做不下去了?
尤洋:我不這么認為,我覺得AI行業沒有知識產權,也沒有IP,包括GPT也是在谷歌Transformer的架構上做的,如果技術長期閉源的話,其實是不可持續的。
我堅信AI能發展到今天就是因為它的開放性,沒有任何人能夠認為自己的生成式AI就是獨特的且有很高壁壘的,我覺得未來競爭的是生態,就是說有多少人在用你的軟件,有多少人在給你反饋,因為只有給你提供的反饋多了,你才能不斷迭代優化它,這樣才能吸引更多用戶。
我覺得一個好的AI生態,應該有三四千個用戶或者三四千家企業去使用去貢獻,這樣整個生態的力量肯定比大廠的實力要強。
雷峰網:目前商業化做得怎么樣?
尤洋:比較順利,雖然PaaS還沒有很成熟,但第一部分已經在掙錢了,現在我們已經有很多世界500強、2000強的客戶了,包括國內這幾家創業公司都是我們的潛在客戶,像阿里通義千問、百度文心一言、MiniMax可能都用過Colossal-AI了。
雷峰網:PaaS層產品什么時候能發布出來?
尤洋:8月1號之前會發布出來。
雷峰網:了解到潞晨現在的客戶國外偏多國內偏少?
尤洋:兩方面原因:第一我們公司成立的時間比較短,成立的前一個月主要在搭建團隊,需要一定的時間過渡,第二其實我們也有很多國內客戶,比如某些AI企業已經成立專門的團隊在研究Colossal-AI了,當然我們現在也有很多目標客戶,像傳統的車廠、藥廠、石油公司、金融機構等。
雷峰網:為什么把傳統行業作為目標客戶?
尤洋:因為傳統企業是有長期付費意愿的,普惠AI時代是傳統行業內部的一次AI升級,最終AI有多普及還是要看傳統行業,現在有好幾家汽車企業在自己訓練,因為他們覺得這是一項核心技術,也沒有絕對壁壘。包括一些頭部證券公司對原創技術也是非??释?。
雷峰網:未來重點放在國外還是國內?
尤洋:其實無所謂,畢竟我們是一家小公司,沒必要把自己限制的太死。再就是我們做的是開源社區,是一個被動獲客的過程,不太需要主動BD,所以現在美國、中東、新加坡以及東南亞的客戶都有。
雷峰網:如果主動獲客的話,會選擇哪些區域?
尤洋:主動獲客的話,我覺得優先級:中國市場第一,東南亞市場第二,中東市場第三。被動獲客的話肯定就沒有任何限制了。
AI沒有知識版權,只有開源才能走的更遠
雷峰網:為什么覺得開源生態很重要?
尤洋:我覺得有兩方面原因:一方面,把開源社區做好確實能創造更大的價值。我們做的是風險投資,但是當很多人都在用時,就能產生了一定的社會價值,我們的錢也算沒打水漂。從投資人的角度來說,他們也能認可,因為投資人的錢也是從社會上募資而來的。
另一方面,畢竟創業做公司肯定想變現上市,我覺得本質上To B、AI最核心的競爭力是要和用戶建立一個強的信任綁定關系,所以我覺得開源很重要。
雷峰網:所以在創立潞晨前就想好要做開源了?
尤洋:成立公司一個月內決定要做開源這件事兒。
雷峰網:現在整個生態是什么樣的狀態?
尤洋:這個生態中目前主要有三類企業:第一類是深度用戶,他們可以貢獻一些代碼,幫我們去優化軟件;第二類是用了我們的軟件覺得很好的企業,在這個過程中會形成依賴關系;第三類是給我們反饋問題的企業。這三類企業中大小公司都有。
雷峰網:有多少人專門負責開源生態的運營工作?
尤洋:我們安排了兩三個人在引導,其實做生態的意義就是讓別人用,幫別人解決問題,然后別人發現問題了,我們再不斷完善,當然我們自己也會設定一些重要的發展方向。
雷峰網:所以做開源生態不需要鋪太多的人?
尤洋:對,我覺得人數應該不會超過20人,不管這個開源社區有2萬人用還是100 人用。因為我覺得他需要一部分人去維護一個核心的內核,把內核維護好了,其他邊邊角角的,其實只要這個東西有很多人用,是有人會自發做貢獻的。
雷峰網:和英偉達的合作其實也是為了生態?
尤洋:對,目前我們在英偉達的生態里,在他們的生態里其實我們有望拿到一些低價的算力,英偉達也給我們開源社區貢獻了一些新功能,也都會優先適配Colossal-AI。
國內大模型都有機會,誰率先跑出來,需年底見分曉
雷峰網:國內大模型會呈現怎樣的發展局面?
尤洋:主要分為兩個方向。國外內市場最多有兩三家能走出來,大概今年年底能看出來。
最終國內通用大模型市場最多能容下兩三個,大廠肯定會占據一半,剩下的一個名額可能是創業公司。這就迫使其他創業公司必須轉型做行業模型,行業模型其實沒有通用大模型值錢,所以大部分創業公司的最終估值會下降很多。
雷峰網:您看好哪家的大模型?
尤洋:最領先的要么是大廠,要么是 MiniMax 和智譜。這幾家肯定已經訓練出了大模型,其他幾家有的只是一個雛形,還在微調階段甚至還沒到訓練階段。其實到火山云上看一下卡的使用量也可以看出來,MiniMax 和智譜已經使用了 1000 張 GPU 卡了,其他幾家都是 200 張。
平心而論,我覺得百度可能還真是最領先的。
雷峰網:那創業公司呢?
尤洋:我覺得是智譜。
有幾個原因,第一,中國和美國的國情不一樣,中國AI項目的論文一般都出自大學,而美國是Google、Facebook、OpenAI等,也就是說中國的技術源泉源自大學,最優秀的 AI人才也在大學;第二,我覺得大模型一旦做大,面臨的是政治問題,美元基金最終會受限,所以像智譜這種純人民幣的反而有優勢;第三,唐杰老師有豐富的學術、技術經驗的積累,另外唐杰老師的清華背景對大模型的發展會有很大幫助。
雷峰網:那您覺得國內大模型的決勝點是什么?
尤洋:數據、算力、算法。算力和數據應該是最重要的,如何把算力合理地用起來,也非常重要。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。