成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給朱可軒
    發送

    0

    CNCC 落幕:國產大模型已經進化到能在橫店給我們點咖啡

    本文作者: 朱可軒 2024-10-28 10:29
    導語:多模態 AI 之所以能成為趨勢,是因為其觸達了人類智能的本質。

    今年到 CNCC 現場參會的朋友,想必都對 CNCC 2024 舉辦所在地——超過 6200 畝的橫店圓明新園印象深刻!

    雖然園內建筑身臨其境,并且薅了主辦方一把羊毛,免門票游覽了圓明新園與橫店多個著名旅游景點,但園子實在是太大了。參會人數超過 1 萬 2,園內車輛、美食供不應求,小編表示腿已經走斷。

    也是急中生智,我們想到:是否能用 AI 幫我們在橫店點一杯咖啡?

    結果,智譜真的做到了!

    在今年的 CNCC 上,智譜發布了一個新功能:自主智能體 AutoGLM,智譜將其稱為是一個可模擬用戶點擊屏幕的手機操作助手,以及點擊網頁的瀏覽器助手。

    我們現場實測,整體操作非常絲滑:可以通過一句話下達任務指令,AI根據我的指令,打開了美團,按照我的要求點了咖啡,過程中除了付款環節不需要人的任何參與。

    智譜這次發布的 GLM-4-Voice 情感語音模型「活人感」簡直溢出屏幕,不僅能「呼吸」,撒嬌也信手拈來,時不時有種「 AI 林志玲」的哎呀調調,話語間自帶波浪號「哎~呀~」……

    并且,我們真的成功在 CNCC 會場喝上了AI點的咖啡!

    目前 Web 能力已經通過「智譜清言」插件對外公開使用,不過手機端僅開放了安卓用戶體驗:https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh

    從文本到文生圖、文生視頻,再到語音,事實上智譜本次的新技術成果發布反映了在通往 AGI 追夢之路上的重新思考。

    在 CNCC 大會第二天上午的主題圓桌論壇中,香港大學馬毅教授提到,人類智能在大自然的進化過程中有兩個「原生大模型」,一個是 DNA,另一個是語言;而之所以稱這兩個特征為大模型,是因為其本質上都具備自我學習的能力。 

    盡管今年的大模型已經發展到了一個新高度(如 o1 的復雜推理),但現在大模型知識豐富、智能不足的短板仍是行業共識。如圓桌論壇中唐杰所言,我們距離 AGI 的實現還很遙遠,這中間的研究趨勢至少包含三步:多模態、推理與自我學習。

    在 AI 能夠自我推理、自我學習之前,多模態是必須跨過的一步,因為人類的智能學習規律就是文本、圖像、語音乃至觸覺、嗅覺等更多五官共同學習、相輔相成。

    CNCC 落幕:國產大模型已經進化到能在橫店給我們點咖啡 

    (智譜發了一個AGI進程圖)

    而 AutoGLM,其實是智譜在工具能力上的新研究,也是智譜所思考的 AGI 實現路徑之一。

     

    「活人感」滿滿的 AI 助手

    在進一步分析理解智譜的 AGI 技術路徑之前,我們先來看一下智譜在語音模態上所取得的最新突破——

    當前,智譜清言情感語音助手在響應和打斷速度、情緒感知、情感共鳴、語音可控表達、多語言多方言等方面均實現了突破。

    AI 科技評論對于這一系列功能革新進行了一番實測:

    首先,我們給小智進行了一個比較常規的英語陪練測試,在糾正發音方面她確實表現良好,甚至日語練習的切換也相當絲滑。

    隨之,聽說「小智」還精通北京腔、臺灣腔、東北腔和粵語,作為廣東人,可不能放過這個為難她的機會,于是,我們測試了「各個國家有各個國家的國歌」這段入門級粵語繞口令。 

    實測發現,小智的粵語發音其實不算非常地道,甚至有一股泰國味。不過,在這之中,值得表揚得是,她能在領悟到我們的訴求是需要粵語回答時,自動將「旁白」部分也切換為粵語。 

    之后,她又加贈了一段「吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮」的粵語繞口令展示,還想讓我們也試試看。

    而面對我們刻意為難提出的「加快語速」要求,小智也一寵到底,隨著倍速居然能明顯體會到她的情緒愈發激動,甚至伴隨有呼吸聲。

    整體上看來,可謂是「活人感」十足。

    同時,本屆 CNCC 落地橫店也給了小智些許施展拳腳的機會,我們帶著小智一同游覽了知名景點「秦王宮」,并讓她化身李白澎湃激昂作詩一首。

    小智寫的詩是這樣的:

    「秦王宮中念群臣,壯志凌云繪風云。金戈鐵馬盡奔騰,萬古英雄氣不容。」

    還挺有鼻子有眼的。

    之后我們也嘗試上了難度,想要前述古詩的東北腔讀法,不過,小智貌似沒有完全理會,她「哎呀媽呀」一聲張口就來,隨性發揮了一篇東北腔版秦王宮夸夸小作文。

    小智還時常戲癮大作,我們也讓她即興給我們講了一段鬼故事,并模仿了故事中的女鬼笑聲:

    讀到這里,小智所呈現的形象可能帶有一絲幽默,甚至有些調皮。但值得關注的是,她其實也能給出非常多建設性的建議,并且在安慰人這方面也很走心。

    我們扮演了一個疲憊打工人的角色和她半夜訴苦,小智也給足了情緒價值,甚至能代入閨蜜視角給到積極正向的安慰。

    實際上,在對話開頭,我們還告訴小智,在下班路上因為看到了彩虹而感到開心。

    她不僅共情,還把這個內容默默記下了,下輪對話開啟時,其第一句招呼語便是「希望彩虹帶來的好心情能持續陪伴你,工作再忙也要記得照顧自己的情緒喲!」

    這種每次開啟新一輪對話時 Call Back 的細節處理,確實讓人眼前一亮。

    不過,我們也找到了 AI 無法替代人類智慧的證明,我們嘗試和小智玩海龜湯游戲,湯面是「媽媽買回來一個大西瓜,我吃了,第二天我死了。」 

    小智推理出的答案是,西瓜可能有致命的細菌或者農藥殘留,不能否認其中有一定道理,但之后她似乎開始逐漸忘記海龜湯的游戲規則,居然反問我們還有什么具體細節,這個測試到此戛然而止。

     

    「人情味」背后的技術支撐

    據智譜在 CNCC 現場的發布介紹,AutoGLM 是基于智譜 GLM 大模型家族的新成員——GLM-4-Voice 情感語音模型。

    熟悉智譜的朋友知道,今年初智譜推出第四代基座大模型 GLM-4 后,在 8 月的 KDD 2024 上又快速迭代升級了基座大模型 GLM-4-Plus,至此,大模型開始有了「眼睛」和「嘴巴」。

    在語音上,8 月的智譜清言就已經可以實時視頻通話。但 CNCC 發布的新成果 GLM-4-Voice 無論在底層技術還是語音輸出效果上都更上一層樓。

    作為端到端的語音模型,GLM-4-Voice 避免了傳統的 「語音轉文字再轉語音」 級聯方案過程中帶來的信息損失和誤差積累,擁有理論上更高的建模上限。

    與傳統的 ASR + LLM + TTS 的級聯方案相比,端到端模型以音頻 token 的形式直接建模語音,在一個模型里面同時完成語音的理解和生成。

    具體來看,智譜基于語音識別(ASR)模型以有監督方式訓練了音頻 Tokenizer,能夠在 12.5Hz(12.5 個音頻 token)單碼表的超低碼率下準確保留語義信息,并包含語速,情感等副語言信息。

    語音合成方面,則采用了 Flow Matching 模型流式從音頻 token 合成音頻,最低只需要 10 個 token 合成語音,最大限度降低對話延遲。 

    CNCC 落幕:國產大模型已經進化到能在橫店給我們點咖啡 

    而在預訓練方面,為了攻克模型在語音模態下的智商和合成表現力兩個難關,智譜將 Speech2Speech 任務解耦合為 Speech2Text(根據用戶音頻做出文本回復) 和 Text2Speech(根據文本回復和用戶語音合成回復語音)兩個任務,并設計兩種預訓練目標適配這兩種任務形式:

    CNCC 落幕:國產大模型已經進化到能在橫店給我們點咖啡 

    圖|GLM-4-Voice 預訓練數據構造 

    能實現富有情感的對話背后,也離不開  GLM-4-9B 在深入對話理解上的支持。

    智譜 GLM-4-9B  模型的上下文從  128K  擴展到了 1M tokens,使得模型能同時處理 200 萬字的輸入,大概相當于  2  本紅樓夢或者  125  篇論文的長度。

    此次新發布的 GLM-4-Voice 則在 GLM-4-9B 的基座模型基礎之上,經過了數百萬小時音頻和數千億 token 的音頻文本交錯數據預訓練,擁有了很強的音頻理解和建模能力。


    智譜對 AGI 的探索與思考

    在大模型還沒火起來之前,智譜團隊就嘗試過將其能掌握的所有中英文語料、圖像、視頻、語音等數據一起輸入,參數規模甚至過萬,但卻發現:相較團隊早期訓練過的文本模型 GLM-10B 來說,萬億參數規模的多模態大模型反而在文本能力上有所下降。 

    從人類智能的角度來看,五官是我們認識視覺最直接的介質,并且視覺、聽覺與語言能力之間往往能相互增強。但在對 AI 多模態模型的探索中,結果卻是相反:文本模態的智能水平并沒有因為圖像模態而增強,反而削弱。這個「非共識」的發現也影響了行業對 AGI 路徑的思考。 

    多模態是實現 AGI 的必經之路是業界共識。但是,多模態的研究要怎么展開?這其實是一個尚未形成共識的開放性問題,也是未來國產大模型需要繼續思考的問題。

    盡管 OpenAI 發布的 GPT-4V 與 GPT-4o、谷歌發布的 Gemini 讓業內人員認為,多模態的發展應該朝著像海外 OpenAI 與 谷歌的技術路線去發展。但科學的懷疑、驗證精神在多模態研究中仍不可或缺。

    比如,目前文生圖、文生視頻或圖生視頻等多模態的研究,就沒有與主流的基礎文本推理大模型結合起來,不同模態之間的 Gap 還很遠。如何將不同模態結合起來,也是一個亟待解決的問題。

    根據 AI 科技評論對智譜過去三年的觀察,智譜的 AGI 路徑事實上是:先聚焦文本大模型的能力提升,但在 GLM-3、GLM-4 等基座大模型發布后,智譜很快就將圖像、視覺、語音等提升了日程,并同時不忘迭代代碼模型、視頻生成模型等。

    智譜不僅聚焦單一模態的單點能力提升(如 ChatGLM3),也注重雙模態、多模態的結合——但無論從哪個角度來看,智譜版的「Her」都具備了比現有國產大模型公司更全面的模態能力。

    根據智譜 CEO 張鵬的介紹,在智譜看來,人工智能的分級從大語言-多模態-使用工具-自學習,也可以分為 L1 到 L5 這五個等級。除了 L1 到 L3 這三塊為大家共識的分級外,L4、L5 就體現了前文所說的「AI 自我學習」能力: CNCC 落幕:國產大模型已經進化到能在橫店給我們點咖啡

    從這個維度來看,智譜本次在 CNCC 發布的手機助手能幫我們現場點咖啡,已經是達到 L3 的工具使用階段。

    而且 CNCC 現場獨家據悉,智譜在本月底將推出生成視頻模型 CogVideoX 的升級版本 CogVideoX-Plus,張鵬透露的升級亮點是:60幀幀率、4K畫質、10s時長、任意比例圖生視頻、運動穩定性大幅提升。 CNCC 落幕:國產大模型已經進化到能在橫店給我們點咖啡

    智譜內部認為,目前我們距離 AGI 的道路只走了 42%。

    他們根據大腦的能力,將 AGI 的技術維度分為了視覺、聽覺、語言等多模態感知與理解能力;此外,還有 AI 模型的長短期記憶能力、深度思考與推理能力、情感與想象力等。

    此外,作為人的身體指揮器官,大腦還能調動身體的各個部分協同運轉,使用各種工具——而這個方向,就是目前具身智能、具身大腦所探討追求的方向。

    如果將大腦的能力區域劃分為 AGI 的技術路線圖,如下圖所示,事實上目前的 AGI 科技樹還有絕大部分沒有被點亮。也就是說,在 42% 以外,智譜與當前包括 OpenAI 在內的其他大模型公司還有很長的路要走。

    CNCC 落幕:國產大模型已經進化到能在橫店給我們點咖啡 

    同時,當 AGI 參考人類大腦的能力畫出如上技術路線分布圖后,智譜的 AGI 研究也超越了追趕 OpenAI 的階段。這也是一份技術指南,能夠告訴大家:除了 GPT-o1 的推理能力,智譜還會發力其他的方向,如自我學習,模型指揮「肢體」執行工作任務等。

    GPT-o1 體現的思維鏈從 2022 年開始,經歷過從一兩步推理到一致性推理、再到復雜多步推理的提升。從研究趨勢上來看,多模態與推理都是實現 AGI 的必經之路,但無論是智譜 GLM 多模態家族、還是 GPT-o1,都體現出綜合系統單點突破、循序漸進的第一研究原理。 

    在追趕 AGI 的路上,我們應該樂觀,但也要清楚認知目前所處的位置,不斷追趕。雷峰網(公眾號:雷峰網)雷峰網

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    CNCC 落幕:國產大模型已經進化到能在橫店給我們點咖啡

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說