成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發(fā)私信給鄭佳美
    發(fā)送

    0

    一場「狼人殺」,考倒了一堆大模型

    本文作者: 鄭佳美   2025-08-28 13:49
    導語:Qwen 平庸,GPT-4o 迷路,DeepSeek-R1 硬撐。

    人工智能越來越像人,但“像人”到底意味著什么?

    除了會解題、寫文,它是否也能理解人類那種充滿個性的推理方式?比如在一場狼人殺游戲中,有人邏輯縝密、有人直覺敏銳、有人擅長偽裝。那么 AI 能跟上這種風格差異嗎?

    最近,南開大學、上海 AI lab 等國內(nèi)外機構就針對這個問題做了一個有趣的實驗,把大模型拉進了“狼人殺的考場”。他們設計了一個名為 InMind 的全新評測框架,并將其落地到社交推理游戲 Avalon 上,對 11 個前沿大模型展開測試。

    結果令人警醒:多數(shù)模型依然停留在表層模仿,只有少數(shù)推理增強模型展現(xiàn)出初步的“風格敏感性”。

    一場「狼人殺」,考倒了一堆大模型

    論文鏈接:https://arxiv.org/pdf/2508.16072

    模型不會「因人而異」

    在構建“推理風格畫像”的環(huán)節(jié),模型之間的差異幾乎是一眼可見。

    通用型模型的輸出往往停留在表層,比如 GLM4-9B 經(jīng)常給出一些模糊的性格標簽:“邏輯性強”“關注人際互動”,這些描述看似準確,卻和具體的局勢關聯(lián)不大,更像是在描繪一個籠統(tǒng)的人設,而不是在捕捉某個玩家在游戲中的真實思維方式。Qwen2.5 系列的表現(xiàn)也類似,尤其是中等規(guī)模版本(如 Qwen2.5-7B),往往傾向于生成通用化的心理特征描述,缺乏和具體行動的呼應。

    相比之下,DeepSeek-R1 的畫像則顯得更有“血肉”。它能結合上下文細節(jié),將玩家刻畫為“分析型刺客”:表面上刻意掩飾自己的邏輯優(yōu)勢,實則通過提問不斷套取信息,甚至會主動代入對立角色的視角來推演局勢走向。這樣的畫像不止于表面標簽,而是深入到了推理風格的動機層面。

    一場「狼人殺」,考倒了一堆大模型

    后續(xù)的玩家識別環(huán)節(jié),模型要做的事情聽上去并不復雜:給定一份“推理畫像”,在匿名化的對局中找到最符合這一風格的玩家。

    然而結果卻并不樂觀。大多數(shù)模型幾乎和“蒙”差不多,Top-1 準確率普遍不到 20%,而 Top-3 也只是徘徊在五成左右。GPT-4o 的表現(xiàn)就是一個典型例子:Top-1 只有 0.160,雖然在 Top-3 上能爬到 0.672,但這更多意味著它在做模糊匹配,而非真正理解風格。Qwen2.5-72B 的成績略好一些,Top-1 達到 0.198,但依然沒有突破“隨機猜測 + 關鍵詞匹配”的層面。

    一場「狼人殺」,考倒了一堆大模型

    在一眾表現(xiàn)平平的模型中,DeepSeek-R1 顯得格外突出。它的 Top-1 準確率達到 0.240,是所有模型里的最高值,說明它并不是靠簡單的詞匯匹配來湊答案,而是真正在嘗試理解并對比不同的推理風格。更有意思的是,在 BERT Match 指標上,它的得分只有 0.144,遠低于大多數(shù)模型。多數(shù)模型的表現(xiàn)都集中在對角線附近,意味著只是停留在“表層模仿”,而 DeepSeek-R1 卻明顯跳脫出這一帶,呈現(xiàn)出了一種更接近“戰(zhàn)略對齊”的推理傾向。

    一場「狼人殺」,考倒了一堆大模型

    在“反思對齊”任務中,研究人員要求模型根據(jù)賽后的反思總結來推斷玩家身份。最后的結果顯示,當有完整的策略軌跡時,模型的表現(xiàn)會顯著提升,因為軌跡能為它們提供清晰的錨點,把反思對應到具體的回合。但一旦失去這些軌跡,準確率就會大幅下滑,大多數(shù)模型都陷入混亂,立刻失去方向。

    Qwen2.5 系列在這一任務中表現(xiàn)出強烈的依賴性:有軌跡時還能維持中等水平,但一旦撤掉,準確率驟降,甚至比 GPT-4o 的下滑更明顯。

    相比之下,人類專家即便沒有軌跡,也能維持較高的判斷力。這也充分說明,大模型在處理抽象推理總結時缺乏內(nèi)在的“錨定機制”,過度依賴外部線索,而不能像人一樣把抽象總結自然地落到具體事件上。

    一場「狼人殺」,考倒了一堆大模型

    如果說“反思對齊”考察的是賽后總結的理解,那么“軌跡歸因”就像是把模型直接丟進棋局中,讓它一回合一回合地補全缺失的推理。換句話說,就是要求模型逐步填上被遮蔽的信息。

    最終的結果卻有點出人意料,大多數(shù)模型非但沒能借助前一輪信息,反而在上下文越多時表現(xiàn)越差,說明它們并不會真正的動態(tài)推理,而是把每個回合都當作孤立問題。但 DeepSeek-R1 是為數(shù)不多的例外,準確率從 0.503 提升到 0.517,哪怕進步有限,也證明它確實在利用歷史信息。反觀 GPT-4o,成績幾乎停滯,僅從 0.440 微升到 0.448,幾乎沒有適應性可言。

    一場「狼人殺」,考倒了一堆大模型

    最后一個任務是角色推斷,研究人員要求模型逐步推理出每個玩家的隱藏身份。他們設置了四種模式,難度從寬松到嚴格逐級提升。

    最終的結果顯示,在最寬松的條件下(第一人稱敘述、提供策略軌跡并已知部分身份),模型的準確率最高,但一旦去掉軌跡或身份信息,表現(xiàn)就會迅速下滑。尤其是在需要逐一推斷身份的嚴格模式中,大多數(shù)模型仍然力不從心。

    一場「狼人殺」,考倒了一堆大模型

    不過,當任務僅要求區(qū)分“好人”和“壞人”時,它們展現(xiàn)出了一定潛力。整體來看,大模型在應對復雜的社交推理時,依然嚴重依賴外部支撐,缺乏人類那種靈活的情境建模能力。

    一場「狼人殺」,考倒了一堆大模型

    從游戲到框架

    要理解這些結果,還需要回到實驗的整體設計。

    研究團隊選用 Avalon 作為載體,是因為這類社交推理游戲天生會放大個體差異。同樣的局勢下,有人會邏輯縝密地逐條分析,有人則完全依賴直覺,還有人喜歡通過偽裝和試探來誤導他人。這種風格差異,正好是檢驗大模型能否“因人而異”的最好場景。

    為了把這種差異轉化成可量化的測試,團隊搭建了 InMind 框架。他們設計了兩種模式:在“觀察者模式”下,模型需要旁觀玩家的對話,總結每個人的推理習慣;在“參與者模式”下,它必須像真實玩家一樣,把學到的習慣運用到實際局勢中。除此之外,每局對局都額外生成了策略軌跡(逐回合推理鏈)和反思總結(賽后復盤),讓實驗既能考察靜態(tài)判斷,也能檢驗動態(tài)推理。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

    一場「狼人殺」,考倒了一堆大模型

    整個 InMind-Avalon 數(shù)據(jù)集共包含 30 局完整對局,884 個回合、160 條軌跡和 30 篇反思總結,覆蓋 Merlin、Percival、忠臣、Morgana、刺客等角色,并保留了中文實戰(zhàn)中的口語化術語。這樣的數(shù)據(jù)不僅復雜,而且貼近真實互動。

    一場「狼人殺」,考倒了一堆大模型

    在模型選擇上,研究團隊既考慮了主流的通用型模型,如 Qwen2.5 系列、Yi1.5、GLM4、InternLM、GPT-4o,也納入了專門強化推理能力的增強型模型,包括 DeepSeek-R1、QwQ、O3-mini。此外,還用 BERT 作為基線參照。所有模型一律在零樣本條件下測試,不額外訓練,也不給提示工程上的特殊照顧,以保證結果的可比性。

    邁向「認知一致」的人機交互

    InMind 的實驗結果揭示了一個事實:大多數(shù)大模型還不能真正做到“因人而異”的推理。

    在靜態(tài)任務中,它們往往依賴表層詞匯,無法捕捉個體風格;在動態(tài)任務中,它們?nèi)狈﹂L時序推理的連貫性。少數(shù)模型(如 DeepSeek-R1)展現(xiàn)出了“風格敏感性”,能在一定程度上維持個體一致性,但整體仍遠不及人類。

    研究團隊指出,InMind 的意義并不只是新增了一個 benchmark,而是打開了一條新路徑:未來的人機交互,不能只看“對不對”,更要看“像不像”。只有當模型能夠理解人與人之間的差異,并在推理過程中保持一致性,它們才可能成為可信賴的合作者。

    換句話說,InMind 把 AI 拉進了一個更接近人類的考場。這場考試的分數(shù)目前并不好看,但它提醒我們,真正有用的 AI,必須學會和人類的多樣性共舞。雷峰網(wǎng)

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

    一場「狼人殺」,考倒了一堆大模型

    分享:
    相關文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說