成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發私信給我在思考中
    發送

    0

    AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄

    本文作者: 我在思考中 2021-08-12 15:03
    導語:國際權威機器視覺問答榜單 VQA Leaderboard出現關鍵突破:阿里巴巴達摩院以81.26%的準確率創造了新紀錄,讓AI在“讀圖會意”上首次超越人類基準。

    AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄

    AI 科技評論報道

    編輯 | 陳大鑫

    給大家出一道視覺問答題:在下面這張圖片中,根據有禮服裝飾的小熊玩具照片推理出這些玩具用來做什么的?

    AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄

    一個可能的答案或許是“婚禮”~
    這道題對人類而言太簡單不過了,那么對 AI 來說呢?
    AI 在這視覺問答方面能和人類相比嗎?
    答案來了——歷時6年,在機器視覺問答領域,第一位得分超越人類的AI選手誕生了!

    8月12日,AI 科技評論注意到,國際權威機器視覺問答榜單 VQA Leaderboard出現關鍵突破:阿里巴巴達摩院以81.26%的準確率創造了新紀錄,讓AI在“讀圖會意”上首次超越人類基準。繼2015年、2018年AI分別在視覺識別及文本理解領域超越人類分數后,人工智能在多模態技術領域也迎來一大進展。

    AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄

    圖注:達摩院AliceMind在VQA Leaderboard上創造首次超越人類的紀錄

    比較難得的是,3年前,讓中國AI在文本理解領域歷史性超越人類的,同樣是達摩院AI研究團隊。


    1

    VQA是什么?

    近10年來,AI技術保持高速發展,AI模型已在多個任務和技能上達到超越人類的水平,比如在游戲領域,強化學習智能體 AlphaGo 2016 年擊敗了世界頂尖棋手李世石;在視覺理解領域,以 CNN 為代表的卷積類模型 2015 年在 ImageNet視覺分類任務上超越了人類成績;在文本理解領域,2018年微軟與阿里幾乎同時在斯坦福SQuAD挑戰賽上讓 AI 閱讀理解超越了人類基準。

    然而,在視覺問答VQA(Visual Question Answering)這一涉及視覺-文本多模態理解的高階認知任務上,AI 過去始終未取得超越人類水平的突破。

    “詩是無形畫,畫是有形詩。”宋代詩人張舜民曾如此描繪語言與視覺的相通之處。隨著深度學習、視覺理解、文本理解等領域高速發展,自然語言技術與計算機視覺交融逐漸成為多模態領域重要的前沿研究方向。其中,VQA是多模態領域挑戰極高的核心任務,解決VQA挑戰,對研發通用人工智能具有重要意義。

    為鼓勵攻克這一難題,全球計算機視覺頂會CVPR從2015年起連續6年舉辦VQA挑戰賽,吸引了包括微軟、Facebook、斯坦福大學、阿里巴巴、百度等眾多頂尖機構參與,形成了國際上規模最大、認可度最高的VQA數據集,其包含超20萬張真實照片、110萬道考題。

    VQA 是AI領域難度最高的挑戰之一。在測試中,AI需根據給定圖片及自然語言問題生成正確的自然語言回答。這意味著單個AI模型需融合復雜的計算機視覺及自然語言技術:首先對所有圖像信息進行掃描,再結合對文本問題的理解,利用多模態技術學習圖文的關聯性、精準定位相關圖像信息,最后根據常識及推理回答問題。

    AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄

    今年6月,阿里達摩院在 VQA 2021 Challenge 的55支提交隊伍中奪冠,成績領先第二名約1個百分點、去年冠軍3.4個百分點。兩個月后,達摩院再次以81.26%的準確率創造VQA Leaderboard全球紀錄,首次超越人類基準線80.83%。

    這一結果意味著,AI 在封閉數據集內的 VQA 表現已媲美人類。

    面對更開放的現實世界,AI一定會遇到新的挑戰,需要喂更多的數據、進一步提升模型。但和 CV 等領域的發展一樣,這一結果依然具有標志性意義,相信VQA技術在現實中的表現提升只是時間問題。

    AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄

    圖注:VQA技術自2015年的進展

    2

    VQA分數超人類如何誕生?

    VQA挑戰的核心難點在于,需在單模態精準理解的基礎上,整合多模態的信息進行聯合推理認知,最終實現跨模態理解,即在統一模型里做不同模態的語義映射和對齊。

    據了解,為了解決VQA挑戰,達摩院語言技術實驗室及視覺實驗室對AI視覺-文本推理體系進行了系統性的設計,融合了大量算法創新,包括:

    1. 多樣性的視覺特征表示,從各方面刻畫圖片的局部和全局語義信息,同時使用Region,Grid,Patch等視覺特征表示,以更精準地進行單模態理解;
    2. 基于海量圖文數據和多粒度視覺特征的多模態預訓練,用于更好地進行多模態信息融合和語義映射,創新性地提出了SemVLP,Grid-VLP,E2E-VLP和Fusion-VLP等預訓練模型;
    3. 研發自適應的跨模態語義融合和對齊技術,創新性地在多模態預訓練模型中加入Learning to Attend機制來進行跨模態信息地高效深度融合;

        4.采用Mixture of Experts (MOE)技術進行知識驅動的多技能AI集成。

    其中自研的多模態預訓練模型E2E-VLP,StructuralLM已被國際頂級會議ACL2021接受。

    模型大圖如下:

    AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄

    這不是達摩院第一次在 AI 關鍵領域超越人類。
    早在2018年,作為業界最早投入預訓練語言模型研究的機構之一,達摩院前身IDST曾在斯坦福SQuAD挑戰賽中歷史性地讓機器閱讀理解首次超越人類,轟動全球。
    AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄

    3

    VQA 考高分有什么用?

    達摩院語言技術實驗室負責人司羅曾表示,“人工智能分為計算智能、感知智能、認知智能、創造智能四個層次。”
    本次,AI 在視覺-文本跨模態理解及推理上媲美人類的水平,意味著 AI 向認知智能邁進了關鍵一步。
    據了解,VQA 技術擁有廣闊的應用場景,可用于圖文閱讀、跨模態搜索、盲人視覺問答、醫療問診、智能駕駛、虛擬主播等領域,或將變革人機交互方式。目前,VQA 技術已在阿里內部應用于商品圖文理解、智能客服等場景。
    在阿里平臺上,達摩院VQA能力已實現較大范圍工業應用落地,典型VQA應用包括:1、商品圖文信息理解;2、直播視頻交互;3、多模態搜索。


    4

    VQA考卷有多難?

    對單一AI模型來說,VQA 考卷難度堪稱“變態”。
    要拿到漂亮的分數,AI不僅要修煉好圖像識別、文本識別、文本理解等基本功,還要解鎖計數、讀鐘表、推理認知等附加技能,此外還必須擁有百科全書的豐富常識。
    比如,在下面這道VQA考題中,根據男人帽子上的字母“B”+問題“男人的橄欖球帽代表哪只球隊?”
    AI 要推理出答案“波士頓球隊”。

    AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄

    根據士兵玩具和戰斗場景+問題“圖中玩具人的IP出自哪部電影??”AI要推理出答案“星球大戰”。

    AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄

    6年前,這些問題對AI來說難度極高。經過多年的技術積累,達摩院AliceMind在VQA測試中拿到了超81分的成績,基本達到普通人看圖問答的水準。
    相信AI未來將給人類帶來更多驚喜。
    AI科技評論這里展示一些部分 AliceMind 回答正確的VQA挑戰示例:
    百科知識:
    AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄
    人文地理:
    AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄
    生活技能:計數、讀鐘表、識顏色、識路牌

    AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄

    體育娛樂:
    AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄
    視覺推理:
    AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄
    AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄

    好家伙,AI 真是變的越來越厲害了,人類危險了(嗎)......

    論文鏈接:

    1. E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning, ACL2021

    2. A Structural Pre-trained Model for Table and Form Understanding, ACL 2021 

    3. SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels 

    VQA示例鏈接:
    https://nlp.aliyun.com/portal#/multi_modal
    達摩院AliceMind開源鏈接:
    https://github.com/alibaba/AliceMind

    雷鋒網雷鋒網雷鋒網

    雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知

    AI“讀圖會意”首超人類!阿里達摩院刷新全球機器視覺問題紀錄

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說