成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發私信給我在思考中
    發送

    0

    提詞優化器“琥珀”帶你用好CLIP!視覺-語言表征學習新進展

    本文作者: 我在思考中 2021-09-14 10:33
    導語:琥珀的主要思想是對提詞器中的上下文(context)用連續向量進行建模,而整個訓練過程將僅僅端到端優化這幾個上下文詞向量,而保持預訓練參數不變。

    提詞優化器“琥珀”帶你用好CLIP!視覺-語言表征學習新進展

    AI科技評論報道

    是否還在為設計CLIP模型的提詞器(prompt)而煩惱??到底是“a photo of a [class]”還是“a [class] photo”??對于特定任務(例如食物分類或是衛星圖像識別),如何添加符合語境的上下文(context)??用了本文提出的提詞優化器CoOp(中文名:琥珀),這些問題通通不需要煩惱?。
    提詞優化器“琥珀”帶你用好CLIP!視覺-語言表征學習新進展
    文章鏈接:https://arxiv.org/abs/2109.01134

    代碼鏈接:https://github.com/KaiyangZhou/CoOp

    結合視覺和語言的預訓練方法(Vision-Language Pretraining)最近成為了視覺表征學習的一種有前景的方向。區別于使用圖像和離散標簽進行學習的傳統分類器,以CLIP為代表的視覺語言預訓練模型利用了兩個獨立的編碼器來對齊圖像和原始文本在這種范式下,監督來源變得更加靈活多樣且容易獲取(如圖片評論或網絡配圖文案都可以做圖片監督)。更重要的是,模型變得十分容易零樣本(zero-shot)遷移到下游任務。這是因為下游任務的類別不必一定屬于訓練中離散標簽的一種。只要提供下游任務的標簽信息,通過適當提詞器(prompt)生成的文本向量可以直接代替固定的離散標簽。下圖展示了CLIP模型結構。

    提詞優化器“琥珀”帶你用好CLIP!視覺-語言表征學習新進展

    我們發現了在實踐中部署此類模型的主要挑戰是對提詞器的設計,這是因為設計合適的提詞器需要專業領域的知識,尤其是針對專業類別名要設計專門的語境(或稱作上下文,context)。同時,提詞器的設計也需要花費大量時間來調整,因為微小的措辭變化可能會對性能產生巨大影響(例如下圖a,在“a photo of [CLASS]”中的[CLASS]前加個“a”直接漲了將近6個點?!!)。此外,不同的下游任務需要的不同設計(例如圖b-d中的“flower”,“texture”,和“satellite”)也進一步阻礙了部署的效率。

    提詞優化器“琥珀”帶你用好CLIP!視覺-語言表征學習新進展

    為了克服這一挑戰,我們提出了一種名為上下文優化 (Context Optimization,英文名:CoOp,中文名:琥珀) 的新方法。琥珀的主要思想是對提詞器中的上下文(context)用連續向量進行建模,而整個訓練過程將僅僅端到端優化這幾個上下文詞向量,而保持預訓練參數不變。此舉完全自動化了提詞器的設計過程。下圖展示了琥珀的模型結構。

    提詞優化器“琥珀”帶你用好CLIP!視覺-語言表征學習新進展

    實驗里我們使用了11個視覺數據集來驗證琥珀的有效性:結果表明琥珀是一個十分高效的小樣本學習方法,平均每個類別只需要一到兩張圖片就可以擊敗基于手工提詞器的零樣本識別模型。當每個類別的圖片有16張時,琥珀比手工提詞器平均高出了大約17個百分點(最高可達50個百分點?)。不僅如此,琥珀還對領域泛化表現出了極強的魯棒性(見下圖,M指代琥珀的提詞器長度)。

    提詞優化器“琥珀”帶你用好CLIP!視覺-語言表征學習新進展

    此時,讀者一定與我們一樣對琥珀學到的提詞器充滿興趣。可惜的是,當我們在詞空間中尋找與優化得到的詞向量距離最近的現實詞匯時,我們很難找到有實際含義的詞,因為我們發現即便是最臨近的現實詞匯,其距離與優化得到的詞向量仍然相距甚遠,并且在詞空間中,臨近的詞向量不一定具有相似的含義。下圖展示了5個數據集對應的距離最優解最近的16詞提詞器。這進一步展示了人工設計的提詞器可能始終無法達到琥珀的效果。

    提詞優化器“琥珀”帶你用好CLIP!視覺-語言表征學習新進展

    鑒于以上提詞器可視化的結果,我們大膽的推測,在一些數據集上,一些無厘頭的提詞器,例如“makka pakka akka yakka ikka akka [class]”甚至可能比“a photo of a [class]”在某些數據集上有更好的效果?。

    提詞優化器“琥珀”帶你用好CLIP!視覺-語言表征學習新進展

    提詞優化器“琥珀”帶你用好CLIP!視覺-語言表征學習新進展

    雷鋒網雷鋒網雷鋒網


    雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

    提詞優化器“琥珀”帶你用好CLIP!視覺-語言表征學習新進展

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說