0
| 本文作者: 我在思考中 | 2023-08-09 16:06 |

代碼和Demo地址:https://github.com/dvlab-research/LISA
論文地址:https://arxiv.org/pdf/2308.00692.pdf
當前的視覺識別系統都依賴人類用戶明確指代目標物體或預先設定識別類別,進而進行識別。它們仍然只能處理簡單明確的指令(如“橙子”),而無法解析相對隱式和復雜的指令(如在下圖中指出 “維生素C含量高的食物”)。

而真正的智能感知系統應該根據用戶指令推理其真實意圖。例如,在指示機器人時,人們往往傾向于直接給一個指令“我想要看電視“,而不是分幾個步驟”走去茶幾旁邊,幫我找到遙控器,然后按下按鈕打開電視“。這些場景都要求感知系統具有復雜推理和聯系世界知識的能力。
最近,香港中文大學賈佳亞團隊發布一項新研究,提出一項新任務——推理分割(Reasoning Segmentation),該任務要求模型能夠處理復雜的自然語言指令,并給出精細的分割結果。

如上圖所示,推理分割任務具有很大的挑戰性,可能需要借鑒世界知識(例如,左圖需要了解“短鏡頭更適合拍攝近物體”),或進行復雜圖文推理(如右圖需要分析圖像和文本語義,才能理解圖中“柵欄保護嬰兒”的含義),才能獲得最終理想的分割結果。
盡管當前多模態大模型(例如Flamingo [1], BLIP-2 [2], LLaVA [3], miniGPT-4 [4], Otter [5])使得AI能夠根據圖像內容推理用戶的復雜問題,并給出相應的文本分析和回答,但仍無法像視覺感知系統那樣在圖像上精確定位指令對應的目標區域。
因此,此項研究工作提出LISA(Large Language Instructed Segmentation Assistant)多模態大模型。LISA通過引入一個<SEG>標記來擴展初始大型模型的詞匯表,并采用Embedding-as-Mask的方式賦予現有多模態大型模型分割功能,最終展現出強大的零樣本泛化能力。
同時,該工作還創建了ReasonSeg數據集,其中包含上千張高質量圖像及相應的推理指令和分割標注。
實驗證明,在訓練過程中僅使用不包含復雜推理的分割數據(通過將現有的語義分割數據如ADE20K [6],COCO-Stuff [7]以及現有指代分割數據refCOCO系列 [8]中的每條數據轉換成“圖像-指令-分割Mask”三元組) ,LISA能在推理分割任務上展現出優異的零樣本泛化能力。此外,進一步使用239個推理分割數據進行微調訓練還能顯著提升LISA在推理分割任務上的性能。而且LISA還表現出高效的訓練特性,只需在8張具有24GB顯存的3090顯卡上進行10,000次訓練迭代,即可完成7B模型的訓練。
技術方案概述

首先將圖像和文本送到多模態-大語言模型(在實驗中即LLaVA),得到輸出的文本結果,如果此時文本結果包含<SEG>標記,則表示需要通過輸出分割預測來解決當前問題。反之,若不包含<SEG>標記,則無分割結果輸出。
如果存在<SEG>標記,則將<SEG>標記在多模態大模型最后一層對應的embedding經過一個MLP層得到,并將其與分割視覺特征一起傳遞給解碼器(其中分割視覺特征由輸入編碼器對圖像進行編碼得到)。最終,根據生成最終的分割結果。
LISA在訓練過程中使用了自回歸交叉熵損失函數,以及對分割結果監督的BCE和DICE損失函數。
模型效果
最終,LISA不僅在傳統的語言-圖像分割指標(refCOCO、refCOCO+和refCOCOg)上展現出優異性能,還能處理以下分割任務情景:1)復雜推理,2)聯系世界知識,3)解釋分割結果以及4)多輪對話。
在有復雜情景的ReasonSeg數據集上,LISA顯著領先于其他相關工作(如Table 1),進一步證明其出色的推理分割能力。


效果展示




引用:
[1] Alayrac, Jean-Baptiste, et al. "Flamingo: a visual language model for few-shot learning." In NeurIPS, 2022.
[2] Li, Junnan, et al. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." In arXiv preprint, 2023.
[3] Liu, Haotian, et al. "Visual instruction tuning." In arXiv preprint, 2023.
[4] Zhu, Deyao, et al. "Minigpt-4: Enhancing vision-language understanding with advanced large language models." In arXiv preprint, 2023.
[5] Li, Bo, et al. "Otter: A multi-modal model with in-context instruction tuning." In arXiv preprint, 2023.
[6] Zhou, Bolei, et al. "Scene parsing through ade20k dataset." In CVPR, 2017.
[7] Caesar, Holger, Jasper Uijlings, and Vittorio Ferrari. "Coco-stuff: Thing and stuff classes in context." In CVPR, 2018.
[8] Kazemzadeh, Sahar, et al. "Referitgame: Referring to objects in photographs of natural scenes." In EMNLP, 2014.
雷峰網(公眾號:雷峰網)
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。