ICCV 2021 | 阿里安全發(fā)現(xiàn)“打碼圖片”可攻擊AI視覺(jué)系統(tǒng)

本文作者：我在思考中

2021-08-30 10:07

導(dǎo)語(yǔ)：利用算法自動(dòng)鑒別圖片關(guān)鍵信息，并巧妙刪除，就像給圖片“打碼”一樣，AI視覺(jué)系統(tǒng)就會(huì)無(wú)法識(shí)別該圖片。

ICCV 2021 | 阿里安全發(fā)現(xiàn)“打碼圖片”可攻擊AI視覺(jué)系統(tǒng)

AI科技評(píng)論報(bào)道

人有很強(qiáng)的抽象能力和聯(lián)想力，例如一個(gè)由幾塊積木拼成的樂(lè)高玩具，小朋友也能輕易認(rèn)出其中描述的場(chǎng)景。甚至幾個(gè)像素，玩家也可以輕易認(rèn)出這是哪個(gè)人物。

但AI可不一定會(huì)輕易識(shí)別出來(lái)。

不久前，某知名品牌汽車(chē)被曝其自動(dòng)駕駛系統(tǒng)無(wú)法識(shí)別白色貨車(chē)箱體這樣類(lèi)似于“一堵墻”的障礙物。在自動(dòng)駕駛中，行人、車(chē)輛被漏檢或者未能及時(shí)被檢測(cè)到，都可能導(dǎo)致交通事故的產(chǎn)生。此外，安防漏檢危險(xiǎn)人物與物品也可能導(dǎo)致安全隱患。這些風(fēng)險(xiǎn)都提示，AI視覺(jué)的安全性值得重視。

在研究AI視覺(jué)穩(wěn)定性的過(guò)程中，阿里安全圖靈實(shí)驗(yàn)室的研究人員札奇發(fā)現(xiàn)，AI視覺(jué)還有一個(gè)盲區(qū)：利用算法自動(dòng)鑒別圖片關(guān)鍵信息，并巧妙刪除，就像給圖片“打碼”一樣，AI視覺(jué)系統(tǒng)就會(huì)無(wú)法識(shí)別該圖片。最近，這項(xiàng)研究成果被AI頂會(huì)ICCV 2021收錄。

論文地址：https://arxiv.org/pdf/2108.09034.pdf

札奇的研究源于逛商場(chǎng)看到樂(lè)高玩具迸發(fā)的靈感。當(dāng)時(shí)，她有一個(gè)疑問(wèn)：“人眼如何識(shí)別‘馬賽克’式樣的玩具？還有早期的超級(jí)馬里奧，雖然只是由幾個(gè)簡(jiǎn)單像素組成，人卻可以正確識(shí)別這種抽象的表達(dá)。AI模型面對(duì)‘馬賽克’式的圖片，能正確識(shí)別嗎？”

盡管我們期望AI模型能具有和人相當(dāng)?shù)哪芰Γ?/span>”抽象能力”對(duì)于現(xiàn)在的AI模型來(lái)說(shuō)顯然還是相當(dāng)有挑戰(zhàn)性的。但相反的，如果我們從對(duì)抗樣本的角度來(lái)考慮：存不存在一種可能，如果我們?nèi)サ魣D片中一些對(duì)AI模型來(lái)說(shuō)關(guān)鍵而微小的特征，AI模型就無(wú)法再正確識(shí)別這些圖片。

那么什么是對(duì)抗樣本呢？

對(duì)抗樣本

對(duì)抗樣本一開(kāi)始由Szegedy等人在2013年定義: 給定一張?jiān)紙D片x及其標(biāo)簽y，以及模型。對(duì)抗樣本是指在原圖x上加一些刻意制造的微小的擾動(dòng)，從而讓結(jié)果圖像無(wú)法被正確識(shí)別（如下圖所示）。通常來(lái)說(shuō)，對(duì)抗擾動(dòng)被限制在一定閾值內(nèi)，從而保證結(jié)果圖對(duì)人來(lái)說(shuō)與原圖幾乎不可區(qū)分。后續(xù)有很多相關(guān)工作在當(dāng)前設(shè)定下進(jìn)一步探索了更多生成對(duì)抗樣本的攻擊方式，以及其他性質(zhì)，例如遷移性等。

圖1. 對(duì)抗攻擊

“對(duì)抗樣本可能是特征”

在對(duì)抗樣本提出后，有各種各樣的防御工作提出，其中對(duì)抗訓(xùn)練是最為有效的防御方式之一，但是對(duì)抗訓(xùn)練有非常明顯的問(wèn)題是：在穩(wěn)健性（robustness）和準(zhǔn)確率（accuracy）之間始終有一個(gè)平衡，即對(duì)抗訓(xùn)練提升模型穩(wěn)健性的同時(shí)也導(dǎo)致的模型的準(zhǔn)確率下降。為了解釋這一現(xiàn)象，Ilyas等人給對(duì)抗樣本的存在提出了一個(gè)假設(shè)：對(duì)抗樣本不是bug，而是一組對(duì)人來(lái)說(shuō)不可感知的特征。以人類(lèi)感知為中心，人類(lèi)所能察覺(jué)的特征就是robust feature，其他的特征則是non-robust。例如圖2的狗狗，人類(lèi)只會(huì)注意到其中的耳朵鼻子等顯著特征(robust feature)。

圖2. 魯棒特征與非魯棒特征

Ilyas等人通過(guò)一組巧妙的實(shí)驗(yàn)說(shuō)明對(duì)抗樣本其實(shí)是模型從數(shù)據(jù)中學(xué)習(xí)到一部分特征，盡管對(duì)人來(lái)說(shuō)不可感知，但是對(duì)于模型來(lái)說(shuō)是具有預(yù)測(cè)意義的。受Ilyas 等人工作啟發(fā)，札奇研究團(tuán)隊(duì)試圖從一個(gè)相反的角度來(lái)討論一個(gè)潛在的攻擊機(jī)制：可否去掉一些對(duì)人來(lái)說(shuō)微小而不可感知但是對(duì)于模型決策又重要的特征，從而形成對(duì)抗樣本呢？

AdvDrop, 通過(guò)丟信息來(lái)制造對(duì)抗樣本

他們對(duì)此猜想進(jìn)行了驗(yàn)證，實(shí)驗(yàn)過(guò)程如下：

ICCV 2021 | 阿里安全發(fā)現(xiàn)“打碼圖片”可攻擊AI視覺(jué)系統(tǒng)

圖3. 左側(cè)AdvDrop，信息丟失越來(lái)越多，右側(cè)PGD,對(duì)抗噪聲越來(lái)越大

他們?cè)谶@個(gè)工作中提出一個(gè)新的機(jī)制來(lái)生成對(duì)抗樣本：相反于增加對(duì)抗擾動(dòng)，我們通過(guò)扔掉一些不可察覺(jué)的圖像細(xì)節(jié)來(lái)生成對(duì)抗樣本。關(guān)于兩種相反機(jī)制的說(shuō)明如圖3，當(dāng)AdvDrop放寬丟掉的信息量的閾值epsilon，產(chǎn)生的對(duì)抗樣本越來(lái)越趨近于一張灰色圖片，伴隨著圖像存儲(chǔ)量的降低。而相反的，PGD生成的對(duì)抗樣本，隨著干擾幅度的增大，越來(lái)越接近于無(wú)序噪音。

一張更細(xì)節(jié)的對(duì)比圖4所示，從局部區(qū)域來(lái)看，PGD在圖片的局部生成了更多的細(xì)節(jié)，表現(xiàn)為更豐富的色彩。而相反的，AdvDrop生成的對(duì)抗樣本與原圖相比失去了一些局部細(xì)節(jié)，表現(xiàn)在色彩精度的降低。

圖4. PGD與AdvDrop局部色彩豐富度

他們是如何確定丟掉哪些區(qū)域的呢？

為了確定丟掉哪些區(qū)域的圖片信息，并且保證扔掉的細(xì)節(jié)人們無(wú)法感知，他們提出一種通過(guò)優(yōu)化量化表的方式來(lái)選擇丟掉信息的區(qū)域以及丟掉的信息量的方法。此外，為了保證丟掉的細(xì)節(jié)對(duì)于人來(lái)說(shuō)依然不可感知，要先將圖像通過(guò)離散傅里葉變換從RGB轉(zhuǎn)換到頻域，再用量化表去量化一些頻域的信息。頻域操作相比于RGB的優(yōu)點(diǎn)是，能更好的分離圖像的細(xì)節(jié)信息（高頻信息）和結(jié)構(gòu)信息（低頻信息），因此可以保證扔掉的細(xì)節(jié)對(duì)人來(lái)說(shuō)不可感知。

圖5. AdvDrop 算法流程

整個(gè)流程如圖5所示，從優(yōu)化上，可以被定義為：

ICCV 2021 | 阿里安全發(fā)現(xiàn)“打碼圖片”可攻擊AI視覺(jué)系統(tǒng)

其中D 和分別表示的是離散余弦變環(huán)及反變換，表示的是一個(gè)可微分的量化過(guò)程。

通常的量化，可以定義為：

ICCV 2021 | 阿里安全發(fā)現(xiàn)“打碼圖片”可攻擊AI視覺(jué)系統(tǒng)

但是因?yàn)榱炕瘮?shù)不可微分，極大影響優(yōu)化過(guò)程。因此，札奇研究團(tuán)隊(duì)參考了Gong等人的工作，通過(guò)引入可控tanh函數(shù)來(lái)漸進(jìn)的逼近階梯式的量化函數(shù)，所以：

ICCV 2021 | 阿里安全發(fā)現(xiàn)“打碼圖片”可攻擊AI視覺(jué)系統(tǒng)

其斜度可以由 α調(diào)整，如下圖所示，經(jīng)過(guò)量化函數(shù)可微處理，可以更準(zhǔn)確的反向傳播梯度從而更準(zhǔn)確的估計(jì)出應(yīng)該丟失信息的位置及量化的大小。

圖6. 不同alpha 下tanh函數(shù)對(duì)量化函數(shù)的逼近程度

結(jié)果評(píng)估

用lpips比較AdvDrop及PGD在相同信息量變化下的視覺(jué)得分：從對(duì)抗樣本的不可感知角度來(lái)說(shuō)，在同樣的感知得分下，丟信息操作允許操作的信息量要比加干擾允許的更大。從人類(lèi)視覺(jué)上來(lái)說(shuō)，相比于加噪，人眼對(duì)于局部平滑其實(shí)更為不敏感，從圖7可見(jiàn)，隨著量化表閾值的增大，AdvDrop生成的對(duì)抗樣本的局部細(xì)節(jié)越少，例如蜥蜴鱗片的紋理：

圖7. 不同預(yù)知下的攻擊結(jié)果展示

從成功率上來(lái)說(shuō)，無(wú)論是在目標(biāo)攻擊還是無(wú)目標(biāo)攻擊的設(shè)定下， AdvDrop有相當(dāng)高的成功率來(lái)生成一個(gè)對(duì)抗樣本。在目標(biāo)攻擊下，最高可以達(dá)到一個(gè)99.95%成功率。但相比于傳統(tǒng)加噪的對(duì)抗攻擊生成方式 (例如PGD，BIM) 可以輕易達(dá)到100%的成功率來(lái)說(shuō)，依然是強(qiáng)度較弱的。

“我們覺(jué)得AdvDrop強(qiáng)度方面的局限可能來(lái)自于兩方面：一方面是由于量化這樣的方式，另一方面，“減信息”可以操作的空間相比于“加信息”的空間來(lái)說(shuō)要小很多。”

他們也評(píng)估了AdvDrop在不同防御下的表現(xiàn)。目前主流防御方式主要分為兩種，一種是對(duì)抗訓(xùn)練 ，另一種是基于去噪的防御方式。研究發(fā)現(xiàn)AdvDrop生成的對(duì)抗樣本對(duì)于現(xiàn)階段防御方式來(lái)說(shuō)仍是一個(gè)挑戰(zhàn)，尤其是基于去噪的防御方式。

ICCV 2021 | 阿里安全發(fā)現(xiàn)“打碼圖片”可攻擊AI視覺(jué)系統(tǒng)

具體來(lái)說(shuō)，在一定擾動(dòng)閾值下，基于制造對(duì)抗擾動(dòng)的對(duì)抗樣本生成方式經(jīng)過(guò)去噪后，圖片有很大概率恢復(fù)成原始圖片。但是對(duì)于用AdvDrop生成的對(duì)抗樣本來(lái)說(shuō)，其本身就是由于部分特征丟失而導(dǎo)致的錯(cuò)誤識(shí)別，而去噪操作甚至?xí)觿∵@種由于丟失而無(wú)法識(shí)別的問(wèn)題。

圖8. AdvDrop和PGD在Denoise操作下的細(xì)節(jié)展示

除了防御的角度，考慮到很多數(shù)據(jù)都是從網(wǎng)上收集而來(lái)，而網(wǎng)絡(luò)傳輸中往往存在數(shù)據(jù)壓縮過(guò)程，所以通過(guò)AdvDrop生成的對(duì)抗樣本可能“更耐傳輸”。當(dāng)然，另一個(gè)角度來(lái)想，也有可能對(duì)于正常圖像數(shù)據(jù)來(lái)說(shuō)，一些正常的數(shù)據(jù)壓縮（例如jpeg）也許不經(jīng)意間就引入了對(duì)抗樣本。

總結(jié)

因此，傳統(tǒng)對(duì)圖片“加工”以騙過(guò)AI的方法是給圖片加上“噪音”，相當(dāng)于在當(dāng)前圖片上針對(duì)模型"亂涂亂畫(huà)"，讓AI無(wú)法識(shí)別，但原圖片本身的關(guān)鍵信息沒(méi)有丟失，只要用“橡皮擦”擦一擦，AI依然能識(shí)別。如果反向操作，刪除圖片的關(guān)鍵信息，就像打“馬賽克”，圖片的關(guān)鍵信息已經(jīng)丟失，那么AI無(wú)論如何也難以識(shí)別。這意味著，針對(duì)“打碼攻擊”，難以有防御措施。

該工作也展示了AI模型另一個(gè)角度的局限性：對(duì)重要細(xì)節(jié)丟失的穩(wěn)健性。

在這個(gè)工作中，僅僅探索了在頻域上丟信息的操作，通過(guò)其他丟信息方式來(lái)生成對(duì)抗樣本都是可以值得嘗試的未來(lái)工作。

專注對(duì)AI的對(duì)抗樣本和模型安全性進(jìn)行研究的阿里安全高級(jí)算法專家越豐提醒，除了AI視覺(jué)場(chǎng)景，真實(shí)場(chǎng)景中也可能存在這種對(duì)抗攻擊，例如針對(duì)某知名PS軟件，只要提供具備對(duì)抗攻擊性質(zhì)的JPEG量化表，就能產(chǎn)出有“攻擊性”的圖片。

此外，在實(shí)際場(chǎng)景中，圖片信息丟失是常見(jiàn)現(xiàn)象，例如用戶將圖片以JPEG形式上傳到網(wǎng)絡(luò)，就有一定的信息丟失，可能不經(jīng)意間就會(huì)制造一個(gè)“對(duì)抗樣本”。越豐認(rèn)為，這對(duì)當(dāng)前內(nèi)容安全場(chǎng)景的AI識(shí)別而言，都是不小的挑戰(zhàn)。

“比如有人將涉黃賭毒圖片以損失部分信息的形式上傳到網(wǎng)絡(luò)，人眼依然能領(lǐng)會(huì)含義，但AI卻沒(méi)能正確識(shí)別，這對(duì)構(gòu)建清朗、健康網(wǎng)絡(luò)環(huán)境而言，就是一種對(duì)抗。”越豐舉例道，AI安全行業(yè)應(yīng)該警惕這種類(lèi)型的對(duì)抗。

當(dāng)然，“致盲AI”不是研究人員的目標(biāo)，研究人員最終還是想發(fā)現(xiàn)AI模型的脆弱性，進(jìn)一步提升AI安全。“在AI安全前沿技術(shù)上進(jìn)行探索，一是為了讓AI更安全，二是為了讓AI助力安全，三是為解決具體社會(huì)問(wèn)題尋找提效的新途徑。”阿里安全圖靈實(shí)驗(yàn)室負(fù)責(zé)人薛暉提醒，相比“事后彌補(bǔ)”，安全應(yīng)前置，從源頭守衛(wèi)安全，對(duì)前沿技術(shù)進(jìn)行研究布局，以科技創(chuàng)新造就最好的網(wǎng)絡(luò)安全。

贈(zèng)書(shū)福利

AI科技評(píng)論本次聯(lián)合Springer為大家?guī)?lái)5本周志華教授親筆簽名的《Machine Learning》正版新書(shū)。

在AI科技評(píng)論8月28日頭條文章（注意不是本文，僅限AI科技評(píng)論微信公眾號(hào)端）留言區(qū)留言，歡迎大家暢所欲言，談一談你對(duì)本書(shū)的看法和期待。在綜合留言質(zhì)量（留言是敷衍還是走心）和留言點(diǎn)贊最高（注：點(diǎn)贊最高的前5不意味著一定會(huì)中獎(jiǎng)）的讀者中選出5位讀者獲得贈(zèng)書(shū)。獲得贈(zèng)書(shū)的讀者請(qǐng)聯(lián)系 AI 科技評(píng)論客服（aitechreview）。

留言內(nèi)容會(huì)有篩選，例如“選我上去”、“這書(shū)寫(xiě)的很棒（僅僅幾個(gè)字）”等內(nèi)容將不會(huì)被篩選，亦不會(huì)中獎(jiǎng)。
留言送書(shū)活動(dòng)時(shí)間為2021年8月28日 - 2021年9月01日（23:00），活動(dòng)推送時(shí)間內(nèi)僅允許贈(zèng)書(shū)福利中獎(jiǎng)一次。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

我在思考中

運(yùn)營(yíng)

發(fā)私信

當(dāng)月熱門(mén)文章