昨晚我在斯坦福斗圖輸給了兩個學生，他們用深度神經網絡生成表情，他們發圖很快

本文作者： sanman

編輯：楊曉凡

2018-06-26 15:12

導語：群解散前，我只看到了CS224n字樣

雷鋒網AI科技評論按：斯坦福大學的兩個學生 Abel L Peirson V 和 Meltem Tolunay 發表了自己的 CS224n 結業論文—— 用深度神經網絡生成表情包（你沒有看錯）。論文主要內容是根據圖片內容生成有關聯的說明（吐槽）。可能該論文沒有其他論文那么的一本正經，但在思路也算清奇，論文和代碼已經公布。雷鋒網 AI 科技評論也簡單介紹一下論文內容。

摘要

Abel 和 Meltem兩位同學開發了一個新型的表情包生成系統，給張圖片就可以自動給圖片配相應的文字（表情）。除此之外，這個系統還可以應用于用戶自定義標簽，讓用戶按圖片內容分起類來更簡單（表情包）。該系統先使用預訓練的Inception-v3 網絡生成一個圖片嵌入，然后將它傳遞到基于 attention 的深層 LSTM 模型中來生成最終注釋，該做法靈感來自于大名鼎鼎的 SHow&Tell 模型，他們還稍微修改了一下集束搜索算法來保證配字的多樣性（罪犯克星烏蠅哥+配字）。他們使用混淆度評估和人類評估來評估他們的模型，評估指標主要是兩個，一是生成表情包的質量，二是是否可以以假亂真。

簡介

每種文化中那些風靡的的表情包代表著一種理念或者行為風格（吐槽），它們通常旨在表達一種特定現象、主題和含義（社會人？）。

表情包無處不在，語言和風格也處在不停的變化中（過氣網紅）。表情包靈感來源廣泛，形式也不斷的演變。原本表情包只是利用文化（尤其是亞文化）主題來散播幽默的媒介。但是，表情包同樣可以被用來宣傳政治理想：），傳播共鳴，為少數派發聲。表情包是這一代人自己的交流方式，也真實的塑造了這一代人。AI 如今發展迅猛，急需新的挑戰。表情包的具有高度相關性還需要強理解能力，故他們選擇該項目（一本正經）。

昨晚我在斯坦福斗圖輸給了兩個學生，他們用深度神經網絡生成表情，他們發圖很快

不是誰都能簡簡單單就用深度學習生成表情包的

本任務只完成了上圖的效果，即給圖片配字。這種做法大大的簡化了問題以及數據收集難度（?乛v乛?）。本篇論文中最主要的任務就是產生與圖片高度相關的幽默配字，可以當模板表情包的那種。他們應用了一個已有的圖片注釋編解碼系統，該系統首先是一個 CNN 圖片嵌入階段，然后再用一個 LSTM-RNN 去生成文字。他們還測試了不同的 LSTM 模型并評估它們的表現。

生成表情包的質量很難自動評估。他們使用混淆度作為指標來評估和調整他們的模型，混淆度與 BLEU（Bilingual Evaluation understudy）分數高度相關。他們的定量評估則是由人類測試員完成。人類測試員需要去辨別表情包是不是生成的，或者評估一下表情包的歡樂程度，畢竟表情包的靈魂就是有趣。

背景&相關工作

一、圖片注釋模型

《Show and tell: A neural image caption generator》（https://arxiv.org/abs/1411.4555）這篇文章的作者介紹的圖片注釋模型是他們表情包生成模型的大腿。近年來對這個模型的改進中通過雙向 LSTM 和注意力機制的使用得到很大的提升。但這些模型基本都沒有用于「幽默注釋」。StyleNet 的嘗試也僅取得有限成功，但這些模型為作者的項目提供了彈藥。

二、RNN 用于語言建模

RNN 及其變體模型最近在語言建模和機器翻譯的 NLP 任務上取得的最好成果。其中 LSTM 尤為出色，因為它們使用「門控機制」來長時間記憶數據。兩位作者使用的 LSTM 單元由于基于以下式子進行操作：

昨晚我在斯坦福斗圖輸給了兩個學生，他們用深度神經網絡生成表情，他們發圖很快

其中 f 是遺忘門，i 是輸入門，o 是輸出門，m 是存儲器輸出，W 是可訓練矩陣。單詞預測是通過輸出詞匯表中每個單詞的概率分布的 softmax 層進行的。

三、預訓練的 GloVe 向量

使用向量嵌入來表示單詞在很多NLP任務中都是一種重要的語義相似性捕獲手段。他們項目中使用的向量嵌入來自《Glove: Global vectors for word representation》（http://www.aclweb.org/anthology/D/D14/D14-1162.pdf）這篇文章。

四、RNN 的注意力機制

在語言建模、文本生成、機器翻譯等連續 NLP 任務中，注意力機制解決了固定長度向量不適配長序列的問題。兩位作者所建模型的一個變體中采用了Luong et al 的注意力模型（https://arxiv.org/abs/1508.04025）。

具體方法

一、數據庫

他們的數據集包含 400.000張圖片，是他們自己寫 Python 代碼從 http://www.memegenerator.net/ 爬來的。在正式訓練前，作者還對數據進行了預處理，注釋中的每個字都被縮小以匹配 GloVe 格式，標點符號也被處理了一通。

二、模型變體

編碼器：編碼器的作用就是給解碼器一個存在的理由。兩位同學在該項目中做了三個模型變體（很棒），第一個忽略標簽，第二個帶了標簽，第三個在第二個基礎上還加了注意力機制。
解碼器：解碼器由一個單向LSTM網絡組成，該網絡根據上文描述的等式運行。每個LSTM單元都重用模型中的變量。而解碼器存在的意義就是接編碼器的鍋，上述三個變體前兩個可以用相同解碼器解決，后一個作者也沒提怎么解決。
推理和集束搜索：作者發現基于標準集束搜索的推理算法在應用中效果拔群，遂決定用該算法，為了保證生成表情包的多樣性，他們在算法中還加了一個溫度函數。

實驗

一、訓練

很穩（省略操作若干）。

昨晚我在斯坦福斗圖輸給了兩個學生，他們用深度神經網絡生成表情，他們發圖很快

二、結果評估

還可以（呵，省略更多操作）。

昨晚我在斯坦福斗圖輸給了兩個學生，他們用深度神經網絡生成表情，他們發圖很快

我們來欣賞一些生成的表情吧

昨晚我在斯坦福斗圖輸給了兩個學生，他們用深度神經網絡生成表情，他們發圖很快

（還挺不錯的哈，包括最后一張對單身狗的暴擊 Orz.....）

總結

本論文介紹了如何用神經網絡模型去給圖片配字來生成表情包。Abel 和 Meltem兩位同學還開發了多個模型變體，帶標簽和不帶標簽都有辦法處理（周全），也提供了一個精調的 LSTM 模型，算是給語言建模做了一點微小的貢獻（謙虛）。最后的測試結果表明生成的表情包和人為制作的表情包無法輕松區分（我信了）。

兩位同學認為這個項目及其他類似語言建模任務最大的挑戰就是理解各種人群和文化的梗。他們今后會再接再厲。還有最后一個問題，數據集中存在著偏見，種族歧視和性別歧視等，之后的他們之后的工作也會注意解決這個問題。

以上就是雷鋒網全部編譯內容

論文地址：https://arxiv.org/abs/1806.04510

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

9人收藏

sanman

編輯

發私信

當月熱門文章