關(guān)注數(shù)據(jù)而不是模型：我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的

本文作者：我在思考中

2021-10-26 18:24

導(dǎo)語：獲獎(jiǎng)?wù)叻窒韰①悤r(shí)的過程和獲獎(jiǎng)感受。

如何憑借“數(shù)據(jù)增強(qiáng)”技術(shù)獲得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的最佳創(chuàng)新獎(jiǎng)？

作者 | 杏花

編輯 | 青暮

吳恩達(dá)（英文名 Andrew Ng，是人工智能和機(jī)器學(xué)習(xí)領(lǐng)域國際上最權(quán)威的學(xué)者之一）在今年 6 月的時(shí)候宣布首屆以數(shù)據(jù)為中心的人工智能（Data-centric AI）競(jìng)賽即將開賽，參賽“作品”的提交日期截止到9月初。10月初，吳恩達(dá)在其個(gè)人社交平臺(tái)Twitter上向我們宣布了此次競(jìng)賽的獲獎(jiǎng)?wù)撸S后，也在其個(gè)人微信公眾號(hào)上向我們簡(jiǎn)要介紹了競(jìng)賽的參與情況。

關(guān)注數(shù)據(jù)而不是模型：我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的

這次競(jìng)賽共有489個(gè)參賽個(gè)人和團(tuán)隊(duì)提交了2458個(gè)獨(dú)特的數(shù)據(jù)集。僅僅通過改進(jìn)數(shù)據(jù)（而不是模型架構(gòu)，這是硬標(biāo)準(zhǔn)），許多參賽者能夠?qū)?4.4%的基準(zhǔn)性能提高20%以上。最佳性能組的獲獎(jiǎng)?wù)叩某煽?jī)?cè)?6.034%至86.405%之間。“最具創(chuàng)新力獎(jiǎng)”和“榮譽(yù)獎(jiǎng)”的獲獎(jiǎng)?wù)邉t都采用了新穎的方法，也取得了出色的成績(jī)。

經(jīng)過角逐，Divakar Roy, Team Innotescus 和 Team Synaptic-AnN分別獲得了最佳性能組的前三名。Mohammad Motamedi, Johnson Kuan 和 Team GoDataDriven 則是最具創(chuàng)新獎(jiǎng)的獲獎(jiǎng)?wù)撸送猓琍ierre-Louis bessecond 和 Team KAIST-AIPRLab 獲得了榮譽(yù)獎(jiǎng)。吳恩達(dá)激動(dòng)萬分地表示對(duì)所有參賽者感到驕傲。

那么，獲獎(jiǎng)?wù)邔?duì)贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的心情是怎樣的呢？以下是此次競(jìng)賽最佳創(chuàng)新獎(jiǎng)得主之一 Johnson Kuan 發(fā)布的博文，記錄了他參賽時(shí)的過程以及獲獎(jiǎng)后的感受。

博文具體內(nèi)容如下：

在過去的幾個(gè)月里，我有幸參加了吳恩達(dá)首屆 Data-centric AI 競(jìng)賽。在此，我很高興能和大家分享我是如何憑借“數(shù)據(jù)增強(qiáng)（Data Boosting）”技術(shù)獲得最佳創(chuàng)新獎(jiǎng)的。

這場(chǎng)競(jìng)賽真正的獨(dú)特之處在于，與傳統(tǒng)的 AI 競(jìng)賽不同，它嚴(yán)格關(guān)注如何改進(jìn)數(shù)據(jù)而不是模型，從我個(gè)人的經(jīng)驗(yàn)來看，這通常是改進(jìn)人工智能系統(tǒng)的最佳方式。

考慮到有大量的開源機(jī)器學(xué)習(xí)模型庫（包括預(yù)訓(xùn)練的深度學(xué)習(xí)模型），模型方面對(duì)大多數(shù)商業(yè)應(yīng)用程序來說或多或少是一個(gè)已解決的問題。我們需要的是新工具和創(chuàng)新技術(shù)來系統(tǒng)地改進(jìn)數(shù)據(jù)，Andrew顯著地將其稱為烹飪（訓(xùn)練模型）的高質(zhì)量食材。

這篇博文的其余部分將由三個(gè)主要部分組成：

1. 大賽概述

2. 我的“數(shù)據(jù)增強(qiáng)”技術(shù)解決方案

3. 這項(xiàng)技術(shù)的動(dòng)機(jī)以及如何將它推廣到不同的應(yīng)用程序

大賽概述

在本次競(jìng)賽中，每個(gè)參與者手里有大小約為 3K 的圖像，這些圖像是從 1 到 10 的手寫羅馬數(shù)字，我們的任務(wù)是優(yōu)化模型在羅馬數(shù)字分類方面的性能。此外，我們還獲得了一本包含 52 張圖像的標(biāo)簽簿，作為我們自己實(shí)驗(yàn)的小測(cè)試集，本標(biāo)簽簿不用于最終評(píng)估。

具體的競(jìng)賽規(guī)則鏈接如下：

https://worksheets.codalab.org/worksheets/0x7a8721f11e61436e93ac8f76da83f0e6

模型架構(gòu)保持固定（cut off ResNet50）并訓(xùn)練 100 個(gè) epoch，同時(shí)根據(jù)驗(yàn)證集的準(zhǔn)確性在 epoch 中選擇模型權(quán)重。

雖然模型和訓(xùn)練過程是固定的，但我們可以自由改進(jìn)數(shù)據(jù)集并更改訓(xùn)練和驗(yàn)證數(shù)據(jù)分割。我們還可以添加新的圖像，但在訓(xùn)練和驗(yàn)證分割中提交的圖像組合必須小于10K。

提交我們改進(jìn)的數(shù)據(jù)集后，參與者將根據(jù)隱藏的圖像測(cè)試集進(jìn)行評(píng)估。

關(guān)注數(shù)據(jù)而不是模型：我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的

訓(xùn)練數(shù)據(jù)集里的一個(gè)例子

考慮到最終提交的圖像只能小于 10K，因此，參與者必須專注于在缺乏“大數(shù)據(jù)”的情況下獲取“好數(shù)據(jù)”，這是因?yàn)?Andrew 覺得 “大數(shù)據(jù)” 在更傳統(tǒng)的行業(yè)（如制造業(yè)、農(nóng)業(yè)和醫(yī)療保健）的人工智能應(yīng)用中非常常見。

2

我的“數(shù)據(jù)增強(qiáng)”技術(shù)解決方案

在進(jìn)入解決方案的關(guān)鍵部分之前，我做的第一件事是遵循固定標(biāo)簽和刪除不良數(shù)據(jù)的常見做法。

為了簡(jiǎn)化這個(gè)工作流程，我編寫了一個(gè) Python 程序來評(píng)估給定的數(shù)據(jù)集（在將其輸入固定模型和訓(xùn)練程序之后），并生成一個(gè)包含每個(gè)圖像記錄指標(biāo)的電子表格。

該電子表格包含給定標(biāo)簽、預(yù)測(cè)標(biāo)簽（使用固定模型）和每個(gè)圖像的損失，這對(duì)于分離不準(zhǔn)確和邊緣情況非常有用。下面舉例。

關(guān)注數(shù)據(jù)而不是模型：我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的

由 Python 生成的數(shù)據(jù)評(píng)估電子表格示例，用于簡(jiǎn)化以數(shù)據(jù)為中心的 AI 工作流程。

我最初使用這個(gè)電子表格來識(shí)別標(biāo)記錯(cuò)誤的圖像和明顯不是羅馬數(shù)字 1-10 的圖像（例如，在原始訓(xùn)練集中就有一個(gè)心臟圖像）。

現(xiàn)在我們來看看“數(shù)據(jù)增強(qiáng)”技術(shù)。以下是高級(jí)步驟：

從訓(xùn)練數(shù)據(jù)中生成一組非常大的隨機(jī)增強(qiáng)圖像（將這些視為“候選”來源）。
訓(xùn)練初始模型并預(yù)測(cè)驗(yàn)證集。
使用另一個(gè)預(yù)訓(xùn)練模型從驗(yàn)證圖像和增強(qiáng)圖像中提取特征（即嵌入）。
對(duì)于每個(gè)錯(cuò)誤分類的驗(yàn)證圖像，利用提取的特征從增強(qiáng)圖像集中檢索最近鄰（基于余弦相似度）。將這些最近鄰增強(qiáng)圖像添加到訓(xùn)練集。我將這個(gè)過程稱為“數(shù)據(jù)增強(qiáng)”。
使用添加的增強(qiáng)圖像重新訓(xùn)練模型并預(yù)測(cè)驗(yàn)證集。
重復(fù)步驟 4-6，直到達(dá)到 10K 圖像的限制。

這個(gè)迭代過程見下圖：

關(guān)注數(shù)據(jù)而不是模型：我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的

將來自訓(xùn)練集的增強(qiáng)圖像作為候選源的“數(shù)據(jù)增強(qiáng)”過程

在“數(shù)據(jù)增強(qiáng)”過程中需要注意的幾點(diǎn)：

-雖然我在這次競(jìng)賽中使用了增強(qiáng)圖像，但在實(shí)踐中我們可以使用任何大的圖像集作為數(shù)據(jù)源。
-我從訓(xùn)練集中生成了大約 1M 的隨機(jī)增強(qiáng)圖像作為候選來源。
-數(shù)據(jù)評(píng)估電子表格用于跟蹤不準(zhǔn)確（錯(cuò)誤分類的圖像）并注釋數(shù)據(jù)。另外，我還創(chuàng)建了一個(gè)帶有PostgreSQL 后端的 Label Studio 實(shí)例，但由于不必要的開銷，我決定不將其用于本次比賽。
-對(duì)于預(yù)訓(xùn)練模型，我使用了在 ImageNet 上訓(xùn)練的 ResNet50。
-我使用 Annoy 包來執(zhí)行近似最近鄰搜索。
-每個(gè)錯(cuò)誤分類的驗(yàn)證圖像要檢索的最近鄰的數(shù)量是一個(gè)超參數(shù)。

Label Studio 鏈接：https://labelstud.io/

Annoy 包鏈接：https://github.com/spotify/annoy

從圖像中提取特征的一件很酷的事情是，我們可以使用 UMAP 在 2D 中將它們可視化，以更好地理解訓(xùn)練和驗(yàn)證集的特征空間。在下面的可視化中，我們可以看到，有趣的是，給定的訓(xùn)練數(shù)據(jù)分布與給定的驗(yàn)證數(shù)據(jù)不匹配。在特征空間的左下角有一個(gè)區(qū)域我們沒有驗(yàn)證圖像。這表明，在運(yùn)行上面的“數(shù)據(jù)增強(qiáng)”過程之前，可以嘗試重新調(diào)整訓(xùn)練和驗(yàn)證數(shù)據(jù)分割。

關(guān)注數(shù)據(jù)而不是模型：我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的

這項(xiàng)技術(shù)的動(dòng)機(jī)以及如何將它推廣到不同的應(yīng)用程序

我的方法受到以下四件事的啟發(fā)：

我在原先的作品（見 2019 年的一篇博文）里構(gòu)建了一個(gè)電影推薦系統(tǒng)，這個(gè)系統(tǒng)通過從關(guān)鍵字標(biāo)簽中提取電影嵌入并使用余弦相似度來查找彼此相似的電影。
我之前使用過預(yù)訓(xùn)練的深度學(xué)習(xí)模型將圖像表示為嵌入。
在 Andrej Karpathy 2019 年的演講中，他描述了如何有效地獲取和標(biāo)記從特斯拉車隊(duì)收集的大量數(shù)據(jù)，以解決通常是邊緣情況（分布的長(zhǎng)尾）的不準(zhǔn)確問題。
我想開發(fā)一種以數(shù)據(jù)為中心的增強(qiáng)算法（類似于梯度增強(qiáng)），其中模型預(yù)測(cè)中的不準(zhǔn)確之處在每個(gè)步驟中通過自動(dòng)獲取與那些不準(zhǔn)確之處相似的數(shù)據(jù)來迭代解決。這就是我稱這種方法為“數(shù)據(jù)提升”的原因。

2019年的博文鏈接：

https://towardsdatascience.com/how-to-build-a-simple-movie-recommender-system-with-tags-b9ab5cb3b616

Andrej Karpathy 2019 年的演講：

https://www.youtube.com/watch?v=FnFksQo-yEY&t=1316s

當(dāng)我最初考慮這種“數(shù)據(jù)增強(qiáng)”的方法時(shí)，我需要弄清楚如何自動(dòng)生成大量新的候選圖像作為來源。我決定嘗試隨機(jī)增強(qiáng)原始訓(xùn)練數(shù)據(jù)，以生成大量增強(qiáng)圖像作為候選來源。

下一步，我利用預(yù)訓(xùn)練模型提取圖像嵌入，用于計(jì)算圖像之間的余弦相似度，從而自動(dòng)獲取與驗(yàn)證集中錯(cuò)誤分類圖像相似的增強(qiáng)圖像。

在這里，使用預(yù)訓(xùn)練模型進(jìn)行一般特征提取是一種遷移學(xué)習(xí)方法。我假設(shè)通過以這種方式獲取增強(qiáng)圖像，我們可以提高模型從分布的長(zhǎng)尾學(xué)習(xí)模式的機(jī)會(huì)。正如Andrej Karpathy在2019年特斯拉“自主日”（Tesla’s Autonomy Day）的演講中所指出的那樣：

'這都是關(guān)于長(zhǎng)尾'

關(guān)注數(shù)據(jù)而不是模型：我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的

此外，由于競(jìng)賽的數(shù)據(jù)大小限制為 10K 的圖像，這種“數(shù)據(jù)增強(qiáng)”方法是一種確定在給定的約束條件下哪些隨機(jī)增強(qiáng)圖像最好包含在訓(xùn)練集中的方法。

我可以看到這種技術(shù)推廣到我們可以訪問的機(jī)器學(xué)習(xí)的不同應(yīng)用程序中：

為實(shí)體（例如圖像、文本文檔）提取嵌入的預(yù)訓(xùn)練模型
可供選擇的大量候選數(shù)據(jù)集（例如特斯拉車隊(duì)、網(wǎng)絡(luò)上大量的文本語料庫、合成數(shù)據(jù)）

例如，我可以想象將這種技術(shù)推廣到文本分類中，我們使用預(yù)訓(xùn)練的 Transformer 模型（比如 Bert）來提取文本的嵌入。然后，我們可以從我們的特定域的驗(yàn)證集中獲取與不準(zhǔn)確性類似的文本（假設(shè)有一個(gè)大型的在線語料庫）。

結(jié)語

我希望這篇博文能說服你加入這場(chǎng)以數(shù)據(jù)為中心的 AI 運(yùn)動(dòng)。在更廣泛地應(yīng)用人工智能方面，還有許多令人興奮的工作要做。我相信，對(duì)人工智能系統(tǒng)數(shù)據(jù)管理的共同關(guān)注將使我們實(shí)現(xiàn)這一目標(biāo)。

如果你有任何問題或希望合作，請(qǐng)隨時(shí)與我們聯(lián)系。你可以在 LinkedIn 或 Twitter 上找到我。

最后，特別感謝傳奇人物吳恩達(dá)發(fā)起本次競(jìng)賽。

原文鏈接：

https://towardsdatascience.com/how-i-won-andrew-ngs-very-first-data-centric-ai-competition-e02001268bda

關(guān)注數(shù)據(jù)而不是模型：我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的