Kaggle 冰山圖像分類大賽近日落幕，看冠軍團隊方案有何亮點

本文作者： MrBear

編輯：汪思穎

2018-04-04 10:31

導(dǎo)語：計算機視覺入門到精通，可能比你想象的更簡單！

雷鋒網(wǎng) AI 研習(xí)社按，在日前結(jié)束的 Kaggle「Statoil/C-CORE Iceberg Classifier Challenge」（冰山圖像分類大賽）中，由 David Austin 和 Weimin Wang 組成的隊伍一舉拔得頭籌，獲得 25000 美元獎金。據(jù)介紹，他們的解決方案能有效應(yīng)用于實際生活，保證艦船在危險的水域更加安全地航行，降低船和貨物的損傷，避免人員傷亡。

據(jù) Kaggle 官網(wǎng)介紹，這次冰川圖像分類大賽是 Kaggle 上最火的圖像分類競賽——擁有史上最多參賽隊伍。而在所有數(shù)據(jù)競賽中，本次比賽熱度位列第 7。

不久前，外媒對 David Austin 進行了一次深入采訪，在采訪中，他們討論了以下問題：

冰山圖像分類競賽是什么；
冠軍方案中的處理方法、核心算法以及相關(guān)技術(shù)；
在競賽中遇到的最大的難題及解決方案；
對想?yún)⒓?Kaggle 比賽的人的建議。

以下是具體的采訪內(nèi)容，雷鋒網(wǎng) AI 研習(xí)社編譯整理：

Kaggle 冰山圖像分類大賽近日落幕，看冠軍團隊方案有何亮點

圖 1：Kaggle 冰山分類挑戰(zhàn)賽的任務(wù)目標(biāo)是建立一個圖像分類器，將輸入衛(wèi)星圖像劃分為冰山或者船

問：你好，David，十分感謝你能接受我的采訪，也恭喜你們在冰山圖像分類挑戰(zhàn)賽中取得第一名的好成績。你是如何對計算機視覺和深度學(xué)習(xí)產(chǎn)生興趣的呢？

答：在過去兩年里，我對深度學(xué)習(xí)的興趣與日俱增。因為我看到人們利用它從數(shù)據(jù)中獲得了難以置信的結(jié)果。我對深度學(xué)習(xí)領(lǐng)域的前沿研究和實際應(yīng)用都很感興趣，我認(rèn)為 Kaggle 是一個非常棒的平臺。通過比賽，我能保持對前沿技術(shù)的掌控能力，可以在合適的場景下嘗試新的技術(shù)。

問：你在參加這次比賽之前，在計算機視覺和機器學(xué)習(xí)領(lǐng)域的學(xué)術(shù)背景如何？你之前參加過其他 Kaggle 競賽嗎？

答：大概十年前，我首次接觸機器學(xué)習(xí)，那時我開始學(xué)習(xí)梯度提升樹和隨機森林相關(guān)知識并將其應(yīng)用到分類問題中。近幾年，我開始更廣泛地關(guān)注深度學(xué)習(xí)和計算機視覺。不到一年前，我開始參加 Kaggle 競賽，這是提升技能的一種方式，本次比賽是我第三次參加 Kaggle 競賽。

Kaggle 冰山圖像分類大賽近日落幕，看冠軍團隊方案有何亮點

圖 2：冰山

問：能再談?wù)劚椒诸愄魬?zhàn)賽嗎？是什么驅(qū)使你參加了本次比賽？

答：冰山分類挑戰(zhàn)賽是一個圖像二分類問題，這個比賽要求參賽者在衛(wèi)星圖像中將船和冰山區(qū)分開來。這項工作在能源勘探領(lǐng)域尤為重要，它讓我們能夠識別并且避開類似浮冰這樣的威脅。

本次比賽的數(shù)據(jù)有兩個特別有意思的地方：

首先，數(shù)據(jù)集規(guī)模相當(dāng)小，訓(xùn)練集中只有 1604 張圖片。這樣一來，從硬件的角度來說，參與競賽的門檻很低。然而，另一方面，使用有限的數(shù)據(jù)完成圖像分類任務(wù)又是十分困難的。
其次，如果用肉眼去觀察這些圖片，它們看上去就像電視屏幕上出現(xiàn)的「雪花」圖——一堆亂七八糟的噪點。人類用肉眼完全不可能看出來哪些圖像是船，哪些圖像是冰山。

Kaggle 冰山圖像分類大賽近日落幕，看冠軍團隊方案有何亮點

圖 3：人眼很難準(zhǔn)確判斷輸入圖片是「冰山」還是「船」

要讓人類僅憑肉眼準(zhǔn)確地區(qū)分圖片類別十分困難。我認(rèn)為這是一個很好的契機——測試深度學(xué)習(xí)和計算機視覺能夠做到人類做不到的事情。

Kaggle 冰山圖像分類大賽近日落幕，看冠軍團隊方案有何亮點

圖 4：冠軍團隊采用集成的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

問：接下來，讓我們討論稍微技術(shù)性一些的問題。能介紹一下你們優(yōu)勝策略中所使用的數(shù)據(jù)處理方法、算法和相關(guān)技術(shù)嗎？

答：好的，總體上我們的數(shù)據(jù)處理方法和大多數(shù)傳統(tǒng)的計算機視覺問題中所使用的方法很相似。我們都會事先花費一些時間去理解數(shù)據(jù)。

使用無監(jiān)督學(xué)習(xí)方法是一種我最喜歡的技術(shù)，通過學(xué)習(xí)這些模式，我們可以決定接下來將要使用什么樣的深度學(xué)習(xí)方法。

在這個任務(wù)中，標(biāo)準(zhǔn)的 KNN（K 最近鄰算法）就能夠識別出幫助定義模型結(jié)構(gòu)的關(guān)鍵信號。我們使用了一個十分龐大的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，包含超過 100 個改造過的卷積神經(jīng)網(wǎng)絡(luò)和類似于 VGG 的結(jié)構(gòu)，然后我們使用 greedy blending 策略和兩層結(jié)合了其他的圖像特征的集成學(xué)習(xí)算法將模型結(jié)果融合起來。

這聽起來是個很復(fù)雜的方法。但是請記住！這里的目標(biāo)函數(shù)是要最小化對數(shù)損失誤差。在這個任務(wù)中，我們僅僅像這樣加入了一些模型，因為它們能夠在不發(fā)生過擬合的情況下減小對數(shù)損失。所以，這又是一個很好的例子，說明了將許多弱機器學(xué)習(xí)模型集成之后的威力。

我們最后再次訓(xùn)練了許多和之前一樣的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，但是這里我們僅僅是使用了一開始通過無監(jiān)督學(xué)習(xí)挑選出的原始數(shù)據(jù)的子集作為輸入，這同樣也提高了我們模型的性能。

Kaggle 冰山圖像分類大賽近日落幕，看冠軍團隊方案有何亮點

圖5：過擬合是它們在本次比賽中遇到的最棘手的問題

問：對于你們來說，本次比賽中遇到的最大難題是什么？

答：在比賽中最困難的部分當(dāng)屬驗證模型沒有過擬合。

說實話，這個數(shù)據(jù)集對于圖像分類問題來說是相當(dāng)小的，所以我們擔(dān)心過擬合會是一個很大的問題。為此，得確保所有的模型都要經(jīng)過4折交叉驗證，盡管這會增加計算開銷，但是卻能降低過擬合的風(fēng)險。尤其是在處理像對數(shù)損失這樣非常嚴(yán)格的損失函數(shù)時，需要時刻注意過擬合問題。

問：訓(xùn)練模型需要花費多長時間呢？

答：盡管我們選用的卷積神經(jīng)網(wǎng)絡(luò)規(guī)模巨大，并且在所有的模型訓(xùn)練過程中都使用了4折交叉驗證，訓(xùn)練過程僅僅花費了一到兩天。沒有交叉驗證的單個模型可以在幾分鐘內(nèi)完成訓(xùn)練。

問：如果要你選出一項本次比賽中你所使用的最重要的技術(shù)或者小竅門，你會選什么呢？

答：毫無疑問，最重要的步驟當(dāng)屬預(yù)先進行的探索性分析，從而對數(shù)據(jù)有更好的了解。

探索性分析的結(jié)果表明，有一個圖像數(shù)據(jù)之外的特征中非常重要，它能夠幫助消除數(shù)據(jù)中大量的噪聲。

在我看來，我們在計算機視覺或者深度學(xué)習(xí)問題中最容易忽視的步驟之一，就是需要事先理解數(shù)據(jù)，并且利用這些知識幫助我們做出最佳設(shè)計選擇。

現(xiàn)成的算法如今更加易于獲得和引用，我們往往會不假思索、簡單粗暴地將這些算法應(yīng)用于待解決的問題上。然而我們卻沒有真正想清楚這些算法是不是這一任務(wù)的最佳選擇，或者沒有想清楚在訓(xùn)練之前或之后是否需要對數(shù)據(jù)進行一些適當(dāng)?shù)奶幚砉ぷ鳌?/p>

Kaggle 冰山圖像分類大賽近日落幕，看冠軍團隊方案有何亮點

圖 6：優(yōu)勝解決方案用到了 Tensorflow、Keras、XGBoost 框架

問：本次比賽中，你選擇了哪些工具和程序庫？

答：就我個人而言，我認(rèn)為 TensorFlow 和 Keras 是最好用的，因此在處理深度學(xué)習(xí)問題時，我會傾向于選擇它們。

至于 stacking 和 boosting 兩種集成學(xué)習(xí)方法，我使用 XGBoost 去實現(xiàn)，這也是因為我對它很熟悉以及它已經(jīng)被證實有好的運算結(jié)果。

比賽中，我使用了我的 dl4cv 虛擬環(huán)境（這是計算機視覺深度神經(jīng)網(wǎng)絡(luò)中用到的 Python 虛擬環(huán)境），并且將 XGBoost 加入其中。

問：對于初次參加 Kaggle 競賽的新手們，你有什么好的建議嗎？

答：Kaggle 有著很棒的社區(qū)文化，其上的比賽是依靠這個機制運行的。

社區(qū)中有很多供選手進行討論的論壇，也有各種各樣討論的方式。如果參賽選手愿意，他們可以將自己的代碼分享出來。當(dāng)你試著學(xué)習(xí)通用的方法并將代碼應(yīng)用于具體問題上時，這將十分有幫助。

當(dāng)我第一次參加 Kaggle 比賽時，我花了幾個小時仔細(xì)閱讀了論壇中的文章以及其它高質(zhì)量的代碼，我發(fā)現(xiàn)這是學(xué)習(xí)的最佳途徑之一。

問：下一步的打算如何？

答：目前我手頭上有很多項目要去做，因此我將會忙上一段時間。還有一些 Kaggle 比賽看上去十分有趣，所以之后我很有可能再回來參與到其中。

問：如果讀者想要和你交流，你的聯(lián)系方式是什么呢？

答：最好方式的話，在我的 LinkedIn 用戶資料中有寫到。大家同樣可以通過 LinkedIn 聯(lián)系 Weimin Wang。同時，我會參加 PyImageConf2018，如果大家想要和我當(dāng)面交流，那時候可以來找我。

via PyImageSearch

雷鋒網(wǎng) AI 研習(xí)社編譯整理。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

7人收藏

相關(guān)文章

MrBear

知情人士

發(fā)私信

當(dāng)月熱門文章