mathor 大佬聊賽事：處理「微博立場檢測」賽事，數據比模型重要

本文作者： AI研習社

2020-03-25 10:50

導語：AI研習社競賽專區大佬專訪。

坐鎮大佬：

mathor：武漢某高校軟件工程大四學生（數學家是我理想）

AI 研習社 ID：@mathor

（個人主頁鏈接：https://www.yanxishe.com/center/myPage/5148812）

「微博立場檢測」賽事鏈接：https://god.yanxishe.com/44

mathor 大佬聊賽事：處理「微博立場檢測」賽事，數據比模型重要

AI 研習社：簡單介紹一下你的個人背景，讓我們更了解你唄。

mathor：我現在就讀于武漢一所普通高校，大四，今年 6 月份畢業，然后參加了 20 年的研究生入學考試。我的本科是軟件工程專業。

AI 研習社：之前參加過類似的比賽嗎？

mathor：這已經是我第二次參賽。第一次參賽是在 19 年暑假，那是一場高校大數據挑戰賽，賽題是廣告點擊預測。那一場賽題比較簡單，尤其數據字段較少，不需要運用很復雜的特征工程，非常適合當時的我。

AI 研習社：比起其他 NLP 賽事，你認為“微博立場檢測”有何不同之處？它是怎么影響你的答題思路的？

mathor：首先，“微博立場檢測”賽事的字段較少，意味著我們不需要做復雜的特征工程，對新手較友好。

其次，數據量少，所以只需要普通的 cpu 就能跑。

最后，正因為數據量較少，所以許多大佬慣用的深度學習方法，如 bert、lstm 等，使用后效果可能不是很好。反而是對模型了解較少，但是非常擅長處理數據的同學，會有更好的成績。

AI 研習社：所以說你在上周五的 PPT 里著重強調了“數據清洗”的作用，這一塊方便細談一下嗎？

mathor：這次比賽的數據都是中文的，相比英文而言，中文數據的清洗過程更復雜。

首先你得分詞，這里就會面臨很多問題，比如不同分詞工具的效果不一致，而且不存在分詞 100% 正確的工具。

其次，分完詞后，你還將面臨各種亂七八糟的字符，如網址、驗證碼、表情和中文標點符號，這些實際上沒什么意義，如果可以過濾掉這些，肯定會對結果產生很大的影響。

假設現在有一個非常干凈的數據樣本，隨便帶入一個機器學習的模型，得出的結果不一定比非常亂的樣本帶入深度學習模型的效果差。

AI 研習社：所以你采取了“pkuseg分詞+fasttext”的方案。

mathor：采取 fasttext 的原因是它非常簡單，隨便調一下就能用，這樣我可以把更多精力集中在數據處理上。（mathor 大佬參賽baseline：https://god.yanxishe.com/codeplan/detail/72）

AI 研習社：你的 PPT 里還提到一點，就是要善用分詞工具的語料庫，這一塊又是基于什么考量呢？

mathor：像我前面說過的，不存在 100% 分詞正確的分詞工具，所以應該要想盡辦法提高分詞的準確度。

假設分詞不正確，后面的過濾可能就會出現問題——比方說很多同學會過濾掉長度等于 1 的字符，但是如果一開始分詞的時候就不準確，結果過濾的時候把一些重要的信息過濾掉了，對結果肯定有影響。

而各種語料庫就是為了幫助提升分詞的準確性。

AI 研習社：在數據處理這塊，你比較推薦哪些學習材料？

mathor：我基本上很少保存資料，都是需要用到的時候才 Google ，查不到了再來問人。

以下這個表情包我個人覺得非常經典（笑）。

mathor 大佬聊賽事：處理「微博立場檢測」賽事，數據比模型重要

AI 研習社：你的 AI 基礎知識也是自學的吧？有沒有什么較好的網站或課程推薦？

mathor：龍曲良老師的 pytorch 課程。

AI 研習社：據了解，你還擁有自己的個人博客，可以向我們介紹一下嗎？

mathor：我的個人博客網址是 https://wmathor.com/ ，里頭主要更新自然語言處理、算法等技術方面的內容，少量寫一些個人感悟之類的。

AI 研習社：你覺得寫個人博客對你最大的影響是什么？

mathor：學習完了，要是不及時做筆記，最后會忘記的（笑）。

AI 研習社：還有哪些關于“微博立場檢測”的關鍵信息，是我的問題沒問出來，你認為有必要跟大家強調的？

mathor：現在比較流行集成模型，有時間的大佬可以嘗試建立多個模型，然后做個簡單的投票，或者stacking之類的，或許有奇效。畢竟那么多比賽，那么多人都在用。

這是模型方面，數據處理方面我就不多說了，已經快要接觸到我的方法的核心了（笑）。

AI 研習社：最后一個問題，你認為什么是“打比賽的正確姿勢”？

mathor：不要隨便提交代碼，因為每天提交的次數有限；

同時不要過分相信驗證集的分數，很可能不準，所以一定要有自己預判分數的方法，什么方法都行；

然后就是，不會的就及時上網查，原理不懂不要緊，最重要的是要能快速使用。

「微博立場檢測」賽事鏈接：https://god.yanxishe.com/44

mathor 大佬聊賽事：處理「微博立場檢測」賽事，數據比模型重要

雷鋒網雷鋒網雷鋒網

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

AI研習社

編輯

聚焦數據科學，連接 AI 開發者。更多精彩內容，請訪問：yanxishe.com

發私信

當月熱門文章