成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能學(xué)術(shù) 正文
    發(fā)私信給我在思考中
    發(fā)送

    0

    關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的

    本文作者: 我在思考中 2021-10-26 18:24
    導(dǎo)語:獲獎(jiǎng)?wù)叻窒韰①悤r(shí)的過程和獲獎(jiǎng)感受。

    關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的

    如何憑借“數(shù)據(jù)增強(qiáng)”技術(shù)獲得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的最佳創(chuàng)新獎(jiǎng)?
    作者 | 杏花
    編輯 | 青暮

    吳恩達(dá)(英文名 Andrew Ng,是人工智能和機(jī)器學(xué)習(xí)領(lǐng)域國際上最權(quán)威的學(xué)者之一)在今年 6 月的時(shí)候宣布首屆以數(shù)據(jù)為中心的人工智能(Data-centric AI)競(jìng)賽即將開賽,參賽“作品”的提交日期截止到9月初。10月初,吳恩達(dá)在其個(gè)人社交平臺(tái)Twitter上向我們宣布了此次競(jìng)賽的獲獎(jiǎng)?wù)撸S后,也在其個(gè)人微信公眾號(hào)上向我們簡(jiǎn)要介紹了競(jìng)賽的參與情況。

    關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的

    這次競(jìng)賽共有489個(gè)參賽個(gè)人和團(tuán)隊(duì)提交了2458個(gè)獨(dú)特的數(shù)據(jù)集。僅僅通過改進(jìn)數(shù)據(jù)(而不是模型架構(gòu),這是硬標(biāo)準(zhǔn)),許多參賽者能夠?qū)?4.4%的基準(zhǔn)性能提高20%以上。最佳性能組的獲獎(jiǎng)?wù)叩某煽?jī)?cè)?6.034%至86.405%之間。“最具創(chuàng)新力獎(jiǎng)”和“榮譽(yù)獎(jiǎng)”的獲獎(jiǎng)?wù)邉t都采用了新穎的方法,也取得了出色的成績(jī)。

    經(jīng)過角逐,Divakar Roy, Team Innotescus 和 Team Synaptic-AnN分別獲得了最佳性能組的前三名。Mohammad Motamedi, Johnson Kuan 和 Team GoDataDriven 則是最具創(chuàng)新獎(jiǎng)的獲獎(jiǎng)?wù)撸送猓琍ierre-Louis bessecond 和 Team KAIST-AIPRLab 獲得了榮譽(yù)獎(jiǎng)。吳恩達(dá)激動(dòng)萬分地表示對(duì)所有參賽者感到驕傲。

    那么,獲獎(jiǎng)?wù)邔?duì)贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的心情是怎樣的呢?以下是此次競(jìng)賽最佳創(chuàng)新獎(jiǎng)得主之一 Johnson Kuan 發(fā)布的博文,記錄了他參賽時(shí)的過程以及獲獎(jiǎng)后的感受。

    博文具體內(nèi)容如下:

    在過去的幾個(gè)月里,我有幸參加了吳恩達(dá)首屆 Data-centric AI 競(jìng)賽。在此,我很高興能和大家分享我是如何憑借“數(shù)據(jù)增強(qiáng)(Data Boosting)”技術(shù)獲得最佳創(chuàng)新獎(jiǎng)的。

    這場(chǎng)競(jìng)賽真正的獨(dú)特之處在于,與傳統(tǒng)的 AI 競(jìng)賽不同,它嚴(yán)格關(guān)注如何改進(jìn)數(shù)據(jù)而不是模型,從我個(gè)人的經(jīng)驗(yàn)來看,這通常是改進(jìn)人工智能系統(tǒng)的最佳方式。

    考慮到有大量的開源機(jī)器學(xué)習(xí)模型庫(包括預(yù)訓(xùn)練的深度學(xué)習(xí)模型),模型方面對(duì)大多數(shù)商業(yè)應(yīng)用程序來說或多或少是一個(gè)已解決的問題。我們需要的是新工具和創(chuàng)新技術(shù)來系統(tǒng)地改進(jìn)數(shù)據(jù),Andrew顯著地將其稱為烹飪(訓(xùn)練模型)的高質(zhì)量食材。

    這篇博文的其余部分將由三個(gè)主要部分組成:

    1. 大賽概述

    2. 我的“數(shù)據(jù)增強(qiáng)”技術(shù)解決方案

    3. 這項(xiàng)技術(shù)的動(dòng)機(jī)以及如何將它推廣到不同的應(yīng)用程序



    1

    大賽概述

    在本次競(jìng)賽中,每個(gè)參與者手里有大小約為 3K 的圖像,這些圖像是從 1 到 10 的手寫羅馬數(shù)字,我們的任務(wù)是優(yōu)化模型在羅馬數(shù)字分類方面的性能。此外,我們還獲得了一本包含 52 張圖像的標(biāo)簽簿,作為我們自己實(shí)驗(yàn)的小測(cè)試集,本標(biāo)簽簿不用于最終評(píng)估。

    具體的競(jìng)賽規(guī)則鏈接如下:

    https://worksheets.codalab.org/worksheets/0x7a8721f11e61436e93ac8f76da83f0e6

    模型架構(gòu)保持固定(cut off ResNet50)并訓(xùn)練 100 個(gè) epoch,同時(shí)根據(jù)驗(yàn)證集的準(zhǔn)確性在 epoch 中選擇模型權(quán)重。

    雖然模型和訓(xùn)練過程是固定的,但我們可以自由改進(jìn)數(shù)據(jù)集并更改訓(xùn)練和驗(yàn)證數(shù)據(jù)分割。我們還可以添加新的圖像,但在訓(xùn)練和驗(yàn)證分割中提交的圖像組合必須小于10K。

    提交我們改進(jìn)的數(shù)據(jù)集后,參與者將根據(jù)隱藏的圖像測(cè)試集進(jìn)行評(píng)估。

    關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的

    訓(xùn)練數(shù)據(jù)集里的一個(gè)例子

    考慮到最終提交的圖像只能小于 10K,因此,參與者必須專注于在缺乏“大數(shù)據(jù)”的情況下獲取“好數(shù)據(jù)”,這是因?yàn)?Andrew 覺得 “大數(shù)據(jù)” 在更傳統(tǒng)的行業(yè)(如制造業(yè)、農(nóng)業(yè)和醫(yī)療保健)的人工智能應(yīng)用中非常常見。



    2

    我的“數(shù)據(jù)增強(qiáng)”技術(shù)解決方案

    在進(jìn)入解決方案的關(guān)鍵部分之前,我做的第一件事是遵循固定標(biāo)簽和刪除不良數(shù)據(jù)的常見做法。

    為了簡(jiǎn)化這個(gè)工作流程,我編寫了一個(gè) Python 程序來評(píng)估給定的數(shù)據(jù)集(在將其輸入固定模型和訓(xùn)練程序之后),并生成一個(gè)包含每個(gè)圖像記錄指標(biāo)的電子表格。

    該電子表格包含給定標(biāo)簽、預(yù)測(cè)標(biāo)簽(使用固定模型)和每個(gè)圖像的損失,這對(duì)于分離不準(zhǔn)確和邊緣情況非常有用。下面舉例。

    關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的

    由 Python 生成的數(shù)據(jù)評(píng)估電子表格示例,用于簡(jiǎn)化以數(shù)據(jù)為中心的 AI 工作流程。

    我最初使用這個(gè)電子表格來識(shí)別標(biāo)記錯(cuò)誤的圖像和明顯不是羅馬數(shù)字 1-10 的圖像(例如,在原始訓(xùn)練集中就有一個(gè)心臟圖像)。

    現(xiàn)在我們來看看“數(shù)據(jù)增強(qiáng)”技術(shù)。以下是高級(jí)步驟:

    1. 從訓(xùn)練數(shù)據(jù)中生成一組非常大的隨機(jī)增強(qiáng)圖像(將這些視為“候選”來源)。

    2. 訓(xùn)練初始模型并預(yù)測(cè)驗(yàn)證集。

    3. 使用另一個(gè)預(yù)訓(xùn)練模型從驗(yàn)證圖像和增強(qiáng)圖像中提取特征(即嵌入)。

    4. 對(duì)于每個(gè)錯(cuò)誤分類的驗(yàn)證圖像,利用提取的特征從增強(qiáng)圖像集中檢索最近鄰(基于余弦相似度)。將這些最近鄰增強(qiáng)圖像添加到訓(xùn)練集。我將這個(gè)過程稱為“數(shù)據(jù)增強(qiáng)”。

    5. 使用添加的增強(qiáng)圖像重新訓(xùn)練模型并預(yù)測(cè)驗(yàn)證集。

    6. 重復(fù)步驟 4-6,直到達(dá)到 10K 圖像的限制。

    這個(gè)迭代過程見下圖:

    關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的

    將來自訓(xùn)練集的增強(qiáng)圖像作為候選源的“數(shù)據(jù)增強(qiáng)”過程

    在“數(shù)據(jù)增強(qiáng)”過程中需要注意的幾點(diǎn):

    • -雖然我在這次競(jìng)賽中使用了增強(qiáng)圖像,但在實(shí)踐中我們可以使用任何大的圖像集作為數(shù)據(jù)源。

    • -我從訓(xùn)練集中生成了大約 1M 的隨機(jī)增強(qiáng)圖像作為候選來源。

    • -數(shù)據(jù)評(píng)估電子表格用于跟蹤不準(zhǔn)確(錯(cuò)誤分類的圖像)并注釋數(shù)據(jù)。另外,我還創(chuàng)建了一個(gè)帶有PostgreSQL 后端的 Label Studio 實(shí)例,但由于不必要的開銷,我決定不將其用于本次比賽。

    • -對(duì)于預(yù)訓(xùn)練模型,我使用了在 ImageNet 上訓(xùn)練的 ResNet50。

    • -我使用 Annoy 包來執(zhí)行近似最近鄰搜索。

    • -每個(gè)錯(cuò)誤分類的驗(yàn)證圖像要檢索的最近鄰的數(shù)量是一個(gè)超參數(shù)。

    Label Studio 鏈接:https://labelstud.io/

    Annoy 包鏈接:https://github.com/spotify/annoy

    從圖像中提取特征的一件很酷的事情是,我們可以使用 UMAP 在 2D 中將它們可視化,以更好地理解訓(xùn)練和驗(yàn)證集的特征空間。在下面的可視化中,我們可以看到,有趣的是,給定的訓(xùn)練數(shù)據(jù)分布與給定的驗(yàn)證數(shù)據(jù)不匹配。在特征空間的左下角有一個(gè)區(qū)域我們沒有驗(yàn)證圖像。這表明,在運(yùn)行上面的“數(shù)據(jù)增強(qiáng)”過程之前,可以嘗試重新調(diào)整訓(xùn)練和驗(yàn)證數(shù)據(jù)分割。

    關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的



    3

    這項(xiàng)技術(shù)的動(dòng)機(jī)以及如何將它推廣到不同的應(yīng)用程序

    我的方法受到以下四件事的啟發(fā):

    1. 我在原先的作品(見 2019 年的一篇博文)里構(gòu)建了一個(gè)電影推薦系統(tǒng),這個(gè)系統(tǒng)通過從關(guān)鍵字標(biāo)簽中提取電影嵌入并使用余弦相似度來查找彼此相似的電影。

    2. 我之前使用過預(yù)訓(xùn)練的深度學(xué)習(xí)模型將圖像表示為嵌入。

    3. 在 Andrej Karpathy 2019 年的演講中,他描述了如何有效地獲取和標(biāo)記從特斯拉車隊(duì)收集的大量數(shù)據(jù),以解決通常是邊緣情況(分布的長(zhǎng)尾)的不準(zhǔn)確問題。

    4. 我想開發(fā)一種以數(shù)據(jù)為中心的增強(qiáng)算法(類似于梯度增強(qiáng)),其中模型預(yù)測(cè)中的不準(zhǔn)確之處在每個(gè)步驟中通過自動(dòng)獲取與那些不準(zhǔn)確之處相似的數(shù)據(jù)來迭代解決。這就是我稱這種方法為“數(shù)據(jù)提升”的原因。

    2019年的博文鏈接:

    https://towardsdatascience.com/how-to-build-a-simple-movie-recommender-system-with-tags-b9ab5cb3b616

    Andrej Karpathy 2019 年的演講:

    https://www.youtube.com/watch?v=FnFksQo-yEY&t=1316s

    當(dāng)我最初考慮這種“數(shù)據(jù)增強(qiáng)”的方法時(shí),我需要弄清楚如何自動(dòng)生成大量新的候選圖像作為來源。我決定嘗試隨機(jī)增強(qiáng)原始訓(xùn)練數(shù)據(jù),以生成大量增強(qiáng)圖像作為候選來源。

    下一步,我利用預(yù)訓(xùn)練模型提取圖像嵌入,用于計(jì)算圖像之間的余弦相似度,從而自動(dòng)獲取與驗(yàn)證集中錯(cuò)誤分類圖像相似的增強(qiáng)圖像。

    在這里,使用預(yù)訓(xùn)練模型進(jìn)行一般特征提取是一種遷移學(xué)習(xí)方法。我假設(shè)通過以這種方式獲取增強(qiáng)圖像,我們可以提高模型從分布的長(zhǎng)尾學(xué)習(xí)模式的機(jī)會(huì)。正如Andrej Karpathy在2019年特斯拉“自主日”(Tesla’s Autonomy Day)的演講中所指出的那樣:

    '這都是關(guān)于長(zhǎng)尾'

    關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的

    此外,由于競(jìng)賽的數(shù)據(jù)大小限制為 10K 的圖像,這種“數(shù)據(jù)增強(qiáng)”方法是一種確定在給定的約束條件下哪些隨機(jī)增強(qiáng)圖像最好包含在訓(xùn)練集中的方法。

    我可以看到這種技術(shù)推廣到我們可以訪問的機(jī)器學(xué)習(xí)的不同應(yīng)用程序中:

    1. 為實(shí)體(例如圖像、文本文檔)提取嵌入的預(yù)訓(xùn)練模型

    2. 可供選擇的大量候選數(shù)據(jù)集(例如特斯拉車隊(duì)、網(wǎng)絡(luò)上大量的文本語料庫、合成數(shù)據(jù))

    例如,我可以想象將這種技術(shù)推廣到文本分類中,我們使用預(yù)訓(xùn)練的 Transformer 模型(比如 Bert)來提取文本的嵌入。然后,我們可以從我們的特定域的驗(yàn)證集中獲取與不準(zhǔn)確性類似的文本(假設(shè)有一個(gè)大型的在線語料庫)。



    4

    結(jié)語

    我希望這篇博文能說服你加入這場(chǎng)以數(shù)據(jù)為中心的 AI 運(yùn)動(dòng)。在更廣泛地應(yīng)用人工智能方面,還有許多令人興奮的工作要做。我相信,對(duì)人工智能系統(tǒng)數(shù)據(jù)管理的共同關(guān)注將使我們實(shí)現(xiàn)這一目標(biāo)。

    如果你有任何問題或希望合作,請(qǐng)隨時(shí)與我們聯(lián)系。你可以在 LinkedIn 或 Twitter 上找到我。

    最后,特別感謝傳奇人物吳恩達(dá)發(fā)起本次競(jìng)賽。

    原文鏈接:

    https://towardsdatascience.com/how-i-won-andrew-ngs-very-first-data-centric-ai-competition-e02001268bda

    關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的

    雷鋒網(wǎng)


    雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競(jìng)賽的

    分享:
    相關(guān)文章
    當(dāng)月熱門文章
    最新文章
    請(qǐng)?zhí)顚懮暾?qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說