成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能學(xué)術(shù) 正文
    發(fā)私信給青暮
    發(fā)送

    0

    Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?

    本文作者: 青暮 編輯:劉曉坤 2020-06-28 17:08
    導(dǎo)語(yǔ):爭(zhēng)論的焦點(diǎn)在于:AI產(chǎn)生偏見的原因是否只是數(shù)據(jù)集導(dǎo)致?算法本身的缺陷能不能成為原因?

    Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?

    作者 | 青 暮

    編輯 | 叢 末

    近期一篇關(guān)于圖像超分辨率的論文引起了不小的爭(zhēng)論,一切都起源于以下這張圖片: 

    Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?

    針對(duì)這張圖,Yann LeCun在推特上發(fā)表了這么一句話:“當(dāng)數(shù)據(jù)有偏見時(shí),機(jī)器學(xué)習(xí)系統(tǒng)就變得有偏見。這個(gè)人臉上采樣系統(tǒng)讓每個(gè)人看起來都像白人,因?yàn)榫W(wǎng)絡(luò)是在FlickFaceHQ數(shù)據(jù)集上預(yù)訓(xùn)練的,而這個(gè)數(shù)據(jù)集主要包含白人圖像。”

                  Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?

    這為L(zhǎng)eCun招來了不少的批評(píng),很多網(wǎng)友認(rèn)為L(zhǎng)eCun在提出狹隘甚至錯(cuò)誤的觀點(diǎn)誤導(dǎo)人們,并紛紛提出了自己的質(zhì)疑。LeCun對(duì)這些質(zhì)疑一一回應(yīng),但仍得不到理解。最后LeCun不得不一條一條地解釋自己的觀點(diǎn),才緩和了這場(chǎng)爭(zhēng)論的氣氛。

    爭(zhēng)論的焦點(diǎn)在于:AI產(chǎn)生偏見的原因是否只是數(shù)據(jù)集導(dǎo)致?算法本身的缺陷能不能成為原因?

    網(wǎng)友們的論點(diǎn)主要包括以下幾點(diǎn): 

    1、只要是在有偏見數(shù)據(jù)上進(jìn)行基準(zhǔn)測(cè)試,那么這樣的偏見也會(huì)反映在機(jī)器學(xué)習(xí)系統(tǒng)的歸納偏置上。

    用有偏見的基準(zhǔn)推進(jìn)機(jī)器學(xué)習(xí)并要求工程師簡(jiǎn)單地“使用無偏見的數(shù)據(jù)重新訓(xùn)練模型”是沒有用的。

    2、我們不都知道機(jī)器學(xué)習(xí)算法帶有數(shù)據(jù)偏見以外的歸納偏置嗎?

    3、當(dāng)數(shù)據(jù)帶有偏見時(shí),機(jī)器學(xué)習(xí)系統(tǒng)就是有偏見的。但某些機(jī)器學(xué)習(xí)系統(tǒng)的偏見不是由于數(shù)據(jù),并且構(gòu)建100%無偏見的數(shù)據(jù)集在實(shí)際上是不可能的。并且我們發(fā)現(xiàn)很多時(shí)候,假如數(shù)據(jù)帶有少量的偏見,系統(tǒng)會(huì)將其放大,并變得更加有偏見。

    4、在完整的美國(guó)人數(shù)據(jù)集上訓(xùn)練:當(dāng)你使用L2損失,大多數(shù)人都像白人;當(dāng)你使用L1損失,大多數(shù)人都像黑人。別再覺得偏見和算法無關(guān)了。

    5、承認(rèn)這個(gè)結(jié)論要求極大地縮小算法的定義范圍。你忽略了表征的選擇、損失函數(shù)的選擇、訓(xùn)練方法的選擇以及超參數(shù)等等。

    6、確實(shí),這是個(gè)需要證明的大膽斷言。AI學(xué)習(xí)過程應(yīng)該是架構(gòu)、數(shù)據(jù)、訓(xùn)練算法、損失函數(shù)等等的相互作用。

    對(duì)于這些評(píng)論,LeCun澄清道,他只是認(rèn)為,在大多數(shù)現(xiàn)代機(jī)器學(xué)習(xí)系統(tǒng)中,數(shù)據(jù)是主要的偏見來源。   

         Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?      

    LeCun 表示:

    在7年前,大多數(shù)機(jī)器學(xué)習(xí)系統(tǒng)使用手工特征,這是偏見的主要來源。但是現(xiàn)在,人們開始使用深度學(xué)習(xí)架構(gòu),很大程度上減少了源于特征選擇和架構(gòu)設(shè)計(jì)的偏見。所以我才認(rèn)為現(xiàn)在數(shù)據(jù)是主要的偏見來源。我不是在討論機(jī)器學(xué)習(xí)理論性質(zhì)上的歸納偏置(這是獨(dú)立于數(shù)據(jù)的)。我所討論的是現(xiàn)在在機(jī)器學(xué)習(xí)系統(tǒng)中經(jīng)常見到的偏見,這些偏見可能源于特征或數(shù)據(jù)。但如果特征是用深度學(xué)習(xí)學(xué)到的,那么偏見不應(yīng)該主要存在于數(shù)據(jù)嗎?” 


    另外,相比損失函數(shù)的選擇,通過在訓(xùn)練過程中均衡樣本的類別頻率來修正這種偏見會(huì)遠(yuǎn)遠(yuǎn)更加高效。

    但是也有學(xué)者認(rèn)為算法和數(shù)據(jù)之間并沒有清晰的分界線,均衡樣本的類別頻率也是一種算法的選擇。偏見并非單純來源于數(shù)據(jù),也可能取決于研究人員本身。 

    對(duì)于也可能取決于“研究人員”本身這一觀點(diǎn),LeCun回應(yīng)道:

    當(dāng)然。但是在logistic 回歸、全連接網(wǎng)絡(luò)或卷積網(wǎng)絡(luò)之間進(jìn)行選擇,并不會(huì)導(dǎo)致系統(tǒng)固有地偏向某些類型的人。當(dāng)手動(dòng)設(shè)計(jì)特征時(shí),就會(huì)引入偏見。而且,數(shù)據(jù)顯然是可以有偏見的。        

    Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?

    到了這一步,爭(zhēng)論各方似乎都不太清楚對(duì)方在表達(dá)什么了。于是最后,LeCun在一系列的推文中清楚地表達(dá)了自己的觀點(diǎn):

    我沒有說“僅當(dāng)數(shù)據(jù)有偏見時(shí)機(jī)器學(xué)習(xí)系統(tǒng)才有偏見”。


    我只是表達(dá)了對(duì)PULSE這篇論文的看法。 


    機(jī)器學(xué)習(xí)系統(tǒng)中導(dǎo)致社會(huì)偏見的原因很多(這里不談?wù)摳话愕臍w納偏置):


    1.如何收集數(shù)據(jù)和格式化 

    2.特征設(shè)計(jì)

    3.模型的架構(gòu)

    4.目標(biāo)函數(shù)

    5.部署方式 


    當(dāng)使用沒有手工特征的原始輸入時(shí)(如現(xiàn)代深度學(xué)習(xí)系統(tǒng)中常見的那樣),特征設(shè)計(jì)引起的偏差的重要性要小得多。


    如果使用別人的預(yù)訓(xùn)練模型作為特征提取器,特征將包含該系統(tǒng)的偏見。 

    也就是說,LeCun并非不同意質(zhì)疑他的專家們的觀點(diǎn),只是他當(dāng)時(shí)發(fā)表的觀點(diǎn)建立在特定的條件下,而沒有表述清楚。

    爭(zhēng)論的來源:PULSE模型訓(xùn)練的結(jié)果 

    最開始那張引起爭(zhēng)議的圖片來源于提出PULSE這一模型的論文。具體而言是有人用作者在論文中開源的代碼進(jìn)行了模型推理:用奧巴馬的打碼圖像進(jìn)行了試驗(yàn),結(jié)果發(fā)現(xiàn)奧巴馬被還原成了白人。   

        Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?

    論文地址:https://arxiv.org/pdf/2003.03808.pdf

    還原成白人這個(gè)結(jié)果實(shí)際上并不奇怪,因?yàn)镻ULSE就是建立在StyleGAN的基礎(chǔ)上實(shí)現(xiàn)的,而StyleGAN所用的數(shù)據(jù)集是FFHQ,這個(gè)數(shù)據(jù)集里包含了90%以上的白人人臉。 

    PULSE的特點(diǎn)在于,可以將多個(gè)不同但相似的人臉圖像聚合為同一個(gè)低分辨率圖像。 

          Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?       

    論文作者之一、北卡羅來納州達(dá)勒姆市杜克大學(xué)計(jì)算機(jī)科學(xué)教授Cynthia Rudin說:“我們已經(jīng)證明人們無法從模糊的圖像中進(jìn)行人臉識(shí)別,因?yàn)榭赡苄苑浅6唷R虼耍s放和增強(qiáng)不可能超過某個(gè)閾值水平。”

    Rudin說:“過去,許多算法都試圖從低分辨率恢復(fù)高分辨率圖像。” 這可能是錯(cuò)誤的方法,原始圖像實(shí)際上是信息稀疏的。因此,奧巴馬的打碼圖像還原后也不一定是奧巴馬,我們會(huì)堅(jiān)持認(rèn)為那張圖像的原型必然是奧巴馬,也是由于記憶先驗(yàn)導(dǎo)致的偏見。 

    當(dāng)然這也不能否認(rèn)該模型確實(shí)存在偏見,當(dāng)把模型在其他非白人面孔上進(jìn)行實(shí)驗(yàn)時(shí),也會(huì)出現(xiàn)相似的結(jié)果:        

    Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?      

    Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?        

    也就是說,PULSE提供的不是錯(cuò)誤的答案,也不是故意的,但提供了有偏見的答案。

    斯坦福大學(xué)研究生:社區(qū)研究者應(yīng)理性爭(zhēng)論,發(fā)言需謹(jǐn)慎

    來自斯坦福大學(xué)的一名研究生深度關(guān)注了這次事件,并在Gradient上寫下了他對(duì)此次事件的感悟。他思考的不僅僅是關(guān)于“AI偏見來源”的學(xué)術(shù)性問題,還有關(guān)于社區(qū)研究者該如何發(fā)表言論以及爭(zhēng)論的問題。他表達(dá)的思考和觀點(diǎn)有以下六點(diǎn):

    第一,除了簡(jiǎn)單的源代碼之外,交互式演示很有用,因?yàn)檫@可以使人們輕松地與模型進(jìn)行交互并指出模型存在的問題。

    簡(jiǎn)單直觀的演示可以引發(fā)高效的傳播效應(yīng),就像成為這次事件的那張圖片,基本一看就知道發(fā)生了什么事。 

    第二,發(fā)現(xiàn)了用于解決應(yīng)用AI研究中的潛在偏見的最佳實(shí)踐,“model card”的想法很有意義。

    作為對(duì)質(zhì)疑的回應(yīng),PULSE這篇論文的作者就在原文的第6節(jié)加入了對(duì)模型偏見的討論,并在附錄中加入了一張“model card”,其中寫道,相比于 CelebA HQ(基于公眾人物(名人)的人臉數(shù)據(jù)集),F(xiàn)airFace或許是評(píng)估模型時(shí)的更好選擇。   

     Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?

    第三,數(shù)據(jù)可能是機(jī)器學(xué)習(xí)系統(tǒng)中偏見的來源,但不是唯一的來源,此類系統(tǒng)可能造成的危害可能不僅僅源于有缺陷的數(shù)據(jù)集。

    這是眾多專家在質(zhì)疑LeCun論點(diǎn)時(shí)提出的,同時(shí)也是LeCun在最后澄清的觀點(diǎn),LeCun大概也想不到自己表述不嚴(yán)謹(jǐn)?shù)膸拙湓挄?huì)引起這么大的反響。

    第四,重要的是,能夠?qū)?fù)雜的主題進(jìn)行理性的討論。在這樣的討論中,回應(yīng)專家對(duì)有關(guān)話題的批評(píng)時(shí),注意不要情緒化。 

    第五,人工智能研究人員的行動(dòng)有助于為學(xué)術(shù)界以外的人們?cè)O(shè)定AI使用的規(guī)范。因此,他們應(yīng)該注意應(yīng)該使用哪些數(shù)據(jù)集來測(cè)試其模型。并且當(dāng)使用有缺陷的數(shù)據(jù)集時(shí),他們?nèi)钥梢栽谘芯恐胁扇【唧w措施以最大程度地減少這樣做造成的危害。

    第六,解決一個(gè)復(fù)雜的主題時(shí),請(qǐng)謹(jǐn)記自己的措辭和信息,尤其是該領(lǐng)域的領(lǐng)導(dǎo)者,其聲明會(huì)被很多人閱讀。模棱兩可的陳述可能導(dǎo)致人們錯(cuò)誤地得出結(jié)論,而不是加深了解。

    LeCun作為深度學(xué)習(xí)的領(lǐng)軍者,發(fā)表的言論有很大的影響力,必須嚴(yán)謹(jǐn)自己的措辭。

    參考文章:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

    https://thegradient.pub/pulse-lessons/

    https://spectrum.ieee.org/tech-talk/computing/software/making-blurry-faces-photorealistic-goes-only-so-far

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    Yann LeCun 大戰(zhàn)“鍵盤俠”,除了數(shù)據(jù),“AI偏見”到底來自哪里?

    分享:
    相關(guān)文章
    當(dāng)月熱門文章
    最新文章
    請(qǐng)?zhí)顚懮暾?qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說