成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發私信給xyhncepu
    發送

    0

    聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

    本文作者: xyhncepu 編輯:幸麗娟 2019-06-24 10:27
    導語:提出有效的互信息評估方式,并將聚類引入「信息壓縮」。

    雷鋒網 AI 科技評論按:深度學習的發展帶給人工智能領域的影響可謂是革命性的,然而該領域目前還存在很多未解決的問題,其中就包括不可解釋性等問題。而希伯來大學計算機科學家和神經學家Naftali Tishby 等人提出的「信息瓶頸」理論,則嘗試來解決神經網絡的一系列問題,自提出以來便一直受到 AI 界的廣泛關注。IBM 研究院也開展相關研究來分析這一理論,以期能夠解決神經網絡中的某些問題,相關成果發表在 IBM 研究院官網博客上,雷鋒網 AI 科技評論編譯如下。

    雖然對于神經網絡理論的研究工作日趨增多,但我們對于深度學習的宏觀行為理解仍存在許多不足之處。例如,訓練期間由哪些因素驅動內部表征的演變、學習到的表征屬性以及如何充分訓練神經網絡去處理信息等方面存在的問題,一直都沒有得到解決。此外,我們對于神經網絡的了解大多數都源于揣測,而缺乏實證。

    「信息瓶頸」理論試圖解決上述這些問題。作為 MIT- IBM Watson AI 實驗室雙方密切合作的成果,我們在 2019 年國際機器學習大會(ICML)會議論文「深度神經網絡中信息流的評估」(Estimating Information Flow in Deep Neural Networks),從數學和經驗的角度對「信息瓶頸」理論進行了分析,其中更是特別聚焦于其預測的「信息壓縮」現象。

    「信息瓶頸」理論

    「信息瓶頸」理論(Schwartz-Ziv & Tishby 2017 年論文等,見參考文獻)試圖解釋涉及信息壓縮的神經網絡泛化問題,這個概念是指在神經網絡學習對輸入編碼時,輸入 X 和隱藏層 T(圖 1)之間的互信息在訓練過程中迅速上升,之后在神經網絡學習丟棄與任務無關的非關聯信息(圖 2)時,該互信息緩慢下降(壓縮)。每一個連續的層都被視為在不斷壓縮輸入。最終證明,這種淘汰掉無關信息的方式,可以使分類器的泛化效果更好,因為這樣的話,當被給定一種新的此前從未見過的輸入,神經網絡僅僅提取出相關信息,而不會受到無關信息的誤導。

    聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

    圖 1:深度神經網絡的前饋(假設的)

    聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

    圖 2:信息瓶頸。圖中顯示了訓練過程中 5 個隱藏層中互信息的軌跡

    雖然某種程度上這是一個較為誘人的觀點,但遺憾的是,當網絡是確定性的時候,輸入 X 和隱藏層 T 之間的互信息并不依賴于網絡參數(而在實踐中,幾乎所有的神經網絡都是確定性的)。為了解決這個問題,先前的工作通過對每個神經元進行分箱處理(量化)和互信息進行計算(成為分箱隱藏層的離散熵),得出互信息的估計值。圖 3 表明該計算與分箱大小高度相關,從而證實它并沒有對互信息進行計算。

    聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

    圖 3:分箱估計的不連續性

    噪聲神經網絡與互信息評估

    當網絡是確定性的時候,互信息是非信息性的,而當網絡是隨機性的時候,互信息是富信息性的。因此,我們通過在每個神經元輸出中添加高斯噪聲 Z 來定義形成的噪聲神經網絡(圖 4)。這種噪聲同時存在于神經網絡的訓練和測試中,從而使相關的互信息評估變得有意義。在這種情況下,我們提出了一種有效的互信息評估方式,它能以極大極小最優速度收斂為真實的互信息(且不依賴于分箱)。

    聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

    圖 4:噪聲神經網絡

    將聚類作為壓縮的驅動因素

    我們的論文通過將單神經元分類和噪聲通道上的信息傳輸聯系起來,能夠開發出一個數學直覺,即信息壓縮(在隨機網絡中嚴格觀察或在確定性網絡中使用分箱估計)通常都應該由內部表征聚類引起。具體來說就是,在隱藏表征 T 中,映射同一類 Y 的不同輸入 X 的隱藏層與彼此越來越接近。

    要從經驗上評估這一點,可參考 Schwartz-Ziv、 Tishby 在其 2017 年一篇論文中提出的數據和模型,該模型使用具有雙曲正切函數(tanh)激活的全連接 12-10-7-5-5-4-3-2 體系結構對 12 維輸入進行二進制分類。圖 5 顯示了標準偏差 0.005(測試精度 97%)的加性噪聲結果,說明了各訓練期中互信息估計、訓練/測試損失和不斷演變的內部表征之間的關系。互信息的上升和下降對應著表征在每一層中的擴展或聚合程度。例如,當高斯函數開始沿著一條曲線彼此偏離時(參見頂部第 5 層隱藏表征的散點圖),在 28 epoch 之前,互信息一直呈增長趨勢;到 80 epoch 左右,它們開始聚合,互信息隨之下降。隨著訓練的進行,飽和的雙曲正切單元將高斯函數推到立方體的相反角落,進一步減少了互信息。

    聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

    圖 5:訓練過程中的 I(X;Y) 壓縮。最上面一行顯示的是在選定 epochs 中隱藏表征的最終層的散點圖,按顏色進行類標簽編碼

    如圖 6 所示,我們使用權重的正交規范化規則(Cisse 等人 2017 年論文),不僅可以消除這種壓縮,實際上也改進了泛化。隱藏表征不再聚合在一起,這與信息壓縮的缺失是直接對應的。我們在這方面進行了更多的實驗,從而有力地證實了信息壓縮是由聚類引起的。

    聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

    圖 6:使用正交規范化消除壓縮

    其他重要說明

    由聚類引起的「壓縮」概念之所以重要,基于兩個原因。首先,它揭開了「信息壓縮」的神秘面紗,用一個更具體的公式取而代之。其次,它為直接研究聚類打開了大門,聚類可能不會遭遇源自與互信息估計相關的維數的極端「詛咒」(我們證明了樣本復雜度在維數上呈指數級增長)。事實上,我們能夠將聚類的若干(初步的)測量方法延展到針對 MNIST 掃描數字任務進行分類的全卷積神經網絡上,從而在訓練過程中觀察到類似的「壓縮」行為。

    此外,與「信息瓶頸」理論相反,我們發現壓縮對于泛化來說并不是必要的,不過,鼓勵使用壓縮(通過幾何聚類)是否能夠促進更好的泛化性能仍然是一個有待解決的問題。 雷鋒網

    參考文獻:

    [Shwartz-Ziv, R. and Tishby, N.  Opening the black box of deep neural networks via information. arXiv:1703.00810, 2017]

    [Cisse,  M.,  Bojanowski,  P.,  Grave,  E.,  Dauphin,  Y.,  and Usunier, N. Parseval networks: Improving robustness to adversarial examples. In Proceedings of the International Conference on Machine Learning (ICML), 2017]

    via:https://www.ibm.com/blogs/research/2019/06/deep-neural-networks/

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    聚焦「信息壓縮」,IBM 攜手 MIT 再解讀「信息瓶頸」理論

    分享:
    相關文章

    知情人士

    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說