0
| 本文作者: 我在思考中 | 2022-08-04 10:37 |

編譯|黃楠



的得到形式是
,其中
是對應的噪聲,為簡單起見使用了加性噪聲,而
是正確的真實標簽。)
擬合到數據中,使
的經驗風險最小。也就是說,我們使用優化算法來找到
的最小化數量
,其中
是一個損失項(捕捉
距離 y 有多近),
是一個可選的規范化項 (試圖使得
偏向更簡單的模型)。
很小(這種預測是基于實驗數據所在的總體數據來獲得的)。
圖注:Bradley Efron經過對噪音的觀察所復現的牛頓第一定律漫畫
來實現。F 的類越大,偏差越小,當
,偏差甚至可以是零。然而,當 F 類越大, 則需要越多樣本來縮小其成員范圍,從而算法輸出模型中的方差就越大。總體泛化誤差是偏差項和方差貢獻的總和。
和
),比獨立學習單個更難。
,其所需的數據點數量在某些參數 k 下以
的形式拓展。在這種情況下,需要大約 k 個樣本來“起飛”,而一旦這樣做,則會面臨收益遞減的制度,即假設花耗 n 個點來達到(比如)90%的準確度,那么想要將準確度提高到95%,則大約需要另外 3n 個點。一般來說,隨著資源增加(無論是數據、模型的復雜性,還是計算),我們希望捕捉到更多更細的區別,而不是解鎖新的質量上的能力。
圖注:從IXL 網站學習特定數學技能的練習

,其中
是某個數據點(例如具體的圖像)、
是一個標簽。
,這個函數的訓練只使用數據點
而不使用標簽,通過最小化某種類型的自監督損失函數。這種損失函數的例子是重建或畫中畫(從另一個輸入 x 的某些部分恢復)或對比學習(找到
使
顯著更小,當
是同一個數據點的增量時,并列關系比兩個隨機點的并列關系要小得多)。
來擬合線性分類器
(其中 C 是類的數量),使交叉熵損失最小。最終的分類器得出了
的映射。
圖注:谷歌 PaLM 模型的數據集





,都可以將通過自監督訓練的深度 d 模型的首 k 層數與監督模型的最后 d-k 層數“縫合”起來,并且使性能幾乎保持原有水平。


https://windowsontheory.org/2022/06/20/the-uneasy-relationship-between-deep-learning-and-classical-statistics/
雷峰網(公眾號:雷峰網)雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。