模式識別與機(jī)器學(xué)習(xí)第一講（下）

本文作者：汪思穎

2017-09-30 17:48

導(dǎo)語：本文主要涉及到一些概率論的內(nèi)容。

雷鋒網(wǎng) AI科技評論按，本文作者Frankenstein，首發(fā)于知乎專欄閑敲棋子落燈花，雷鋒網(wǎng) AI科技評論獲其授權(quán)轉(zhuǎn)載。

本文接模式識別與機(jī)器學(xué)習(xí)第一講（上）。關(guān)鍵詞：隨機(jī)變量、條件概率、邊際概率、sum rule、product rule、貝葉斯公式、先驗(yàn)概率、后驗(yàn)概率、獨(dú)立、概率質(zhì)量函數(shù)、概率密度函數(shù)、累計(jì)分布函數(shù)、多元分布、換元、期望、條件期望、方差、協(xié)方差。

1.2 Probability Theory

動(dòng)機(jī)：模式識別里的一個(gè)關(guān)鍵概念是不確定性。不確定性的來源有兩個(gè)：測量的噪聲以及數(shù)據(jù)集大小有限。概率論提供了一種量化和操作不確定性的工具，是模式識別的根基之一。當(dāng)我們同時(shí)運(yùn)用概率論和決策論，我們可以基于給定信息做出最優(yōu)預(yù)測，無論信息是否完整、明確。

如沒有特別強(qiáng)調(diào)，以下 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 均表示隨機(jī)變量。嚴(yán)格地說一個(gè)隨機(jī)變量 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 是一個(gè)從樣本空間（sample space, 潛在結(jié)果的集合） $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 到可測空間（measurable space） $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 的可測函數(shù)（measurable function）。這涉及到測度論的知識，遠(yuǎn)遠(yuǎn)超出了本書對讀者數(shù)學(xué)知識的假設(shè)。鑒于我們這里不追求嚴(yán)格的定義，可以認(rèn)為一個(gè)隨機(jī)變量是一個(gè)可以從一個(gè)集合中取不同值的變量。

條件概率： $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 表示已知 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 的情況下， $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 發(fā)生的概率，被稱為給定 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ , $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 的條件概率。我們可以把這一定義拓展到給定多于一個(gè)條件的情況下如 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 。

sum rule: $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ , 這里的 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 常被稱為邊際概率（marginal probability），因?yàn)樗山?jīng)由取便其它變量（如 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ ）的所有可能值時(shí)，計(jì)算 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 與它們的聯(lián)合分布的概率的總和來得到。

product rule: $模式識別與機(jī)器學(xué)習(xí)第一講（下）$

symmetry property: $模式識別與機(jī)器學(xué)習(xí)第一講（下）$

基于product rule和symmetry property，我們可以得到大名鼎鼎的貝葉斯定理/公式（Bayes' theorem）： $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 。由sum rule, product rule和symmetry property可得 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 。 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 。因此上式中 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 可被看做使左邊取所有可能 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 值的條件概率之和為1 的歸一化常數(shù)。

sum rule，product rule以及symmetry property像條件概率一樣可以被拓展到多于兩個(gè)隨機(jī)變量的情況。

貝葉斯定理的一個(gè)重要解釋涉及先驗(yàn)概率（prior probability）和后驗(yàn)概率（posterior probability）。通俗地講，先驗(yàn)概率是我們一無所知的情況下根據(jù)經(jīng)驗(yàn)、常規(guī)情況計(jì)算的，后驗(yàn)概率是在我們得到了新的信息情況下對先驗(yàn)概率進(jìn)行的修正，更加準(zhǔn)確。我們可以考慮 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 為 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 的先驗(yàn)概率而 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 為知道 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 后 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 的后驗(yàn)概率。

獨(dú)立： $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 為兩個(gè)隨機(jī)變量，如果 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ ，我們稱 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 獨(dú)立于 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 且 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 獨(dú)立于 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 或者 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 彼此獨(dú)立。注意這種情況下 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 。我們還會(huì)經(jīng)常見到兩兩獨(dú)立（pairwise independence，一個(gè)隨機(jī)變量的集合中任取兩個(gè)隨機(jī)變量都彼此獨(dú)立）和彼此獨(dú)立（mutually independence，對于一個(gè)隨機(jī)變量的集合 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ ，它們一起的聯(lián)合分布概率等于它們各自的分布概率之積: $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ ）。

1.2.1 Probability densities

隨機(jī)變量有離散型和連續(xù)性兩種。離散型隨機(jī)變量定義在事件的離散集合上（如篩子的點(diǎn)數(shù)，硬幣的正反等等），連續(xù)型隨機(jī)變量定義在事件的連續(xù)集合上（如區(qū)間）。就像離散型隨機(jī)變量與概率質(zhì)量函數(shù)（probability mass function）相關(guān)聯(lián)一樣，連續(xù)型隨機(jī)變量與概率密度函數(shù)（probability density function）相關(guān)聯(lián)。

a. 概率密度函數(shù) $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 具有以下特點(diǎn)：

$模式識別與機(jī)器學(xué)習(xí)第一講（下）$ ;
$模式識別與機(jī)器學(xué)習(xí)第一講（下）$ ;
$模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 在 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 的概率為 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 。

b. 換元/變量選擇

給定 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 的概率密度函數(shù) $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ ，令 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ ，則有 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 。一個(gè)相關(guān)的結(jié)果是概率密度函數(shù)的最大值取決于變量的選擇。

c. 累積分布函數(shù)（cumulative distribution function）

$模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 的概率為 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ , $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 被稱為累積分布函數(shù)。 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 。

d.多元分布

考慮多個(gè)連續(xù)型隨機(jī)變量的聯(lián)合分布。假設(shè)我們有 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 個(gè)連續(xù)型隨機(jī)變量 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ ，我們可以用一個(gè)向量把它們“封裝”起來： $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 使得 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 。如此得到的概率密度函數(shù)仍然要滿足 a 部分的特點(diǎn)。我們同樣也可以考慮離散型隨機(jī)變量和連續(xù)型隨機(jī)變量的聯(lián)合分布。

1.2.2 期望（expectation）和協(xié)方差（covariance）

期望：函數(shù) $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 在概率分布 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 下的平均值被稱為 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 的期望，用 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 表示。

對于離散型隨機(jī)變量， $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ ；
對于連續(xù)型隨機(jī)變量， $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 。

給定概率分布采集到的 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 個(gè)數(shù)據(jù)點(diǎn): $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ ，我們可以近似計(jì)算 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 的值為 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 。由大數(shù)定理可知，隨著 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ ，這一近似逼近 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 。

當(dāng)我們考慮多變量函數(shù)的期望時(shí)，我們可以在 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 右下角加一個(gè)下標(biāo)表示關(guān)于哪個(gè)隨機(jī)變量取期望，如 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 表示 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 關(guān)于 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 的期望。

條件期望（conditional expectation）： $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 在條件概率分布 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 下的平均值被稱為 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 的條件期望，用 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 表示。

對于離散型隨機(jī)變量， $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ ；
對于連續(xù)型隨機(jī)變量， $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 。

方差（variance）： $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 的方差為 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 。可以認(rèn)為方差衡量了 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 在 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 附近的變化性。

協(xié)方差（covariance）：對于任意兩個(gè)隨機(jī)變量 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ ，它們之間的協(xié)方差定義為 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ ,它反映了 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 一起變化的程度。

一個(gè)隨機(jī)變量與其本身之間的協(xié)方差等于其方差。
當(dāng) $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 彼此獨(dú)立時(shí)， $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 。
當(dāng) $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 為兩個(gè)隨機(jī)變量的向量時(shí)，設(shè) $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 含有 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 個(gè)元素， $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 含有 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 個(gè)元素 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ ，此時(shí) $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 實(shí)際上是一個(gè) $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 的矩陣，并且矩陣中第 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 行的第 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 個(gè)元素代表了 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 和 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 之間的協(xié)方差。
對于任意一個(gè)隨機(jī)變量的向量 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ ， $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ 。

1.2.3 Bayesian probabilities

這一節(jié)可以用一個(gè)問題來概括：什么是概率？之前知乎上也有類似的討論：概率（Probability）的本質(zhì)是什么？ - 知乎

龐加萊說，“概率僅僅是我們無知程度的度量，據(jù)定義，我們不曉得其定律的現(xiàn)象，都是偶然現(xiàn)象”。
不少數(shù)學(xué)家說，概率是定義在 $模式識別與機(jī)器學(xué)習(xí)第一講（下）$ -代數(shù)上，值域?yàn)閇0, 1]的測度。
頻率論者（frequentist古典統(tǒng)計(jì)學(xué)者）說，概率是隨機(jī)、可重復(fù)事件的出現(xiàn)頻率。
貝葉斯論者（Bayesian）說，概率提供了一種對不確定性的量化。

其它參考內(nèi)容：

DS-GA 1003關(guān)于L1, L2正則化的slides：https://davidrosenberg.github.io/mlcourse/Lectures/2b.L1L2-regularization.pdf

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

17人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門文章