基于典型相關分析的詞向量

本文作者：不靈叔

2017-12-26 11:17

導語：文章不深入講 word2vec 的內容，而是看看另外一種詞向量生成方式——基于典型相關分析的詞向量。

雷鋒網 AI 研習社按：本文為 seaboat 為雷鋒網 AI 研習社撰寫的獨家稿件，未經雷鋒網許可不得轉載。

前言

在 NLP 領域中，為了能表示人類的語言符號，一般會把這些符號轉成一種數學向量形式以方便處理，我們把語言單詞嵌入到向量空間中就叫詞嵌入（word embedding）。

比如有比較流行的谷歌開源的 word2vec ，它能生成詞向量，通過該詞向量在一定程度上還可以用來度量詞與詞之間的相似性。word2vec采用的模型包含了連續詞袋模型（CBOW）和 Skip-Gram 模型，并通過神經網絡來訓練。

但這篇文章不深入講 word2vec 的內容，而是看看另外一種詞向量生成方式——基于典型相關分析的詞向量。

one-hot形式的詞向量

說到詞向量就必須先看詞向量的形式，一般有兩類，分別是 one-hot 形式和分布式形式。前面我們說過詞向量就是用來表示人類語言的一種數學化的方式，最簡單的向量方式即是 one-hot 形式。

它的處理方式簡單粗暴，一般就是統計詞庫包含的所有V個詞，然后將這V個詞固定好順序，然后每個詞就可以用一個V維的稀疏向量來表示，向量中只有在該詞出現的位置的元素才為1，其它元素全為0。比如下面這幾個詞，第一個元素為1的表示中國，第六個元素為1的表示美國，第五個元素為1的表示日本。

基于典型相關分析的詞向量

從中可以看到 one-hot 形式的維數通常會很大，因為詞數量一般在10W級別，這會導致訓練時難度大大增加，造成維數災難。另外這么多維只以順序信息并且只用1和0來表示單詞，很浪費空間。再一個是這種方式的任意兩個詞都是孤立的，沒法看出兩個詞之間的相似性。于是看看有沒有改進的方法。

分布式詞向量

鑒于 one-hot 形式詞向量的缺點，出現了另外一種詞向量表示方式——分布式詞向量(distributed word representation)。分布式詞向量則干脆直接用普通的向量來表示詞向量，而元素的值為任意實數，該向量的維數可以在事前確定，一般可以為50維或100維。這時的詞向量類似如下（這里假設用5維來表示）：

基于典型相關分析的詞向量

其中每個元素的具體數值則由訓練來確定。這樣一來就克服了在深度學習中可能的維度災難，而且充分利用了空間，如果使用適當的訓練方法訓練出來的詞向量還可以直接根據兩個詞之間的距離來計算相似性。

典型相關分析

典型相關分析主要用于分析兩組變量之間的關系，通過該方法能有效分析相關關系。

傳統簡單的分析方式是直接用協方差矩陣，比如我們有兩組變量基于典型相關分析的詞向量和，那么最原始的方法就是直接計算X和Y的協方差矩陣，矩陣有m*n個值。有了協方差矩陣就得到了兩兩變量之間的相關性，比如 ${c}_{ij}$ 就是變量 ${X}_{i}$ 和 ${Y}_{j}$ 的相關性。但這種方式存在缺點，只考慮了變量之間單個維度之間的相關性，于是可采用經典相關分析改進。

經典相關分析是分別在兩組變量中找出第一對線性組合，使他們具有最大相關性；接著再分別在兩組變量中找出第二對線性組合，使他們具有第二大的相關性，并且它們分別與本組內的第一線性組合不相關。以此類推找出其他線性組合。

該方法的思想與主成分分析的思想相似，而其本質就是從兩組變量中選取若干個有代表性的變量線性組合，用這些線性組合的相關性來表示原來兩組變量的相關性。

核心思想

基于典型相關分析的詞向量的核心思想，它認為一段文字中某個詞的左右兩邊指定長度的窗口內的詞組應該具有關聯，也就是說某個詞的左邊若干單詞組成上文，右邊若干單詞組成下文，從而應該讓上下文的關系盡可能緊密。如圖，假設窗口大小為2，則 w4 的左右兩窗口包含的詞組為上下文，類似的 w5 也有對應的上下文，每個詞都有一個對應的詞向量，那么要做的事就是最大化上下文兩個矩陣的協方差。

模型訓練

假設我們的語料包含了 n 個單詞，表示為{w1,w2,…wn}，我們的詞典大小為 v，窗口大小為 h，再設詞向量的維度為 k。單詞左右兩邊的上下文組成的矩陣我們分別定義為，基于典型相關分析的詞向量和，而整個語料的矩陣定義為。

現在我們要做的就是找出兩個分別能最好代表左邊窗口的矩陣 L 和右邊窗口矩陣 R 的方向 ${\Phi }_{l}$ 和 ${\Phi }_{r}$ ，這兩個方向應該使得這兩個矩陣分別在對應方向上的投影的協方差最大，投影可以看成是在這兩個方向保留了兩個窗口矩陣的最具代表性的信息。于是最大化目標可以表示為

基于典型相關分析的詞向量

其中 E 表示經驗期望，另外我們用 ${C}_{lr}$ 表示矩陣 L 和矩陣 R 的協方差矩陣，用 ${C}_{ll}$ 表示矩陣 L 和矩陣 L 之間的協方差矩陣，用 ${C}_{rr}$ 表示矩陣 R 和矩陣 R 之間的協方差矩陣，則有基于典型相關分析的詞向量

通過轉換，上述最大化目標的解可以由下面等式給出，

基于典型相關分析的詞向量

解上述方程，分別取得 k 個最大特征值的特征向量，組成左右窗口兩個方向向量 ${\Phi }_{L}{\Phi }_{R}$ ，它們的結構為(vh × k)。然后將左窗口矩陣 L 和右窗口矩陣 R 分別投影到兩個方向向量上，即基于典型相關分析的詞向量，得到單詞對應的隱狀態 S 矩陣，S 則是用 k 個最相關的成分來表示單詞。最后再對 S 和語料矩陣 W 做典型相關分析，即 CCA(S,W)，得到最終的詞向量嵌入矩陣，結構為(v × k)，此即為用 k 維向量表示原來的 v 個單詞，實現詞嵌入。

雷峰網特約稿件，未經授權禁止轉載。詳情見轉載須知。

7人收藏

不靈叔

編輯

發私信

當月熱門文章