手把手教你用 TensorFlow 實現(xiàn)文本分類（上）

本文作者： AI研習社

2017-05-28 10:20

導(dǎo)語：文本分類全流程解析。

雷鋒網(wǎng)按：本文作者張慶恒，原文載于作者個人博客，雷鋒網(wǎng)已獲授權(quán)。

由于需要學(xué)習語音識別，期間接觸了深度學(xué)習的算法。利用空閑時間，想用神經(jīng)網(wǎng)絡(luò)做一個文本分類的應(yīng)用，目的是從頭到尾完成一次機器學(xué)習的應(yīng)用，學(xué)習模型的優(yōu)化方法，同時學(xué)會使用主流的深度學(xué)習框架（這里選擇tensorflow）。

文章分為兩部分，本文僅實現(xiàn)流程，用簡單的softmax回歸對文本進行分類，后面一篇文章再從流程的各個方面對模型進行優(yōu)化，達到比較好的效果。

收集數(shù)據(jù)

該部分不是這里的重點，數(shù)據(jù)從各大新聞網(wǎng)站爬取新聞文本，分十類保存到本地，包括科技、生活、體育、娛樂等。文本分別保存到training_set和testing_set目錄下，如：

$ tree -L 1 training_set/
training_set/
├── 10_hel
├── 1_ent
├── 2_fin
├── 3_spo
├── 4_tec
├── 5_mil
├── 6_soc
├── 7_lif
├── 8_cul
└── 9_car

文本以text_id.txt的格式保存在不同類的目錄下（如text_1234.txt）。本例保存了共113673個訓(xùn)練文本和等數(shù)量的測試文本（暫時按1:1的比例）。

預(yù)處理文本

step0

為方便后面處理，預(yù)處理文本首先要分別針對訓(xùn)練文本和測試文本生成唯一的文本ID, 這里用 {class_id}{text_type}{text_id}.txt 來標示唯一文本，class_id為類的id，這里為1-10；text_type為數(shù)據(jù)類型包括train和test；text_id為類文件夾下的文本id，實現(xiàn)函數(shù)：

def get_unique_id(self, data_dir):
"""
get flie unique id famate as {class_id}_type_{text_id}.txt.
data_dir is the full path of file
e.g ./training_set/4_tec/4_tec_text/text_2001.txt
where "training" is type, "4" is file class, and "2001" is text id.
modify this function to adapt your data dir fomate
"""

dir_list = data_dir.split("/")
class_id = dir_list[2].split("_")[0]
text_id = dir_list[4].split(".")[0]
type_id = dir_list[1].split("_")[0]
return class_id + "_" + type_id + "_" + text_id

step1: 分詞

通俗來講，文本分類的主要思想，是構(gòu)建各類文本的漢語詞典，通過對文本進行分析，觀察文本中哪類詞匯比較多，由此判斷文本所屬類別。因此，文本分類需要對文本進行分詞操作，可以選擇的分詞工具很多，這里選擇Python編寫的jieba開源庫對文本進行分詞，并以行為單位，將文本保存到輸出文件，該部分實現(xiàn)比較簡單：

def splitwords(self, data_dir, data_type):

if os.path.exists(data_type+".txt"):
os.remove(data_type+".txt")

list_dirs = os.walk(data_dir)
for root, _, files in list_dirs:
print root
# get all files under data_dir
for fp in files:
file_path = os.path.join(root, fp)
file_id = self.get_unique_id(file_path)
#split words for f, save in file ./data_type.txt
with nested(open(file_path), open(data_type+".txt", "a+")) as (f1, f2):
data = f1.read()
#print data
seg_list = jieba.cut(data, cut_all=False)
f2.write(file_id + " " + " ".join(seg_list).replace("\n", " ")+"\n")

print "split word for %s file end." % data_type
return

函數(shù)傳入?yún)?shù)為數(shù)據(jù)集目錄路徑，以及數(shù)據(jù)集類型（train or test）。結(jié)果文件保存形如train.txt，后續(xù)的操作在該輸出文件基礎(chǔ)之上。輸出文件格式為:<class_{data_type}_id> < words >

step2: 去除停用詞

這部分主要刪去文本中的停用詞，停用詞包括一些對于文本分類無用，而且出經(jīng)常出現(xiàn)的詞匯或符號，如“因此”、“關(guān)于”、“嘿嘿”、標點符號等。去除停用詞需根據(jù)停用詞典，去除上面經(jīng)過分詞操作的文本中的停用詞。停用詞典可以根據(jù)自己需要生成或在網(wǎng)絡(luò)上獲得，這里后面源碼鏈接中會給出使用的停用詞詞典。

def rm_stopwords(self, file_path, word_dict):

#read stop word dict and save in stop_dict
stop_dict = {}
with open(word_dict) as d:
for word in d:
stop_dict[word.strip("\n")] = 1

# remove tmp file if exists
if os.path.exists(file_path+".tmp"):
os.remove(file_path+".tmp")

print "now remove stop words in %s." % file_path
# read source file and rm stop word for each line.
with nested(open(file_path), open(file_path+".tmp", "a+")) as (f1, f2):
for line in f1:
tmp_list = [] # save words not in stop dict
words = line.split()
for word in words[1:]:
if word not in stop_dict:
tmp_list.append(word)
words_without_stop = " ".join(tmp_list)
f2.write(words[0] + " " + words_without_stop + "\n")

# overwrite origin file with file been removed stop words
shutil.move(file_path+".tmp", file_path)
print "stop words in %s has been removed." % file_path
return

代碼中經(jīng)過簡單的按行讀文本，然后搜索停用詞典，如果文本中的詞匯在詞典中，則跳過，否則保存。這里每行對應(yīng)數(shù)據(jù)集中的一個文本。

step3: 生成詞典

上面提到文本分類需要得到能表征各類文本的漢語詞典，這部分的主要思路是實現(xiàn)tf_idf算法自動提取關(guān)鍵詞，根據(jù)詞頻（TF）和逆文檔頻率（IDF）來衡量詞匯在文章中的重要程度。這里詞頻的計算采用公式：

手把手教你用 TensorFlow 實現(xiàn)文本分類（上）

由于是衡量某類文本的關(guān)鍵詞，公式中的“文章”為某類所有文本的總和。逆文檔頻率計算采用公式：

手把手教你用 TensorFlow 實現(xiàn)文本分類（上）

上面的文檔總數(shù)為train數(shù)據(jù)集所有文本的數(shù)目。tf-idf為兩個指標的乘積，計算各類文本中所有詞匯的tf-idf，由小到大排序，默認取前500個詞匯作為該類的關(guān)鍵詞保存到詞典。最終生成大小為5000的詞典。簡潔考慮，該部分的關(guān)鍵代碼（gen_dict方法中）：

for k, text_info in class_dict.items():
#print "class %s has %d words" % (k, text_info.file_num)
# get tf in words of class k
for w in text_info.wordmap:
text_info.tf_idf(w, word_in_files[w], text_num)

main_words = []
with open(save_path, "a+") as f:
main_words = text_info.get_mainwords()
print "class %s : main words num: %d" % (k, len(main_words))
f.write("\n".join(main_words) + "\n")

class_dict是類id到該類文本信息(text_info)的字典，text_info.wordmap保存了該類文本的所有不重復(fù)的詞匯，text_info.tf_idf方法計算該類文本某詞的tf-idf，輸入?yún)?shù)為詞匯，詞匯在整個語料庫出現(xiàn)的文本數(shù)和語料庫的文本數(shù)。text_info.get_mainwords方法得到該類本前500個關(guān)鍵詞。完整的定義與實現(xiàn)參考源碼。

step4: 生成詞袋

該部分實現(xiàn)向量化文本，利用生成的詞典，以行為單位將去停用詞后的文本轉(zhuǎn)換為向量，這里向量為5000維。如果文本出現(xiàn)詞典中的某詞匯，則文本向量對應(yīng)詞典中該詞匯的位置的計數(shù)累加。最終生成文件，行數(shù)為文本數(shù)，列為5000。此外生成對應(yīng)的label文件，行數(shù)為文本數(shù)，對應(yīng)于文本向量文件行，列為1，對應(yīng)某文本的類別（1-10）。該部分代碼比較簡單，實現(xiàn)在gen_wordbag方法中。

到此完成了文本的預(yù)處理，接下來針對不同分類算法，將有不同的處理，這里參考tensotflow處理MNIST數(shù)據(jù)集，讀取預(yù)處理后的文本到系統(tǒng)，進行線性回歸。

讀取訓(xùn)練數(shù)據(jù)

該部分主要包括兩部分，一是從磁盤讀取向量化后的文本保存到numpy數(shù)組，將數(shù)據(jù)和類別分別存儲，數(shù)據(jù)保存為二維(text_line_num, 5000)的數(shù)組，text_line_num為數(shù)據(jù)集的文本數(shù)，5000為詞典的維度，也是后面模型輸入?yún)?shù)的個數(shù)。類別保存為標簽向量(label_line_num, 1)，label_line_num,同樣為數(shù)據(jù)集的大小。

為方便處理，將類別10的標簽保存為0，并對label進行“one_hot”處理，這部分解釋可參考上個tensotflow鏈接。該部分在datasets類中實現(xiàn)。需要注意的是這里train部分數(shù)據(jù)最為cv（cross validation）數(shù)據(jù)，這里暫時不會用到。此外，由于數(shù)據(jù)較多，為節(jié)省內(nèi)存，提高整體運算速度，分別讀取train數(shù)據(jù)集和test數(shù)據(jù)集。dataset類中保存不同類型的數(shù)據(jù)集，并實現(xiàn)next_batch方法，獲取指定數(shù)目的數(shù)據(jù)。

訓(xùn)練數(shù)據(jù)

該部分利用softmax回歸對數(shù)據(jù)進行訓(xùn)練，對于tensorflow的使用這里不作介紹。完整代碼如下：

#!/usr/bin/python
#-*-coding:utf-8-*-

import tensorflow as tf
from datasets import datasets

data_sets = datasets()
data_sets.read_train_data(".", True)

sess = tf.InteractiveSession()

x = tf.placeholder(tf.float32, [None, 5000])
W = tf.Variable(tf.zeros([5000, 10]))
b = tf.Variable(tf.zeros([10]))
y = tf.nn.softmax(tf.matmul(x, W) + b)

y_ = tf.placeholder(tf.float32, [None, 10])
cross_entropy = -tf.reduce_sum(y_ * tf.log(y + 1e-10))
train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)

#training
tf.global_variables_initializer().run()

saver = tf.train.Saver()
for i in range(1000):
batch_xs, batch_ys = data_sets.train.next_batch(100)
train_step.run({x: batch_xs, y_: batch_ys})

print W.eval()
print b.eval()

path = saver.save(sess, "./model2/model.md")

代碼中：

● x ：對于輸入數(shù)據(jù)，None占位符標示輸入樣本的數(shù)量，5000為單個樣本的輸入維度，對應(yīng)字典維度。

● W ：權(quán)重矩陣，行為輸入維度，列為輸出維度，這里為類別的數(shù)目10。

● b : 偏重為10對應(yīng)輸出的維度

● y : 定義訓(xùn)練輸出結(jié)果，使用softmax作為激勵函數(shù)，tf.matmul(x, W) + b為輸入?yún)?shù)，tf.matmul為矩陣乘。

● y_ : 真實樣本的類別，從數(shù)據(jù)集讀入，None占位符標示輸入樣本的數(shù)量，10為輸出的維度。

● cross_entropy：交叉熵，衡量真實值與預(yù)測值的偏差程度，訓(xùn)練過程中目的是最小化該值。

訓(xùn)練對cross_entropy進行梯度下降算法更新參數(shù)，學(xué)習率為0.01。迭代1000次，每次使用100個訓(xùn)練集。最后保存訓(xùn)練的模型到指定目錄。

測試模型

這部分主要讀取上面保存的模型參數(shù)，對測試數(shù)據(jù)集進行預(yù)測，并打印準確率。

!/usr/bin/python
#-*-coding:utf-8-*-

import tensorflow as tf
from datasets import datasets

data_sets = datasets()
data_sets.read_test_data(".", True)

sess = tf.InteractiveSession()

x = tf.placeholder(tf.float32, [None, 5000])
W = tf.Variable(tf.zeros([5000, 10]))
b = tf.Variable(tf.zeros([10]))
y = tf.nn.softmax(tf.matmul(x, W) + b)
y_ = tf.placeholder(tf.float32, [None, 10])

saver = tf.train.Saver()
saver.restore(sess, "./model2/model.md")

# test
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
acc = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
print(acc.eval({x: data_sets.test.text, y_: data_sets.test.label}))