機器學習問答數據集：這是保險領域首個開放的QA語料庫

本文作者： hain

編輯：金美琴

2017-08-10 15:20

導語：這是一個具有真正價值的語料。

保險行業語料庫

該語料庫包含從網站Insurance Library 收集的問題和答案。

據我們所知，這是保險領域首個開放的QA語料庫：

該語料庫的內容由現實世界的用戶提出，高質量的答案由具有深度領域知識的專業人士提供。所以這是一個具有真正價值的語料，而不是玩具。

在上述論文中，語料庫用于答復選擇任務。另一方面，這種語料庫的其他用法也是可能的。例如，通過閱讀理解答案，觀察學習等自主學習，使系統能夠最終拿出自己的看不見的問題的答案。

數據集分為兩個部分“問答語料”和“問答對語料”。問答語料是從原始英文數據翻譯過來，未經其他處理的。問答對語料是基于問答語料，又做了分詞和去標去停，添加label。所以，"問答對語料"可以直接對接機器學習任務。如果對于數據格式不滿意或者對分詞效果不滿意，可以直接對"問答語料"使用其他方法進行處理，獲得可以用于訓練模型的數據。

歡迎任何進一步增加此數據集的想法。

快速開始

語料地址

https://github.com/Samurais/insuranceqa-corpus-zh

在Python環境中，可以使用pip安裝

兼容py2, py3

pip install --upgrade insuranceqa_data

問答語料

	問題	答案	詞匯（英語）
訓練	12,889	21,325	107,889
驗證	2,000	3354	16,931
測試	2,000	3308	16,815

每條數據包括問題的中文，英文，答案的正例，答案的負例。案的正例至少1項，基本上在1-5條，都是正確答案。答案的負例有200條，負例根據問題使用檢索的方式建立，所以和問題是相關的，但卻不是正確答案。

{
"INDEX": {
"zh": "中文",
"en": "英文",
"domain": "保險種類",
"answers": [""] # 答案正例列表
"negatives": [""] # 答案負例列表
},
more ...
}

訓練：corpus/pool/train.json.gz

驗證：corpus/pool/valid.json.gz

測試：corpus/pool/test.json.gz

答案：corpus/pool/answers.json 一共有 27,413 個回答，數據格式為 json:

{
"INDEX": {
"zh": "中文",
"en": "英文"
},
more ...
}

中英文對照文件

問答對

格式 INDEX ++$++ 保險種類 ++$++ 中文 ++$++ 英文

corpus/pool/train.txt.gz, corpus/pool/valid.txt.gz, corpus/pool/test.txt.gz.

答案

格式 INDEX ++$++ 中文 ++$++ 英文

corpus/pool/answers.txt.gz

語料庫使用gzip進行壓縮以減小體積，可以使用zmore, zless, zcat, zgrep等命令訪問數據。

zmore pool/test.txt.gz

加載數據

import insuranceqa_data as insuranceqa
train_data = insuranceqa.load_pool_train()
test_data = insuranceqa.load_pool_test()
valid_data = insuranceqa.load_pool_valid()# valid_data, test_data and train_data share the same propertiesfor x in train_data: print('index %s value: %s ++$++ %s ++$++ %s' % \
(x, d[x]['zh'], d[x]['en'], d[x]['answers'], d[x]['negatives']))

answers_data = insuranceqa.load_pool_answers()for x in answers_data: print('index %s: %s ++$++ %s' % (x, d[x]['zh'], d[x]['en']))

問答對語料

使用"問答語料"，還需要做很多工作才能進入機器學習的模型，比如分詞，去停用詞，去標點符號，添加label標記。所以，在"問答語料"的基礎上，還可以繼續處理，但是在分詞等任務中，可以借助不同分詞工具，這點對于模型訓練而言是有影響的。為了使數據能快速可用，insuranceqa-corpus-zh提供了一個使用HanLP分詞和去標，去停，添加label的數據集，這個數據集完全是基于"問答語料"。

import insuranceqa_data as insuranceqa
train_data = insuranceqa.load_pairs_train()
test_data = insuranceqa.load_pairs_test()
valid_data = insuranceqa.load_pairs_valid()# valid_data, test_data and train_data share the same propertiesfor x in test_data: print('index %s value: %s ++$++ %s ++$++ %s' % \
(x['qid'], x['question'], x['utterance'], x['label']))

vocab_data = insuranceqa.load_pairs_vocab()
vocab_data['word2id']['UNKNOWN']
vocab_data['id2word'][0]
vocab_data['tf']
vocab_data['total']

vocab_data包含word2id(dict, 從word到id), id2word(dict, 從id到word),tf(dict, 詞頻統計)和total(單詞總數)。其中，未登錄詞的標識為UNKNOWN，未登錄詞的id為0。

train_data, test_data 和 valid_data 的數據格式一樣。qid 是問題Id，question 是問題，utterance 是回復，label 如果是 [1,0] 代表回復是正確答案，[0,1] 代表回復不是正確答案，所以 utterance 包含了正例和負例的數據。每個問題含有10個負例和1個正例。

train_data含有問題12,889條，數據 141779條，正例：負例 = 1:10 test_data含有問題2,000條，數據 22000條，正例：負例 = 1:10 valid_data含有問題2,000條，數據 22000條，正例：負例 = 1:10

句子長度:

max len of valid question : 31, average: 5(max)
max len of valid utterance: 878(max), average: 165(max)
max len of test question : 33, average: 5
max len of test utterance: 878, average: 161
max len of train question : 42(max), average: 5
max len of train utterance: 878, average: 162
vocab size: 24997

可將本語料庫和以下開源碼配合使用

DeepQA2: https://github.com/Samurais/DeepQA2

InsuranceQA TensorFlow: https://github.com/l11x0m7/InsuranceQA

Chatbot Retrieval: https://github.com/dennybritz/chatbot-retrieval