TeleAI 完成首個全國產化萬卡萬參大模型訓練，并正式開源 TeleChat2-115B

本文作者：業界評論

2024-11-19 16:18

導語：TeleChat2-115B 的開源標志著國產大模型訓練真正實現全國產化替代，正式進入全國產自主創新、安全可控的新階段。

近日，中國電信人工智能研究院（TeleAI）成功完成國內首個基于全國產化萬卡集群訓練的萬億參數大模型（萬卡萬參），并正式對外開源首個基于全國產化萬卡集群和國產深度學習框架訓練的千億參數大模型——星辰語義大模型 TeleChat2-115B。

這是由中國電信集團 CTO、首席科學家、中國電信人工智能研究院（TeleAI）院長李學龍教授帶領團隊完成的又一項里程碑式的重要科研成果，標志著國產大模型訓練真正實現全國產化替代，正式進入全國產自主創新、安全可控的新階段。

TeleChat2-115B 基于中國電信自研的天翼云“息壤一體化智算服務平臺”和人工智能公司“星海 AI 平臺”訓練完成，在保證訓練精度的前提下利用多種優化手段提升模型訓練效率和穩定性，實現了 GPU 同等算力計算效率的 93% 以上，同時模型有效訓練時長占比達到 98% 以上。

TeleAI 完成首個全國產化萬卡萬參大模型訓練，并正式開源 TeleChat2-115B

TeleChat-52B在OpenCampass推理榜單排名第一

在今年5月的 OpenCampass 測試榜單中，TeleChat 系列模型的邏輯推理能力名列開源大模型榜單第一。作為新一代版本，TeleChat2-115B 在9月最新公布的 C-Eval 評測 Open Access 模型綜合榜單中，以 86.9 分的成績排名第一。其通用能力較 TeleChat 系列模型提升近 30%，特別是在工具使用、邏輯推理、數學計算、代碼生成和長文寫作等方面能力均有大幅提升。

TeleAI 完成首個全國產化萬卡萬參大模型訓練，并正式開源 TeleChat2-115B

TeleChat2-115B在C-Eval的Open Access模型綜合榜單排名第一

TeleChat2在模型訓練與數據構建方面的研究經驗

針對超大參數模型訓練，TeleAI 采用了大量小模型進行 Scaling，進而驗證不同模型結構的有效性。同時，在數據配比方面，基于小模型實驗結果反饋，采用回歸預測模型，得到較優數據配比。

基于以上策略，能夠大幅提升大參數模型最優方案的搜尋效率。另外，在后訓練退火階段，TeleAI 通過大量實驗驗證探索到了退火最佳數據量和最佳配比，以及學習率變化方式等，進一步提升了模型訓練效果。

在 Post-Training（后訓練）方面，TeleAI 首先針對數學、代碼和邏輯推理等內容合成了大量問答數據，用于 SFT（監督式微調）第一階段模型訓練。其次采用迭代式更新策略，使用模型對 Prompt（提示詞）數據進行指令復雜性提升與多樣性擴充，通過模型合成和人工標注提升答案質量，并利用拒絕采樣獲取優質 SFT 數據及 RM（獎勵模型）代表性數據，用于 SFT 訓練和 DPO（偏好對齊）訓練，以及模型效果迭代。

TeleAI自研語義大模型獲多項權威賽事第一名

連獲中國計算語言學大會（CCL2024）挑戰賽兩項冠軍：TeleAI 在 CCL2024 大會上獲得中文空間語義理解評測和古文歷史事件類型抽取評測兩項第一名。其中，在古文歷史事件類型抽取評測任務挑戰賽中，更是在所有子任務均取得第一名的情況下獲得了綜合排名第一。

NLPCC2024 中文議論文挖掘（Shared Task5）挑戰賽冠軍：TeleAI語義團隊基于上下文學習策略對大模型進行優化，通過利用從粗粒度到細粒度的 Prompt 設計、多模型的投票機制等手段，進一步提高了模型準確率和魯棒性，最終以領先第二名將近 3 分的絕對優勢排名第一。

開源共享，引領創新

TeleChat2-115B 的開源標志著大模型國產化邁進了又一個新征程。作為最早布局并首先開源大模型的央企機構，TeleAI 積極通過開源推動大模型技術的不斷進步，并持續推動和引領技術創新向產業落地快速躍遷。

開源地址：

l GitHub：https://github.com/Tele-AI/TeleChat2
l Gitee：https://gitee.com/Tele-AI/tele-chat2
l Modescope：https://modelscope.cn/models/TeleAI/TeleChat2-115B
l Modelers：https://modelers.cn/models/TeleAI/TeleChat2-115B

雷峰網雷峰網(公眾號：雷峰網)雷峰網

雷峰網特約稿件，未經授權禁止轉載。詳情見轉載須知。

0人收藏

業界評論

編輯

發私信

當月熱門文章