騰訊獲國際信息檢索領域國際權威比賽兩項冠軍，展示AI大模型技術實力

本文作者：愷歌

2023-03-14 12:32

導語：奪冠團隊的成果均基于騰訊混元AI大模型和太極機器學習平臺實現。

近日，信息檢索領域國際頂級學術會議WSDM（Web Search and Data Mining）宣布了WSDM CUP 2023競賽成績，來自騰訊的研究團隊基于大模型預訓練、搜索排序以及集成學習等技術上的突破，在無偏排序學習和互聯網搜索預訓練模型賽道上的兩項任務中獲得冠軍，體現了在該領域的領先技術實力。

ACM WSDM（Web Search and Data Mining）會議是信息檢索領域頂級會議之一，由SIGIR、SIGKDD、SIGMOD和SIGWEB四個專委會協調籌辦，在互聯網搜索、數據挖掘領域享有較高學術聲譽。第16 屆 ACM 國際 WSDM 會議于 2023 年 2 月 27 日至 3 月 3 日在新加坡舉行，論文的接收率為17.8%。

WSDM Cup由 WSDM 會議舉辦，本屆 WSDM Cup 共計400余支隊伍參加，分別來自中國、美國、新加坡、日本、印度等國家的知名高校和公司，大賽共設置三個賽道：無偏排序學習和互聯網搜索預訓練模型賽道（Unbiased Learning to Rank and Pre-training for Web Search）、跨語言連續體的多語言信息檢索賽道（Multilingual Information Retrieval Across a Continuum of Languages）和視覺問答挑戰賽道（Visual Question Answering Challenge）。

此次騰訊「參賽隊名：騰訊機器學習平臺部搜索團隊（TMLPS）」參加了無偏排序學習和互聯網搜索預訓練模型賽道，并在該賽道的兩項子任務中（Pre-training for Web Search和Unbiased Learning to Rank）獲得冠軍。

目前兩項成果代碼和論文均已發布到Github上（見：GitHub - lixsh6/Tencent_wsdm_cup2023）

在深度學習領域，數據標注的質量對于模型的效果有著較為顯著的影響，但是較高的標注數據成本一直是研究團隊的阻礙之一，如何從技術上利用無標注的數據訓練模型自然成為了成為學術界和工業界關注的熱點。

騰訊獲國際信息檢索領域國際權威比賽兩項冠軍，展示AI大模型技術實力

論文：Multi-Feature Integration for Perception-Dependent Examination-Bias Estimation

地址：https://arxiv.org/pdf/2302.13756.pdf

騰訊獲國際信息檢索領域國際權威比賽兩項冠軍，展示AI大模型技術實力

本次比賽，針對基于搜索的預訓練任務（Pre-training for Web Search），騰訊團隊通過大模型訓練、用戶行為特征去噪等方法，在點擊日志上進行基于搜索排序的模型預訓練，進而使模型有效地應用到下游相關性排序的檢索任務。通過預訓練、模型微調、集成學習等多方面的優化，在人工標注的相關性排序任務上取得了較大的領先優勢

騰訊獲國際信息檢索領域國際權威比賽兩項冠軍，展示AI大模型技術實力

論文：Pretraining De-Biased Language Model with Large-scale Click Logs for Document Ranking

地址：https://arxiv.org/pdf/2302.13498.pdf

在本次比賽的另一賽道無偏排序學習任務（Unbiased Learning to Rank）中，團隊通過深入挖掘點擊日志信息，充分利用包括文檔媒體類型、文檔展示高度和點擊后的滑屏次數等特征對文檔相關性進行無偏估計，提出了一種能夠集成多種偏置因素的多特征集成模型，有效地提升了搜索引擎中文檔排序的效果。

據了解，奪冠團隊的成果均基于騰訊混元AI大模型（下文簡稱“HunYuan”）和太極機器學習平臺實現。目前，通過聯合微信搜索團隊，兩項技術已經在微信搜一搜的多個場景落地相關技術，并取得了顯著的效果提升。

AI大模型（又稱預訓練模型）是指預先訓練好，具有相對通用性的“一套算法”，具有“巨量數據、巨量算力、巨量模型”等特性。大模型通過學習樣本數據的內在規律和表達層次，發展出接近、超越人類水平的“智能”，具備分析推理能力，能夠識別文字、圖像和聲音等。

2022年4月，騰訊首次對外披露HunYuan大模型研發進展。HunYuan集CV（計算機視覺）、NLP（自然語言理解）、多模態理解能力于一體，先后在MSR-VTT、MSVD等五大權威數據集榜單中登頂，實現跨模態領域的大滿貫。2022年5月，更是在國際公認的CLUE（中文語言理解評測集合）三個榜單同時登頂，一舉打破三項紀錄。近日，HunYuan又迎來全新進展，推出國內首個低成本、可落地的NLP萬億大模型，并再次登頂CLUE。

騰訊太極機器學習平臺是集模型訓練和在線推理于一身的高性能機器學習平臺，具備萬億參數模型的訓練和推理能力，為AI大模型預訓練推理和應用落地提供了完整的端到端工程能力支撐，一站式解決算法工程師在 AI 應用過程中特征處理、模型訓練、模型服務等工程問題。

騰訊長期致力于前沿搜索技術的研究，通過改進搜索算法，提升用戶搜索體驗，相關技術團隊在檢索預訓練、大模型訓練、搜索排序任務目標函數設計等方面的具有豐富的實踐經驗，研究成果多次在國際競賽和學術會議中取得領先成績，并廣泛應用于微信搜索、騰訊廣告、游戲等多個業務場景。

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

愷歌

編輯

發私信

當月熱門文章