成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給聰聰
    發送

    0

    多模態語料庫 “書生·萬卷” 1.0發布,面向行業開源

    本文作者: 聰聰 2023-08-24 16:49
    導語:語料庫包含文本數據集、圖文數據集、視頻數據集三部分,數據總量超過2TB。

    國產大模型時代,高質量、開源、可信數據的重要性不言而喻,但它的稀缺性也是 AI 同行有目共睹的。

    為了改變這一現狀,OpenDataLab 聯合大模型語料數據聯盟構建了“書生·萬卷”數據集,旨在為學術界及產業界提供更符合主流中文價值對齊的高質量大模型多模態預訓練語料。雷峰網(公眾號:雷峰網)了解到,“書生·萬卷” 1.0 版本已經于8 月14日正式發布。

    書生·萬卷1.0 是書生·萬卷多模態語料庫的首個開源版本,包含文本數據集、圖文數據集、視頻數據集三部分,數據總量超過2TB?;诖竽P蛿祿撁藰嫿ǖ恼Z料庫,上海AI實驗室對其中部分數據進行細粒度清洗、去重以及價值對齊,形成了書生·萬卷1.0,具備多元融合、精細處理、價值對齊、易用高效等四大特征。

    多元融合方面,書生·萬卷1.0包含文本、圖文、視頻等多模態數據,范圍覆蓋科技、文學、媒體、教育、法律等多個領域,在訓練提升模型知識含量、邏輯推理和泛化能力方面具有顯著效果。

    精細處理方面,書生·萬卷1.0經歷了語言甄別、正文抽取、格式標準化、基于規則及模型的數據過濾與清洗、多尺度去重、數據質量評估等精細化數據處理環節,因而能更好地適配后續的模型訓練需求。

    價值對齊方面,研究人員在書生·萬卷1.0的構建過程中,著眼于內容與中文主流價值觀的對齊,通過算法與人工評估結合的方式,提升了語料的純凈度。

    易用高效方面,研究人員在書生·萬卷1.0采用統一格式,并提供詳細的字段說明和工具指導,使其兼顧了易用性和效率,可快速應用于語言、多模態等大模型訓練。

    目前,書生·萬卷1.0已被應用于書生·多模態、書生·浦語大模型的訓練。通過對高質量語料的“消化”,書生系列模型在語義理解、知識問答、視覺理解、視覺問答等各類生成式任務都表現出不錯的性能。

    據了解,書生·萬卷文本數據集1.0 由來自網頁、百科、書籍、專利、教材、考題等不同來源的清洗后預訓練語料組成,數據總量超過5億個文檔,數據大小超過1TB。該語料將html、text、pdf、epub等多種格式的數據統一處理為字段統一的jsonl格式,并經過細粒度的清洗、去重、價值對齊,從而形成一份安全可信、高質量的預訓練語料。


    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。

    多模態語料庫 “書生·萬卷” 1.0發布,面向行業開源

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說