成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    芯片 正文
    發私信給劉伊倫
    發送

    0

    推理算力占AI應用70%成本權重,需求爆發下國產芯片如何定義性價比新基準?

    本文作者: 劉伊倫   2026-01-29 13:14
    導語:誰能持續降低推理成本,誰就掌握了AI產業的成本曲線。

    雷峰網(公眾號:雷峰網)消息,1月27日,國產GPU廠商曦望(Sunrise)正式發布新一代推理芯片“啟望S3”,并同步推出面向大模型推理的“寰望 SC3”超節點方案及推理云計劃。

    推理算力占AI應用70%成本權重,需求爆發下國產芯片如何定義性價比新基準?

    這一系列動作直指行業痛點。

    此前AI芯片廠商普遍陷入“拼峰值性能”的競爭怪圈,但不少行業人士指出,以超節點為例,產品存在明顯“規模甜點”效應:一旦超過性能閾值,提升幅度便會邊際遞減,盲目追求超大算力規模反而會造成GPU閑置率攀升、單位Token成本高企的問題。

    推理場景下,用戶需要的是“成本可控、性能適配、穩定可靠” 的算力。如何走出差異化的路線?

    “我們拋棄了傳統的訓推一體GPU為訓練準備的冗余設計,不追求峰值TFLOPS性能,而是把真實業務場景中的單個Token成本、能耗,以及SLA的穩定性,作為所有設計決策的根本出發點。”曦望董事長徐冰在發布會現場闡述到。

    為了達到這個標準,啟望S3作為面向大模型推理深度定制的GPGPU芯片,如何圍繞真實推理負載完成對算力結構、存儲體系與互聯方式的系統級重構?

    從“性能峰值”到“單位成本”,推理正在重新定義GPU設計目標

    推理算力的爆發式增長,已成為行業當下最核心的關注焦點。對此,曦望在發布會上,給出兩組數據:

    到2026年,推理算力在整體AI算力中的占比將達到66%,這并非遙遠的趨勢預判,而是正在發生的行業結構性變化,推理已從AI產業鏈的“配角”躍升為“主力”;

    當前推理成本在AI應用總支出中的占比已高達70%,直接決定著AI企業的盈利空間與商業化成敗。只有將推理成本從現有量級大幅壓低,實現階梯式下降,AI才能真正擺脫高成本束縛。

    “當推理成為主要算力消耗場景后,GPU的商業價值不再取決于參數指標,而是單位Token的真實成本。”曦望聯席CEO王勇表示。

    這一判斷,決定了啟望S3的設計方向。

    推理算力占AI應用70%成本權重,需求爆發下國產芯片如何定義性價比新基準?

    在算力層面,S3支持從FP16到FP4的多精度靈活切換,使模型在保證效果的前提下,最大化提升低精度推理效率。這種設計更貼合當前MoE和長上下文模型在推理階段的實際需求。

    在存儲層面,S3采用LPDDR6顯存方案,成為國內首款采用該方案的芯片。相比HBM路線,LPDDR6更強調容量與能效比。官方數據顯示,S3的顯存容量較上一代產品提升4倍,有效緩解了大模型推理中普遍存在的顯存駐留與訪存瓶頸。

    在DeepSeek V3 / R1滿血版等主流大模型推理場景中,S3單位Token推理成本較上一代產品下降約90%。曦望方面稱,這一指標已具備工程可復現性,而非單點實驗室數據。

    推理算力占AI應用70%成本權重,需求爆發下國產芯片如何定義性價比新基準?

    此外,曦望同步發布了面向大模型推理的寰望SC3超節點解決方案,該方案支持單域256卡一級互聯,可高效支撐PD分離架構與大EP規模化部署,顯著提升推理階段的系統利用率與穩定性,適配長上下文、多并發、多專家并行等復雜推理場景。

    在交付形態上,寰望SC3采用全液冷設計,具備極致PUE表現,并支持模塊化交付與快速部署。在同等推理能力量級下,該方案可將整體系統交付成本從行業常見的億元級,降低至千萬元級,實現一個數量級的下降。

    推理算力占AI應用70%成本權重,需求爆發下國產芯片如何定義性價比新基準?

    在軟件層面,曦望構建了與CUDA兼容的基礎軟件體系,覆蓋驅動、運行時API、開發工具鏈、算子庫和通信庫,降低推理應用的遷移門檻。目前,該體系已適配ModelScope平臺 90% 以上主流大模型形態,包括DeepSeek、通義千問等。

    推理算力占AI應用70%成本權重,需求爆發下國產芯片如何定義性價比新基準?

    推理算力如何更好用?云平臺打通落地的“最后一公里”

    S3回答了推理性價比的命題,但對于大部分用戶而言,其對算力需求的產品形態應為云上算力資源,而非裸金屬資源。

    讓推理算力更好用,不應止步于造出芯片。為此,曦望與商湯科技、第四范式等生態伙伴探索的推理云平臺。

    推理算力占AI應用70%成本權重,需求爆發下國產芯片如何定義性價比新基準?

    通過GPU池化與彈性調度,曦望將底層算力整合為統一的推理算力池,并以MaaS作為核心入口,使企業無需關注底層硬件配置與集群運維,即可按需調用大模型推理能力。

    這一體系也成為“百萬Token 一分錢”推理成本的重要技術基礎。

    “推理時代的核心不是把芯片賣出去,而是能否持續、穩定地把算力轉化為可交付的生產力。誰能持續降低推理成本,誰就掌握了AI產業的成本曲線。”曦望董事長徐冰表示。

    據披露,曦望2025年推理GPU芯片交付量已突破1萬片,標志著其推理GPU路線完成從工程驗證到規模化交付的關鍵跨越。

    中國工程院院士、浙江大學信息學部主任吳漢明也指出,推理算力價值的實現離不開協同,需要芯片設計、系統集成、軟件開發到產業應用的全鏈條協作。

    在國產GPU行業從“拼參數”走向“拼單位經濟成本”的拐點上,曦望選擇以推理為切口,嘗試重構 GPU 的產品形態與算力交付方式。All-in推理的實踐,正在成為觀察中國推理算力商業化進程的重要樣本。

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說