成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給劉路遙
    發送

    0

    多模態AI技術「涌現」,AI公司的「新機會」

    本文作者: 劉路遙 2023-04-19 14:20
    導語:多模態成為趨勢,但距離進入產業還有幾道彎?

    ChatGPT-4的橫空出世,讓AI行業再一次柳暗花明。

    某AI企業人士如此評價GPT-4的進步:“GPT-3或3.5像一個六年級學生,而GPT-4像一個聰明的十年級學生。”

    即將畢業的小學生與新晉高中生的思維差距,既體現在涉獵知識的廣度上,也體現在獨立思考的深度上。

    GPT-4為代表的AI智力上的提升,直觀表現為,從實現單調的文本交互,轉變為可以接受圖像、文本作為輸入,并表現出更人性化的交互能力。

    這種處理多種類型信息的能力,被稱為“多模態”技術。

    接下來,掌握了多模態AI技術秘鑰的公司,將可以進一步拓展下游新興領域,改變傳統AI定制化的特點,向通用化方向發展。

    整個產業也將在更加多樣化的場景應用,以及產業鏈條的進一步集成融合中,迎來規模化的升級。

    從簡單的人臉識別、文字語音識別,上升到理解人的行為意圖,像人一樣懂得察言觀色,以人類復雜性作為參考的人工智能與人類的差距之一,就是多模態信息的智能化理解。

    如果說,人工智能的終極目的是讓AI基于對環境的感知采取合理行動,從而幫助人類獲得最大收益;那么,在更多復雜場景對 AI 技術的應用效果提出更高要求的當下,多模態儼然成為 AI 產業突圍的重點方向。

    AI的未來范式:多模態

    多模態并非新概念,早在2018年,“多模態”作為AI未來的一個發展方向,已開始成為業界研究的重點。

    什么叫“多模態”?

    “模態”一詞最早是一個生物學概念,以人類為例,觸覺,聽覺,視覺,嗅覺、味覺,都是一種模態。從人工智能和計算機視覺的角度來說,模態就是感官數據。

    簡單理解,多模態AI=多種數據類型+多種智能處理算法。

    以往單模態、單任務的人工智能技術,局限于 AI 模型與數據之間的交互,通過讓AI學習互聯網上的海量文本、圖片等不同模態的數據,尋找其內在規律,但在算力、數據資源的限制下,僅依賴互聯網上數據學習很大可能會達到瓶頸。

    多模態AI技術,為AI能力的提升,提供了一個解法,即讓人工智能自主學習并不斷迭代新的知識。

    之所以能做到這一點,是因為多模態AI技術,是一種交互式的 AI 技術,突破了以往單一的模型與數據的交互,可以實現模型與模型、模型與人類、模型與環境等多種交互。

    舉例來說,現在很火的AIGC,可以通過文本生成圖像甚至視頻,就是多模態AI的一個典型應用。

    但多模態AI的想象力,遠不止于此。

    從技術的創新上來看,模態不僅包括最常見的圖像、文本、視頻、音頻數據,還包括無線電信息、光電傳感器、壓觸傳感器等更多可能性。

    不同模態都有各自擅長的事情,這些數據之間的有效融合,不僅可以實現比單個模態更好的效果,還可以做到單個模態無法完成的事情。

    多模態AI的設計和應用體現一個詞:以人為中心。

    當AI同時處理多個模態的數據時,其感知方式會更貼近人類,從而讓機器更加全面、準確地理解人類的真實指令和意圖,比如能夠理解人類交流中細微差別的系統,具有高度關懷感和真實感的虛擬助手等,實現的是一種高度自然的人機交互和協同。

    雖然AI在多模態方面取得了突破,但這種技術及其應用還不成熟,由多模態AI帶來的產業規模升級,還面臨重重阻礙。

    多模態AI的兩大挑戰:技術、產業鏈

    多模態AI探索的是人類行動和感知背后的關系,其蘊含的想象力與應用潛能毋庸置疑。

    但圍繞搜索和生成兩項基本任務,多模態AI的訓練還存在諸多難點,如多模態數據的收集、新的模型和架構的搭建、高效的數據融合等問題。

    首先,多模態的數據收集、對齊和標注,復雜且不易完成。

    一方面,優質的多模態數據規模還不夠大;另一方面,在具體的業務場景中,很難同時滿足所有的模態數據的收集。

    共達地對雷峰網(公眾號:雷峰網)表示:“視覺(圖像/視頻)和文本的數據可以根據語義描述來對齊,但需要經過精心的標注。同樣,其它模態的對齊也面臨類似的問題,需要考慮如何對齊。”

    其次,不同模態具有不同的數據特性,多模態AI的訓練,需要根據不同模態的特性,開發新的模型和架構。

    構建統一、跨場景、多任務的多模態基礎預訓練模型,包含兩個問題:

    如何在統一的預訓練模型中,處理視覺 (圖片、視頻、3D 圖像) 三種模態的輸入, 并將其映射到統一的特征空間的問題。 


    如何采用統一的模型和訓練框架,分別訓練文本、圖像、語音的預訓練模型的問題。

    此外,開發能夠大幅降低AI模型訓練門檻,簡化部署流程,讓不具備AI專業知識的人員也能生產算法的平臺也十分重要。

    再者,讓不同模態的數據有效融合以指導決策,也并非易事。

    大模型中有非常多隱性的知識,對這些知識的優化、迭代是一大挑戰。

    多模態AI需要處理的數據和參數十分海量,如何利用并行計算和分布式計算等技術來提高計算效率,也是多模態人工智能技術需要解決的難點之一。

    此外,中科搖櫓船認為,“如何在多模態AI的下游任務中進行自監督學習也是一大難點。”

    也就是說,如何通過構建自監督的任務,提高多模態模型的表征能力,緩解缺少大規模監督數據的挑戰。

    多模態AI最終是為了實現高質量的內容生成,背后需要參數規模巨大的模型以及海量數據集作為支撐。AIoT場景下,AI應用對于端云互動有著更強的需求。

    這意味著,在硬件和芯片上,也提出了更高的要求。

    硬件方面,由于要匯聚多種數據分析,行業對前端硬件種類和數量的需求會更大,如視覺、聲音等不同模態的數據,都需要不同的設備去采集。

    芯片方面,相比于單模態,多模態需要的是龐大的“人工智能算力網絡”,單純的語音芯片、視覺芯片等已很難滿足多模態AI算法的需求。

    云天勵飛對雷峰網表示,從支持大規模并行計算的角度出發,芯片要能夠同時處理多個任務和數據流,計算效率和本地存儲能力需要進一步提升;從支持多模態AI長時間運行的角度出發,芯片還要能夠維持較低的功耗,如通過提高單芯片計算能力,降低系統的復雜度和總成本。

    目前,transformer是處理多模態比較常用的技術,共達地李思晉也認為,“當前的芯片,transformer的計算并不高效,如果沒有專用的硬件,或者為transformer定制開發,其計算效率比其它模型結構可能慢一個數量級。”

    AI公司如何尋找商業化的落腳點?

    經過模型參數與數據規模的比拼階段后,搭載在攝像頭、邊緣計算盒子、機器人等智能設備中的多模態AI正走向場景應用。

    目前已知的是,多模態AI首先在計算機視覺和自然語言處理等領域獲得驗證。

    OpenAI 的 DALL-E模型,可以從文本描述中生成對應圖像;谷歌的多任務統一模型MUM,可以做到從 75 種不同語言中挖掘上下文信息來提高搜索體驗;英偉達的GauGAN2 模型,可以根據簡單的文本輸入生成照片般逼真的圖像。

    多模態大模型時代,AI應用也正走向產業縱深處。

    工業場景中,運用多模態的智能化管理系統,正在走進工廠和車間。

    以中科搖櫓船的AGV調度管理系統為例,通過將雷達圖像處理、視覺圖像處理等圖像處理技術集成在同一產品中,可以輕松完成車輛、交通、調度、運行、叫料、通信、統計等管理工作。相比于人力,這種智能化的管理,更能滿足當下制造業客戶的柔性定制需求。

    在城市治理場景中,多模態AI技術可以運用在巡檢機器人上。當前的巡檢機器人可以通過“眼睛”識別占道經營、垃圾桶滿溢等問題,并對相關情況進行提醒,但大多沒有“耳朵”。

    相關研究表明,人類獲取的信息中的25%,都是通過聽覺實現的。對于巡檢機器人來說,沒有耳朵,意味著難以監測到環境中的異常響動。

    云天勵飛表示,未來將研發下一代高效多模信息感知引擎,在原有的視頻結構化技術基礎上結合三維場景信息、音頻信息等其他模態信息,提升傳感器信息流中語義和非語義信息的結構化密度,從而為相關產品及服務在更多應用場景的落地提供算法技術支持。

    但客觀來看,在視覺和聽覺之外,能夠商業化落地的多模態技術還很少,大多處于研究階段。

    多模態AI之路不好走,高度智能的人機交互道阻且長,主要表現為:

    一、 AI 的理解和執行還不夠可控、可信賴、可復制。

    比如,多樣化風險和AI偏見風險,當數據不具有廣泛代表性時,算法就會出現偏差,偏差的不斷被放大,(后果)

    二、算法開發成本較高,產品不具性價比,市場和客戶不愿意買單。

    多模態AI的應用落地,需要大量專業的研究人員,包括算法架構師或AI開發者,也包括產業專家。而這兩類專家關注點的相對獨立,又往往進一步增加研發和落地過程中的成本。

    此外,多模態AI的應用需要不同類型的數據、知識、產品等,其落地需要產業鏈整體加強協作和溝通,從核心的AI芯片,到物聯網硬件,再到軟件算法開發,時間周期長,需要協調各方利益。

    三、業務場景較少,且業務場景的定義還不夠清晰。

    多模態AI產品和方案,需要根據實際需求針對性開發,什么場景需要使用哪幾個模態,以及從成本和收益上來看,是否有商業價值,都需要進行前置考慮。

    AI能力想要進入實體產業,尤其是工業屬性相對較強的產業,需要從方方面面的復雜細節中進入,而答案都掌握在Know-How手中。

    “與行業領域具備know-how的公司進行合作,降低場景驗證的成本,是AI公司的機會點。”李思晉表示。

    多模態技術是個硬骨頭,更加類人的智能需要AI公司投入大量的研發;其背后需要的大模型和海量數據,同時對產業鏈上的硬件和芯片廠商提出了更高的要求;業務場景的探索尚處迷霧之中;市場的接受度也還不盡人意。

    但從好的一面看,無論是最近大火的AIGC,還是在國內默默壯大的多模態人工智能產業聯合體,都說明AI將不斷朝著多模態方向發展,以更為廣泛的感知能力,進一步向產業落地。

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    多模態AI技術「涌現」,AI公司的「新機會」

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說