當前具身智能系統中多個關鍵技術正在快速發展 與融合,支撐智能系統實現像人類一樣的認知閉環,這 些技術主要包括具身大模型、世界模型、具身記憶、行為預測與自主學習等。
近年來,具身大模型因其可以端到端地在復雜真 實環境中通過感知信息來進行對應的決策行動而備受 關注。與傳統的人工智能系統不同,具身大模型集成 了多種感官模態,如視覺、語言和音頻等,使得智能體 能夠感知并與物理環境進行互動。近年來,隨著大語 言模型(large language model,LLM)與多模態感知系統 的發展,促使了一系列例如 RT-2! 、OpenVLA¹²)、π .1³、 Gemini Robotics 等新型具身大模型的開發。這些研 究聚焦于具身大模型的數據集、多模態對齊融合等方 向,使模型能夠同時處理多模態輸入,并輸出與物理世界的交互動作。
此外,備受關注的還有世界模型研究領域。當前 的研究核心是理解與建模變化中的世界,并對變化世 界的下一時刻狀態進行預測,主要側重于兩個方面:構 建內部表征以理解世界并預測未來狀態以模擬和指導 決策。2022年,Yann LeCun¹5提出了一種聯合嵌入預 測架構,它由一個處理感官數據的感知模塊和評估這 些信息的認知模塊組成。Z近的研究也結合大語言模 型、視覺模型等方法捕捉包括空間與時間知識,或是在 模型內部嵌入類腦結構16,這使得模型可以根據先前 的經驗學習預測未來事件。總體來看,世界模型的研 究仍處于起步階段,不同研究從各自角度提出技術方 案,尚未形成統一范式,仍在不斷演化與迭代之中,未 來還有很大的發展空間。
具身記憶領域模仿人腦的記憶機制,存儲與環境 交互過程中積累的經驗、場景特征、任務狀態等。它不 僅記錄“做過什么”,更記錄“在哪種情境下做過什么”, 支持決策模塊在未來情境中快速匹配已有經驗。當前 具身記憶系統多通過顯式的多層J圖結構17-18或隱式 的 Transformer架構19來實現,研究熱點集中于記憶檢 索、跨模態統一表示以及記憶與策略學習的協同機制 等方向,例如,OpenAI 在引入了外部“長期記憶”機制[20, 為大語言模型提供跨會話的記憶能力;Meta AI于 2024年提出的V-JEPA 架構21則采用時空遮蔽策略, 在抽象表示空間內預測視頻中的被遮擋內容,有助于 捕捉高J概念信息。
行為預測領域關注通過對歷史及實時數據的分 析,預判自身或其他實體的未來動作軌跡,從而解決物 理環境中的動態不確定性。近年來,行為預測技術已 從簡單的軌跡推演擴展至復雜場景的動態建模。當前 研究聚焦于如何通過高效的序列建模22、潛變量學 習 1 2等技術,使智能體具備類人的預判能力,為智能體 提供前瞻性決策依據。
自主學習領域通過智能體與環境的動態交互實現 策略優化和能力演進,其核心包括強化學習、主動學 習、終身學習、邏輯推理、進化算法等技術。其中,強 化學習作為核心范式,驅動智能體在試錯中優化決策 策略,通過“狀態—動作—獎勵”的交互機制優化智能 體的決策與行動策略,使其能自主學習復雜任務241。 而主動學習也可以通過少量數據標注,引導視覺模型達到更好的訓練效果,提升智能體的感知能力²5。
綜上所述,盡管當前具身智能的研究在感知、記憶、學習、決策等方向上各有側重,但這些能力并非孤立發展或簡單疊加。多種技術通過信息流動、任務協 同與反饋調節,共同構成了一個高度耦合、動態反饋的 一體化智能系統。其中感知模塊接收的多元環境信 息,為記憶模型對當下環境理解與未來預測提供了實 時輸入;學習模型構建的內部分析與狀態預測結果,又 影響決策模塊對未來的評估決策;而環境反饋又驅動 著整個系統策略的持續優化,并持續提升感知精度與 預測能力,形成一個緊密協作的閉環。
需要指出的是,盡管大語言模型在環境理解與任務決策中展現出強大的能力,但它并不能d立承擔具身智能系統的全部“大腦”功能。大模型依賴于海量離線數據訓練,具備豐富的語言與視覺先驗知識。然而, 這類模型本質上并非“具身”的,它們缺乏對實時環境 的直接感知能力,也無法通過自主行為從環境中持續 獲取信息。具身智能系統面臨的環境動態變化、不可 預見、充滿噪聲,因此系統需要通過實際的傳感器輸入 感知當下情境,并與世界持續互動。這些信息往往具 有時序性、局部性和物理約束性,無法僅通過離線訓練 建模獲得。因此,大模型可被視為“知識引擎”,能夠在 推理、理解、計劃中發揮作用,但實現具身智能系統還 需要依賴于對具身環境的感知、對情境的記憶積累以 及對行動結果的反饋等技術協同,才能實現完整、閉環 的智能能力。
![]() |
| 機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務機器人 大屏機器人 霧化消毒機器人 展廳機器人 服務機器人底盤 具身智能教育機器人 智能配送機器人 導覽機器人 |