當前具身智能系統(tǒng)中多個關(guān)鍵技術(shù)正在快速發(fā)展 與融合,支撐智能系統(tǒng)實現(xiàn)像人類一樣的認知閉環(huán),這 些技術(shù)主要包括具身大模型、世界模型、具身記憶、行為預測與自主學習等。
近年來,具身大模型因其可以端到端地在復雜真 實環(huán)境中通過感知信息來進行對應的決策行動而備受 關(guān)注。與傳統(tǒng)的人工智能系統(tǒng)不同,具身大模型集成 了多種感官模態(tài),如視覺、語言和音頻等,使得智能體 能夠感知并與物理環(huán)境進行互動。近年來,隨著大語 言模型(large language model,LLM)與多模態(tài)感知系統(tǒng) 的發(fā)展,促使了一系列例如 RT-2! 、OpenVLA¹²)、π .1³、 Gemini Robotics 等新型具身大模型的開發(fā)。這些研 究聚焦于具身大模型的數(shù)據(jù)集、多模態(tài)對齊融合等方 向,使模型能夠同時處理多模態(tài)輸入,并輸出與物理世界的交互動作。
此外,備受關(guān)注的還有世界模型研究領(lǐng)域。當前 的研究核心是理解與建模變化中的世界,并對變化世 界的下一時刻狀態(tài)進行預測,主要側(cè)重于兩個方面:構(gòu) 建內(nèi)部表征以理解世界并預測未來狀態(tài)以模擬和指導 決策。2022年,Yann LeCun¹5提出了一種聯(lián)合嵌入預 測架構(gòu),它由一個處理感官數(shù)據(jù)的感知模塊和評估這 些信息的認知模塊組成。Z近的研究也結(jié)合大語言模 型、視覺模型等方法捕捉包括空間與時間知識,或是在 模型內(nèi)部嵌入類腦結(jié)構(gòu)16,這使得模型可以根據(jù)先前 的經(jīng)驗學習預測未來事件。總體來看,世界模型的研 究仍處于起步階段,不同研究從各自角度提出技術(shù)方 案,尚未形成統(tǒng)一范式,仍在不斷演化與迭代之中,未 來還有很大的發(fā)展空間。
具身記憶領(lǐng)域模仿人腦的記憶機制,存儲與環(huán)境 交互過程中積累的經(jīng)驗、場景特征、任務狀態(tài)等。它不 僅記錄“做過什么”,更記錄“在哪種情境下做過什么”, 支持決策模塊在未來情境中快速匹配已有經(jīng)驗。當前 具身記憶系統(tǒng)多通過顯式的多層J圖結(jié)構(gòu)17-18或隱式 的 Transformer架構(gòu)19來實現(xiàn),研究熱點集中于記憶檢 索、跨模態(tài)統(tǒng)一表示以及記憶與策略學習的協(xié)同機制 等方向,例如,OpenAI 在引入了外部“長期記憶”機制[20, 為大語言模型提供跨會話的記憶能力;Meta AI于 2024年提出的V-JEPA 架構(gòu)21則采用時空遮蔽策略, 在抽象表示空間內(nèi)預測視頻中的被遮擋內(nèi)容,有助于 捕捉高J概念信息。
行為預測領(lǐng)域關(guān)注通過對歷史及實時數(shù)據(jù)的分 析,預判自身或其他實體的未來動作軌跡,從而解決物 理環(huán)境中的動態(tài)不確定性。近年來,行為預測技術(shù)已 從簡單的軌跡推演擴展至復雜場景的動態(tài)建模。當前 研究聚焦于如何通過高效的序列建模22、潛變量學 習 1 2等技術(shù),使智能體具備類人的預判能力,為智能體 提供前瞻性決策依據(jù)。
自主學習領(lǐng)域通過智能體與環(huán)境的動態(tài)交互實現(xiàn) 策略優(yōu)化和能力演進,其核心包括強化學習、主動學 習、終身學習、邏輯推理、進化算法等技術(shù)。其中,強 化學習作為核心范式,驅(qū)動智能體在試錯中優(yōu)化決策 策略,通過“狀態(tài)—動作—獎勵”的交互機制優(yōu)化智能 體的決策與行動策略,使其能自主學習復雜任務241。 而主動學習也可以通過少量數(shù)據(jù)標注,引導視覺模型達到更好的訓練效果,提升智能體的感知能力²5。
綜上所述,盡管當前具身智能的研究在感知、記憶、學習、決策等方向上各有側(cè)重,但這些能力并非孤立發(fā)展或簡單疊加。多種技術(shù)通過信息流動、任務協(xié) 同與反饋調(diào)節(jié),共同構(gòu)成了一個高度耦合、動態(tài)反饋的 一體化智能系統(tǒng)。其中感知模塊接收的多元環(huán)境信 息,為記憶模型對當下環(huán)境理解與未來預測提供了實 時輸入;學習模型構(gòu)建的內(nèi)部分析與狀態(tài)預測結(jié)果,又 影響決策模塊對未來的評估決策;而環(huán)境反饋又驅(qū)動 著整個系統(tǒng)策略的持續(xù)優(yōu)化,并持續(xù)提升感知精度與 預測能力,形成一個緊密協(xié)作的閉環(huán)。
需要指出的是,盡管大語言模型在環(huán)境理解與任務決策中展現(xiàn)出強大的能力,但它并不能d立承擔具身智能系統(tǒng)的全部“大腦”功能。大模型依賴于海量離線數(shù)據(jù)訓練,具備豐富的語言與視覺先驗知識。然而, 這類模型本質(zhì)上并非“具身”的,它們?nèi)狈崟r環(huán)境 的直接感知能力,也無法通過自主行為從環(huán)境中持續(xù) 獲取信息。具身智能系統(tǒng)面臨的環(huán)境動態(tài)變化、不可 預見、充滿噪聲,因此系統(tǒng)需要通過實際的傳感器輸入 感知當下情境,并與世界持續(xù)互動。這些信息往往具 有時序性、局部性和物理約束性,無法僅通過離線訓練 建模獲得。因此,大模型可被視為“知識引擎”,能夠在 推理、理解、計劃中發(fā)揮作用,但實現(xiàn)具身智能系統(tǒng)還 需要依賴于對具身環(huán)境的感知、對情境的記憶積累以 及對行動結(jié)果的反饋等技術(shù)協(xié)同,才能實現(xiàn)完整、閉環(huán) 的智能能力。
![]() |
| 商用機器人 Disinfection Robot 展廳機器人 智能垃圾站 輪式機器人底盤 迎賓機器人 移動機器人底盤 講解機器人 紫外線消毒機器人 大屏機器人 霧化消毒機器人 服務機器人底盤 智能送餐機器人 霧化消毒機 機器人OEM代工廠 消毒機器人排名 智能配送機器人 圖書館機器人 導引機器人 移動消毒機器人 導診機器人 迎賓接待機器人 前臺機器人 導覽機器人 酒店送物機器人 云跡科技潤機器人 云跡酒店機器人 智能導診機器人 |