當前位置：首頁 > 新聞資訊 > 行業(yè)動態(tài) > 具身智能系統(tǒng)中的“大腦”技術(shù)實現(xiàn)

具身智能系統(tǒng)中的“大腦”技術(shù)實現(xiàn)

來源：《計算》編輯部編輯：創(chuàng)澤時間：2026/6/8 主題：其他 [加盟]

當前具身智能系統(tǒng)中多個關(guān)鍵技術(shù)正在快速發(fā)展與融合，支撐智能系統(tǒng)實現(xiàn)像人類一樣的認知閉環(huán)，這些技術(shù)主要包括具身大模型、世界模型、具身記憶、行為預測與自主學習等。

近年來，具身大模型因其可以端到端地在復雜真實環(huán)境中通過感知信息來進行對應的決策行動而備受關(guān)注。與傳統(tǒng)的人工智能系統(tǒng)不同，具身大模型集成了多種感官模態(tài)，如視覺、語言和音頻等，使得智能體能夠感知并與物理環(huán)境進行互動。近年來，隨著大語言模型（large language model,LLM）與多模態(tài)感知系統(tǒng) 的發(fā)展，促使了一系列例如 RT-2! 、OpenVLA¹²)、π .1³、 Gemini Robotics 等新型具身大模型的開發(fā)。這些研究聚焦于具身大模型的數(shù)據(jù)集、多模態(tài)對齊融合等方向，使模型能夠同時處理多模態(tài)輸入，并輸出與物理世界的交互動作。

此外，備受關(guān)注的還有世界模型研究領(lǐng)域。當前的研究核心是理解與建模變化中的世界，并對變化世界的下一時刻狀態(tài)進行預測，主要側(cè)重于兩個方面：構(gòu) 建內(nèi)部表征以理解世界并預測未來狀態(tài)以模擬和指導決策。2022年，Yann LeCun¹5提出了一種聯(lián)合嵌入預測架構(gòu)，它由一個處理感官數(shù)據(jù)的感知模塊和評估這些信息的認知模塊組成。Z近的研究也結(jié)合大語言模型、視覺模型等方法捕捉包括空間與時間知識，或是在模型內(nèi)部嵌入類腦結(jié)構(gòu)16，這使得模型可以根據(jù)先前的經(jīng)驗學習預測未來事件。總體來看，世界模型的研究仍處于起步階段，不同研究從各自角度提出技術(shù)方案，尚未形成統(tǒng)一范式，仍在不斷演化與迭代之中，未來還有很大的發(fā)展空間。

具身記憶領(lǐng)域模仿人腦的記憶機制，存儲與環(huán)境交互過程中積累的經(jīng)驗、場景特征、任務狀態(tài)等。它不僅記錄“做過什么”，更記錄“在哪種情境下做過什么”，支持決策模塊在未來情境中快速匹配已有經(jīng)驗。當前具身記憶系統(tǒng)多通過顯式的多層J圖結(jié)構(gòu)17-18或隱式的 Transformer架構(gòu)19來實現(xiàn)，研究熱點集中于記憶檢索、跨模態(tài)統(tǒng)一表示以及記憶與策略學習的協(xié)同機制等方向，例如，OpenAI 在引入了外部“長期記憶”機制[20, 為大語言模型提供跨會話的記憶能力；Meta AI于 2024年提出的V-JEPA 架構(gòu)21則采用時空遮蔽策略，在抽象表示空間內(nèi)預測視頻中的被遮擋內(nèi)容，有助于捕捉高J概念信息。

行為預測領(lǐng)域關(guān)注通過對歷史及實時數(shù)據(jù)的分析，預判自身或其他實體的未來動作軌跡，從而解決物理環(huán)境中的動態(tài)不確定性。近年來，行為預測技術(shù)已從簡單的軌跡推演擴展至復雜場景的動態(tài)建模。當前研究聚焦于如何通過高效的序列建模22、潛變量學習 1 2等技術(shù)，使智能體具備類人的預判能力，為智能體提供前瞻性決策依據(jù)。

自主學習領(lǐng)域通過智能體與環(huán)境的動態(tài)交互實現(xiàn) 策略優(yōu)化和能力演進，其核心包括強化學習、主動學習、終身學習、邏輯推理、進化算法等技術(shù)。其中，強化學習作為核心范式，驅(qū)動智能體在試錯中優(yōu)化決策策略，通過“狀態(tài)—動作—獎勵”的交互機制優(yōu)化智能體的決策與行動策略，使其能自主學習復雜任務241。而主動學習也可以通過少量數(shù)據(jù)標注，引導視覺模型達到更好的訓練效果，提升智能體的感知能力²5。

綜上所述，盡管當前具身智能的研究在感知、記憶、學習、決策等方向上各有側(cè)重，但這些能力并非孤立發(fā)展或簡單疊加。多種技術(shù)通過信息流動、任務協(xié) 同與反饋調(diào)節(jié)，共同構(gòu)成了一個高度耦合、動態(tài)反饋的一體化智能系統(tǒng)。其中感知模塊接收的多元環(huán)境信息，為記憶模型對當下環(huán)境理解與未來預測提供了實時輸入；學習模型構(gòu)建的內(nèi)部分析與狀態(tài)預測結(jié)果，又影響決策模塊對未來的評估決策；而環(huán)境反饋又驅(qū)動著整個系統(tǒng)策略的持續(xù)優(yōu)化，并持續(xù)提升感知精度與預測能力，形成一個緊密協(xié)作的閉環(huán)。

需要指出的是，盡管大語言模型在環(huán)境理解與任務決策中展現(xiàn)出強大的能力，但它并不能d立承擔具身智能系統(tǒng)的全部“大腦”功能。大模型依賴于海量離線數(shù)據(jù)訓練，具備豐富的語言與視覺先驗知識。然而，這類模型本質(zhì)上并非“具身”的，它們?nèi)狈崟r環(huán)境的直接感知能力，也無法通過自主行為從環(huán)境中持續(xù) 獲取信息。具身智能系統(tǒng)面臨的環(huán)境動態(tài)變化、不可預見、充滿噪聲，因此系統(tǒng)需要通過實際的傳感器輸入感知當下情境，并與世界持續(xù)互動。這些信息往往具有時序性、局部性和物理約束性，無法僅通過離線訓練建模獲得。因此，大模型可被視為“知識引擎”,能夠在推理、理解、計劃中發(fā)揮作用，但實現(xiàn)具身智能系統(tǒng)還需要依賴于對具身環(huán)境的感知、對情境的記憶積累以及對行動結(jié)果的反饋等技術(shù)協(xié)同，才能實現(xiàn)完整、閉環(huán) 的智能能力。

查看更多相似文章

人人人做人人爽夜欢视频|ve中文字幕久久一区二区|日韩欧美综合制服|在线免费观看网站|欧美丰满BBB久久久|肉伦疯狂娇喘迎合受孕|床片激情免费视频

具身智能系統(tǒng)中的“大腦”技術(shù)實現(xiàn)

具身智能系統(tǒng)中的“大腦”能力與技術(shù)實現(xiàn)

賽迪智庫：2026年我國未來產(chǎn)業(yè)發(fā)展形勢展望-多個賽道有望實現(xiàn)從實驗室到產(chǎn)業(yè)化

2026具身智能與人形機器人產(chǎn)業(yè)研究報告-從示范轉(zhuǎn)向量產(chǎn)與深度應用,從點狀創(chuàng)新轉(zhuǎn)向生態(tài)協(xié)同

2025人形機器人靈巧手技術(shù)路徑、應用場景與產(chǎn)業(yè)鏈關(guān)鍵環(huán)節(jié)分析報告-三大系統(tǒng)占整機成本14%-18%

人形機器人大勢所趨,下游應用逐步打開-出貨量約1.7萬臺，市場規(guī)模達到28.8億,中國人形機器人整機占比約53.8%

具身智能技術(shù)及產(chǎn)業(yè)實踐的階段性進展-模型基礎(chǔ)架構(gòu)、物理規(guī)則驅(qū)動的空間感知與推理、大模型內(nèi)在機理驅(qū)動的多智能體協(xié)同

2026中國具身智能產(chǎn)業(yè)商業(yè)化前沿洞察-市場規(guī)模合計將突破1.25萬，年復合增長率超過20%

中國具身智能產(chǎn)業(yè)發(fā)展白皮書2025-四大高地+特色節(jié)點,市場規(guī)模約9150億,增長20.4%

2026具身智能操作系統(tǒng)技術(shù)白皮書-萬億級規(guī)模,將機器人硬件與軟件解耦，支撐生態(tài)化分工、跨平臺復用與規(guī)模化應用

四足機器人場景應用發(fā)展藍皮書-市場約70億,研發(fā)制造及系統(tǒng)集成已經(jīng)超過100家

中國人工智能系列白皮書—-具身智能(2026版):數(shù)據(jù)范式變革五大趨勢,五大領(lǐng)域明確落地路徑,三個確定性趨勢

2025上海智能機器人百大場景案例集-重點探索和突破的創(chuàng)新示范應用場景,促進智能機器人產(chǎn)業(yè)鏈上下游協(xié)同合作

服務機器人(迎賓、講解、導診...)

智能消毒機器人

機器人底盤