【摘要】具身智能既連接了“大腦—小腦”(感知、規劃、決策算法)與“軀體”(物理載體),也將感知、運動、環境和社會等多維要素納入統一考量,正成為驅動新一輪科技革命和產業變革的核心力量。隨著高效算力設施的廣泛部署、智能算法的不斷迭代以及社會需求的持續增長,具身智能將在工廠車間、物流倉儲、家庭服務、醫療康復、城市交通等各個領域持續落地,深刻改變人類生產生活方式,并孕育出全新產業形態和經濟模式。
【關鍵詞】具身智能 人工智能 智能機器人
【中圖分類號】TP18 【文獻標識碼】A
具身智能(Embodied Intelligence)是人工智能(Artificial Intelligence,AI)研究與應用的重要前沿方向,但并非近年來才提出的概念。早在20世紀50年代,人工智能先驅阿蘭·圖靈(Alan Turing)就在論文《計算機器與智能》中構想了具身智能的雛形:為機器配備最好的傳感器、使其可以與人類交流、像嬰兒一樣進行學習。同一時期,控制論創始人諾伯特·維納(Norbert Wiener)也提出了“行為智能”的理念。具身智能定義可概括為一種基于物理身體進行感知、認知和行動的智能系統,其通過智能體與環境交互獲取和理解信息、作出決策并實施相應行動(包括行為反饋),從而形成適應性和智能行為。
具身智能技術發展現狀
隨著算力的極大提升、大規模數據的獲取日益便捷以及多種新型AI模型的涌現,人類長期以來對“智能體與環境交互并實現進化適應”的追求正在加速轉變為現實。“人工智能”“具身智能”與“人形機器人”常被混為一談,實際上三者各有側重:人工智能更注重算法和計算層面的信息處理與認知能力提升;人形機器人的核心在于實現具有類人形態的物理載體;具身智能則注重“智能體—環境—算法”三位一體的協同演化,更強調如何在物理實體中充分利用感知、決策和執行機制,并在環境交互中不斷演進。當前研究與應用主要聚焦以下五大核心領域:面向具身技術的仿真引擎(Simulators)、具身感知(Embodied Perception)、具身交互(Embodied Interaction)、具身智能體(Embodied Agent)、虛實遷移方法(Sim-to-Real Adaptation),它們構成更通用、更自主且更具協作性的智能形態的關鍵環節。
面向具身技術的仿真引擎旨在通過構建高度仿真的虛擬環境,模擬真實世界中的物理交互過程,使智能體在安全可控的條件下進行感知、決策與行動的訓練與測試。其核心目標是快速迭代算法、降低實際部署風險,在機器人研究、自動駕駛、智能制造等領域應用廣泛。根據構建方式的不同,可將其分為兩大類:一是基于底層通用仿真的平臺,典型代表為Gazebo與Isaac Sim平臺。Gazebo提供了可擴展的物理引擎、多機器人模型庫,并與機器人操作系統(ROS)深度融合,支持多機器人導航及協作。Isaac Sim則內置高保真物理引擎(PhysX)與逼真的渲染能力,適用于自動駕駛和大規模強化學習等場景。二是基于真實場景的仿真平臺,典型代表為AI2-THOR室內仿真環境與iGibson建筑重構高精度場景。AI2-THOR內含豐富的交互式物體與語義標簽,可用于家居機器人或日常任務研究。iGibson則基于真實建筑數據重構高精度場景,實現實際物理交互過程,并支持多模態傳感器與人機交互模擬。
具身感知方法指智能體通過傳感器主動獲取并理解環境中的多模態信息(視覺、聽覺、觸覺、語義等),為后續的認知與行為決策提供基礎支撐。主要包括以下三個方面:一是主動視覺感知,如NeU-NBV、Fan等主動探索方法通過智能體自發改變觀察角度或執行交互行為來獲得更高的信息增益,提升環境建模與理解效率;二是三維視覺定位,如ScanRefer、3DVG-Transformer、ReGround3D等方法將自然語言與三維點云數據結合,在復雜環境中實現精準的目標對象定位與推理,為具身智能體在服務、救援、無人倉儲等場景下的自主操作奠定基礎;三是非視覺感知,如GelSight、DIGIT、9DTact等觸覺感知技術可捕捉表面紋理、壓力分布與滑動等信息,為智能體在精細裝配或柔性抓取等復雜操作任務中提供高分辨率的物理反饋與互動支持。總體而言,具身感知方法正向“主動感知、多模態融合、語義理解”演進,為具身智能體構筑更加完善的環境認知與信息處理能力。
具身交互方法關注智能體與外部環境、目標物體以及人類之間的自然、高效、語義對齊的動態聯系,是實現智能體任務執行與人機協同的關鍵。主要分為兩類:一是人與智能體交互,智能體在視覺環境中自主移動、感知并回答問題,典型應用包括EQAv1、iGQA等具身問答系統;二是智能體與物體交互,借助大語言模型進行行動規劃,并結合控制策略執行具體操作,典型方法包括SayCan、Code-as-Policies等語言引導抓取算法。隨著自然語言理解和多模態融合技術的升級,具身交互不斷拓展智能體在服務機器人、人機協作和日常生活中的應用深度,努力實現“所見即所得、所說即所行”的人機互動模式。
具身智能體是指具備完整的“感知—理解—決策—執行”閉環能力,能夠在真實或虛擬環境中完成復雜任務的實體,如機器人、自動駕駛系統等。當前研究主要關注兩個方面:一是多模態基礎模型,如Google DeepMind提出的RT系列模型(RT-1、RT-2、RT-H),將視覺、語言、動作序列統一編碼,通過大規模行為數據進行訓練,具備跨任務與跨環境的泛化能力;二是任務規劃系統,如SayCan、Inner Monologue等通過大語言模型(如GPT-4)將人類指令拆分為可執行的操作模塊,并結合世界模型(World Model)、記憶機制與反饋控制,構建從語義理解到物理執行的閉環交互框架。總體而言,具身智能體正從“專業型機器人”向“通用型智能體”演進,其認知、推理與適應能力被視為通往通用AI的關鍵路徑。
虛實遷移方法旨在將模擬環境中的訓練成果遷移到真實物理世界,是具身智能體大規模落地的關鍵。現有研究主要圍繞以下三方面展開:一是具身世界模型,在虛擬環境中構建帶有時序與物理一致性的世界模型,幫助智能體預測環境狀態,典型方法包括DreamerV3、E3B等;二是高質量數據生成與訓練,如ProcTHOR、HOLODECK、PhyScene等平臺借助大語言模型與擴散模型,自動合成多樣化且物理一致的虛擬場景,拓展訓練數據分布,提升對未知環境的適應性;三是域隨機化與對抗性學習,幫助智能體習得的技能與行為策略在光照、材質、摩擦系數等條件變化時平穩遷移,降低實際部署風險。隨著虛擬與現實間交互壁壘的不斷削弱,具身智能正邁向“先在虛擬中充分訓練,再在現實中無縫執行”的研發與部署模式,為復雜現實場景的應用提供了可行路徑。
具身智能產業發展現狀
具身智能在滿足國家重大需求以及提升關鍵領域競爭力方面具有巨大潛力,應用范圍涵蓋國防安全、應急救援、太空探索,以及醫療康復、養老助殘、智能家居和智能制造等民生領域。近年來,具身智能正不斷催生出新的產業形態,有望深刻改變社會的生產方式和生產關系,并以空前速度與深度重塑世界。在產業層面,具身智能與制造業、農業、服務業等深度融合,創造出新業態、新模式,成為經濟增長的新引擎。近年來,全球各大科技巨頭均投入了巨額資源來開發人形機器人、自動駕駛汽車、工業機器人及無人機等具身智能產品。筆者從中國、美國和歐盟三個主要國家和地區出發,探討具身智能產業的最新發展動態,分析在醫療、工業、交通、服務等領域的典型企業與產品案例,并展望其對未來經濟和社會發展的深遠影響。
中國:產業規模持續擴大,本土企業快速崛起。中國已成為全球最大的機器人消費市場和生產基地,國家政策的大力支持極大推動了具身智能產業的發展。在工業制造領域,國產機器人迅速崛起,新松機器人、埃斯頓機器人等企業的產品廣泛應用于汽車制造、電子裝配、機械加工等領域。此外,國際巨頭ABB在上海建立了全球最大規模的機器人超級工廠,為中國及亞太地區提供更加高效的機器人解決方案。在物流服務領域,中國本土企業極智嘉(Geek+)取得快速發展,其自動倉儲機器人系統已廣泛服務于阿里巴巴、京東等大型電商企業,極大提高了物流效率和倉儲管理自動化水平。在智能交通領域,百度Apollo在無人駕駛領域不斷實現技術突破,第六代無人駕駛出租車RT6在北京、深圳等多個城市實現了規模化商業運營。小馬智行(Pony.ai)也在廣州和北京的Robotaxi實現了無安全員運營,并成功登陸美國資本市場,估值超過85億美元,成為具身智能交通應用的重要里程碑。在服務機器人領域,宇樹科技(Unitree)在2023年發布了價格親民的人形機器人H1,進一步推動了人形機器人的產業落地和市場普及,顯示出中國企業在成本控制和市場化推廣方面的優勢。此外,科沃斯和石頭科技在家用掃地機器人領域取得突破,其高智能化、自動化的產品受到市場廣泛歡迎。
美國:引領全球的技術創新和商業模式拓展。美國憑借雄厚的技術基礎和高度發達的資本市場,長期引領全球具身智能產業的發展方向和技術前沿。在工業制造領域,亞馬遜通過Amazon Robotics系統在全球物流網絡部署75萬臺機器人,大幅提升了物流處理的效率和精準度。在物流服務領域,波士頓動力(Boston Dynamics)推出物流機器人Stretch與四足機器人Spot,前者聚焦倉儲貨物自動化搬運,后者則廣泛應用于工業巡檢和公共安全。美國Zipline公司則借助無人機技術實現了偏遠地區的醫療物資快速配送,進一步拓展了具身智能在緊急救援與醫療物流中的應用空間。在智能交通領域,Waymo的Robotaxi服務已在鳳凰城、舊金山、洛杉磯等地全面展開,將進一步拓展至邁阿密和華盛頓特區等更多城市,成為全球自動駕駛出租車領域的領導者之一。在服務機器人領域,特斯拉推出人形機器人Optimus,投入自家工廠試用,執行電池裝配和物流任務,計劃在2025年實現小規模量產。由Intuitive Surgical公司推出的達芬奇手術機器人占據了全球領先地位,截至2024年裝機量已超過9900臺。
歐盟:傳統工業基礎與創新應用并舉。歐盟依托深厚的制造業基礎,在工業自動化和服務機器人領域擁有領先優勢。在工業制造領域,ABB集團于2023年在瑞典投資2.8億美元新建機器人制造工廠,以滿足本土市場需求,并推出了全新的協作機器人產品線;丹麥Universal Robots在協作機器人市場中持續領先,最新產品UR20具備更大負載和更高安全性,廣泛應用于汽車零部件制造、電子組裝等精密工業場景。在物流服務領域,瑞士ANYbotics公司推出的四足巡檢機器人ANYmal專門應用于石油化工、能源設施等危險環境,成功替代人工完成巡檢任務,極大提高了作業安全性和效率;英國的CMR Surgical公司成功推出Versius腹腔鏡手術機器人,在歐洲多個國家和亞洲市場的醫院實現落地應用。在服務機器人領域,法國Parrot公司的無人機在航拍和監控領域也頗具實力。此外,歐盟多國政府正積極推動養老院護理機器人普及,以應對日益嚴峻的人口老齡化問題,逐步形成以機器人為核心的智慧養老服務體系。
具身智能的能力邊界
盡管具身智能在封閉、簡單的作業環境中取得了顯著進步,但其整體能力仍受制于大算力、大數據與強算法三大核心要素的宏觀限制。當前主流研究多依賴大語言模型或多模態大模型,如GPT-4、PaLM-E、RT-2、Gato、VIMA等,這些模型大多停留在對文本或已有圖像數據的統計性模仿,雖可實現一些初步的語義理解與簡單操作,卻無法真正掌握從抽象語言到復雜真實世界的跨模態理解。
以Sora為代表的生成式AI模型雖具備一定的物理模擬能力,能基于文本描述生成視覺上合理的視頻,但仍顯現出明顯的跨模態理解困難。其生成的視頻內容經常出現“局部合理但整體荒謬”的矛盾,如“幽靈椅子”等現象,暴露出當前模型對空間結構、物理因果與社會環境缺乏深層次的認知與推理能力。這說明現有具身智能在涉及復雜因果判斷、精細物理交互或多維社會互動的高級任務時仍顯力不從心。其局限性主要體現在:空間推理能力弱、物理推理能力弱和時間推理能力弱,即難以精準建模三維環境中物體的復雜關系與精確位置,缺乏對真實物理環境的因果建模與推理能力,且在處理多步驟邏輯、長期規劃或動態環境的連續決策時易出現短視或推斷錯誤。這是由于:
首先,目前具身智能技術主要依賴靜態數據(如文本、圖像),缺乏多模態感官融合與持續主動探索的閉環學習過程。例如,DeepMind的Gato、MIT的VIMA及Meta的Habitat 3.0,雖然在特定任務或仿真環境中表現突出,但其本質仍是數據驅動的被動學習過程,無法像人類一樣通過主動感知—動作閉環動態優化自身的認知與行為。這再次凸顯了莫拉維克悖論(Moravec's Paradox):AI在抽象層面的認知任務(如語言理解、邏輯推理)中進展迅猛,卻在感官運動和直覺感知等對人類而言簡單的任務上表現欠佳。例如,即便現有的大模型能夠理解語義指令,在執行類似人類幼兒直覺性抓握或動態平衡等“簡單”感官運動任務時仍面臨巨大困難。
其次,當前具身智能模型普遍缺乏顯式的因果建模與推理機制,難以理解真實物理環境的動力學本質。現有具身智能模型通常只能適應特定仿真條件下的物理交互,雖然能夠理解簡單空間指令,但仍無法精準處理三維環境中的復雜物體關系、精細位置預測以及精準自我定位。一旦真實環境與訓練條件稍有差異,其性能便急劇下降。例如,機器人在操縱對象時容易出現誤抓或位置偏差等問題,其原因在于模型缺乏明確的空間幾何與相對位置關系的內在推理機制。同時,模型在理解和推斷事件順序、制定多步任務計劃以及預測長期未來變化上存在顯著缺陷。雖然RT-2等模型可處理初級的多步驟邏輯,但在涉及長期規劃或動態環境的連續決策時,往往出現短視、推斷錯誤或行動混亂的現象。
為突破當前具身智能的瓶頸,應重點發展以下幾個關鍵方向:增強空間、物理與時間推理的顯式建模能力,實現感知與動作的深度融合,引入持續主動探索機制和閉環交互學習,研發具備跨模態泛化能力的統一基礎模型。更進一步地,需構建完整且魯棒的自我與環境模型,使智能體能夠在線更新自身對身體狀態、物理特性以及環境因果關系的認知,并通過內部模擬預測,靈活應對環境變化和新任務挑戰。
具身智能未來發展趨勢
具身智能的未來演進將圍繞“感知—學習—想象—協同”四個關鍵方向,構筑從低層物理執行到高層認知決策的多層次智能體系。這標志著AI從“算力驅動”向“理解驅動”跨越,為進一步邁向“類人智能”乃至“通用人工智能”提供了清晰的技術路線,推動產業發展并全面提升人類生活品質。
“感知”是智能體與外部世界聯結的起點,涉及多模態與主動探測技術。未來具身智能的感知系統將更加注重多模態融合與主動探測,從而獲得對環境更完整、更可靠的表征。一方面,多模態融合技術使視覺、聽覺、觸覺、力覺、溫度等信息源相互補充、交叉驗證,為后續認知決策提供支撐。例如,自動駕駛車輛通常使用激光雷達、攝像頭和毫米波雷達等多種傳感器,結合視覺識別、深度估計與車道線檢測,形成對道路與周邊環境的多模態感知。類似地,醫用護理機器人可在手術過程中同時采集視覺、觸覺與力覺信息,以保證操作精度與患者安全。另一方面,通過在未知環境中根據當前認知不確定性或信息增益策略,主動選擇探測路徑與傳感器配置,不斷縮小認知盲區。比如,機器人在自主巡檢過程中,能夠自主選定路線并主動探測樓梯、機械設備等區域,從而更全面地了解環境情況。再如,搜救無人機可根據已知地圖和建筑結構,自主選擇最優航線,探測尚未覆蓋的區域并與地面指揮中心共享高價值信息,提升應急救援效率。
“學習”包含了閉環式環境交互與終身進化,體現了具身智能持續進化、適應環境的核心能力。與傳統依賴靜態數據的離線訓練模式不同,未來的具身學習更強調閉環式的實時環境交互,在此過程中不斷修正內在世界模型并更新行為策略。此種學習模式具有以下特點:第一,持續學習。通過環境交互不斷獲取新的信息,修復智能體的認知盲區。比如,自動駕駛系統可收集海量用戶駕駛數據,不斷識別和彌補算法在特定天氣、道路狀況下的不足。第二,在線適應。針對環境變化或任務變更,智能體可迅速調整策略,無需從零開始離線訓練。例如,當倉庫布局或物流需求發生變化時,倉儲機器人可根據實時數據調整行進路線和揀貨次序。第三,因果推理。在真實或仿真場景中對因果關系進行試驗與驗證,避免對統計關聯的過度依賴。比如,農業無人機集群可根據實時監測到的土壤濕度、病蟲害等信息,判斷噴灑何種農藥、何時灌溉等決策背后的因果鏈條,而非僅憑統計學經驗、歷史均值。第四,閉環式學習。在高度不確定、動態的真實環境下,智能體可持續更新其世界模型和演進策略。例如,醫療康復機器人可根據不同患者的恢復情況和即時反饋,調整康復動作的強度與節奏,在患者日常訓練中逐步學習并優化個性化方案,真正實現“終身進化”。
“想象”強調的是智能體在內部建構世界模型并進行前饋預測的能力,通過“在腦中演練”來減少現實環境的風險與試錯成本。“想象”的方式方法主要包括:第一,基于物理一致性的想象。通過高保真仿真環境或在智能體內部構建的物理模型,模擬可能的動作序列及其結果。例如,在自動駕駛模型部署前,可在虛擬城市中測試車輛對各種交通場景的反應,包括行人突然出現、臨時施工等情況,從而在現實中減少意外發生。第二,高層語義與因果推理。不僅要做力學計算,還要理解任務意圖、常識邏輯和社會規則。例如,社交陪護機器人在與老人或兒童互動前,可先在世界模型中模擬對話和行為,以判斷“如何表達關懷、如何遵守社交禮儀”,從而在實際互動時更符合社會規范。第三,減少現實試錯成本。在“想象”環節先行推演并篩選風險較高的動作或選項,使智能體能夠在工業生產、醫療輔助等高代價或高風險領域更安全、更高效地完成任務。比如,人形機器人在工廠流水線實際操作前,可先在數字孿生環境中測試裝配流程并預測故障點。
“協同”是具身智能在社會化應用中的高級形態,強調人與機器、機器與機器之間的分工與配合。主要包括兩個方面:一是人機協同,可通過語音、視覺手勢、腦機接口等實現。例如,工業協作機器人與人類工人共同作業時,可通過手勢檢測與安全傳感器來識別人類意圖并避障;醫用康復機器人可實時“聆聽”患者語音指令,或利用可穿戴式腦機接口識別患者的肌電信號與大腦活動,從而動態地調整動作。在幫助人類完成工作或日常任務時,需要保證對人類指令的服從與執行的可解釋性。例如,助老助殘機器人在為老人端茶送水或協助行走時,必須讓使用者清楚自身行為邏輯,并具備碰撞檢測、力反饋等安全機制。二是多機協同,即不同形態、不同功能的智能體協同完成復雜作業。例如,在現代化倉儲中心,自動導引車負責搬運,機械臂完成揀貨,監測無人機則負責巡檢和盤點。各設備間通過統一的通信協議共享位置與任務信息,從而協調作業,提高整體效率。
綜上所述,具身智能既連接了“大腦—小腦”(感知、規劃、決策算法)與“軀體”(物理載體),也將感知、運動、環境和社會等多維要素納入統一考量,正成為驅動新一輪科技革命和產業變革的核心力量。盡管在高度動態與不確定性的真實環境中,當前方法尚不足以進行完善的因果推理和靈活規劃,但借鑒人類主動探測、持續交互和閉環學習的認知機制,必將助力具身智能實現跨越式發展。
未來十年,隨著高效算力設施的廣泛部署、智能算法的不斷迭代以及社會需求的持續增長,具身智能將在工廠車間、物流倉儲、家庭服務、醫療康復、城市交通等各個領域持續落地,深刻改變人類生產生活方式,并孕育出全新產業形態和經濟模式。它所帶來的不只是效率提升,更是從“算力驅動”邁向“理解驅動”的范式轉變,是智能機器人邁向“類人智能”乃至“通用人工智能”的關鍵。唯有秉持對未知世界的持續探索與思考,并在政策、倫理、法規及跨學科協同等多方面形成合力,方能在具身智能的宏大圖景中,與時代同行,迎接更加智慧與繁榮的新紀元。
(作者為西安交通大學人工智能學院教授)
責編/銀冰瑤 美編/楊玲玲
聲明:本文為人民論壇雜志社原創內容,任何單位或個人轉載請回復本微信號獲得授權,轉載時務必標明來源及作者,否則追究法律責任。
