深度|什麼是物理AI?

由 DeepTech深科技 發佈於 科技

'26-02-17

2026 年美國拉斯維加斯舉辦的消費電子展(CES)上,黃仁勳的一場演講,直接讓物理 AI(Physical AI)成爲展會最熱關鍵詞。他表示:物理 AI 的“ChatGPT 時刻”已然來臨,機器開始在現實世界中理解、推理並付諸行動。


各大媒體的報道標題幾乎都離不開黃仁勳的這句話,稱他讓英偉達成爲物理 AI 基礎設施的絕對主導者。此外,展會現場的“機器人狂歡”進一步強化了熱度:人形機器人疊衣服,掃地機器人上下樓梯,四足機器人在人羣中精準避障......


所有這些都預示着一個即將到來的未來,機器人和其他人工智能設備將與我們並肩生活在日常生活中。


展會之外,業界在共鳴之餘也展現出了更深層的理性。當被問及“物理 AI 的‘ChatGPT 時刻’是否真的已經到來”時,大曉機器人首席科學家陶大程表達了與黃仁勳相似的信心,但他同時給出了一個更爲精準的時空座標:“我們正處於物理 AI 時代爆發的前夜。”


這意味着,從前夜邁向黎明仍需跨越最後的技術深壑。究竟這一刻離我們還有多遠?要穿透 CES 的狂歡看清真相,必須回答三個核心議題:我們站在哪裏?面臨怎樣的路線選擇?以及真正的瓶頸是什麼?


在物理 AI 浪潮奔湧之際,DeepTech 邀請了數位業界科學家,深入探討了物理 AI 在現實世界中理解、推理並付諸行動的底層動力,以及物理 AI 在通往“ChatGPT 時刻”前夜面臨的核心挑戰與未來展望。


什麼是物理AI?


要理解這場革命,首先必須釐清一個核心命題:到底什麼是物理 AI?


在過去很長一段時間裏,我們談論的 AI,無論是擊敗李世石的 AlphaGo,還是能寫詩作畫的 ChatGPT,本質上都是數字 AI(Digital AI)。它們能在二進制的海洋裏處理符號與像素,卻對現實世界的重力、摩擦力與空間感一無所知。


“物理 AI 的本質在於系統必須理解物理世界。它必須將感知與世界狀態的內部表徵聯繫起來,並理解這種狀態在行動和動力學影響下是如何演變的。”新加坡國立大學計算機學院副教授 Harold Soh 指出。


斯圖加特大學教授、國際機器人聯合會技術委員會主席 Alexander Verl 則從數據流的角度進一步補充了這種“理解”的來源:“物理 AI 的目標是擴展當前的 AI,使其具備對空間關係及物理行爲的掌握。它不僅接收圖像、視頻等常見多模態輸入,更關鍵的是引入了現實世界的傳感器數據,旨在將這些信息轉化爲對物理世界的見解。”


在清華大學機械工程系副教授李曙光看來,僅僅談論“大腦”的理解還不夠,物理 AI 的版圖裏還隱藏着另一層主流敘事,即“物理智能”(Physical Intelligence)。


李曙光解釋道,“它是指機器人除了大腦之外,還可以充分利用自己的身體(包括材料、結構和力)實現特定的智能感知、決策和運動,並與真實世界直接交互。即機器人的物理身體也是‘智能’體現的重要組成。”


這種觀點的碰撞,勾勒出了物理 AI 的全貌。如果說數字 AI 是“缸中之腦”,那麼物理 AI 則是要爲大腦找回失落的物理常識。


“兩者結合纔是我們努力的方向,”李曙光總結了一個更通俗廣泛的定義,即“具備物理知識的大腦,與具備智能行爲的物理身體“,或稱爲“可理解物理的大腦和可運用物理的身體”。


其實,給機器裝上身體並不是新鮮事。在過去半個世紀裏,工業機器人早已在流水線上揮舞着鋼鐵手臂。但它們依賴於工程師寫死的代碼,它們假定世界是“靜止”且完美的,一旦現實環境發生微小的擾動,這些機器就會抓空甚至死機。它們無法感知變化,更談不上理解環境。


那麼,爲什麼理解真實世界這件事這麼難?


這便是困擾行業 40年的“莫拉維克悖論”:讓機器人像成年人一樣下棋很容易,但讓它像一歲嬰兒一樣感知環境、處理廚房裏的髒亂差,卻是最難的。


而這正是物理 AI 要跨越的最後一道門檻。


模型之爭


要讓機器能夠實時看到並解讀周圍環境,關鍵在於強大的 AI 基礎模型。


早在 2022 年之前,機器人操控還主要依賴層層拆解的傳統架構:先用視覺模塊識別物體,再用語言模型解析指令,然後靠規劃器生成路徑,最後通過運動控制器輸出關節指令。這種“接力式”設計雖然可靠,卻極度脆弱。


轉折發生在 2023年 7 月。谷歌 DeepMind 發佈的 RT-2 標誌着 VLA(視覺-語言-動作模型)概念的誕生。它讓機器人第一次實現了從像素輸入到動作輸出的端到端學習。短短三年間,從 OpenVLA 的開源到英偉達 GR00T 系列的落地,VLA 似乎已成爲物理 AI 的工業標配。


但在聚光燈之外,隱憂已然浮現。“現有的 VLA 模型需要海量的機器人數據進行訓練,這種成本幾乎是無法接受的,”新加坡南洋理工大學助理教授王子爲直言。在他看來,VLA 存在着不足,比如數據飢渴、且在面對新場景與新任務時泛化能力顯露疲態。


但在“規模至上”的喧囂中,新加坡國立大學副教授 Harold Soh 提出了更爲審慎的觀察。他認爲,雖然“擴大數據規模”已成爲行業響亮的口號,但更核心的問題在於我們是否掌握了正確的“配方”。


“我們仍需弄清楚模型結構應該是怎樣的、什麼樣的損失函數能真正誘導出所需的能力,”Harold Soh 指出。在他看來,架構進步的空間依然巨大,不能單純寄希望於數據堆砌。他主張開發更高效且更值得信賴的模型,通過重新思考設計,使系統在泛化時能有效降低失敗的嚴重性。


更深層的質疑指向了認知的本質。李曙光認爲,單純的 VLA 模型尚不足以承載物理世界的全部,“除了語言和視覺,還有更多感知、理解和描述物理世界的方式,VLA 並不能完整地反映真實世界運行的物理規律。”


2025 年年底,楊立昆離開了工作 12 年的 Meta,轉而創辦了一家專注於世界模型的初創公司 AMI Labs。他表示,人工智能行業完全被 LLM 思維所束縛,每個人都朝着同一個方向努力,互相挖走工程師。“我離開 Meta 就是因爲他們也陷入了 LLM 思維的泥潭。”


正是這種對“端到端黑箱”的不滿足,給了世界模型從幕後走向臺前的契機。


“世界模型是可以理解並模擬世界的物理規律的,所以可以提供很便宜的虛擬環境/生成數據用於 VLA 訓練以降低成本。”王子爲表示。


目前,多家科技巨頭與創業公司發佈的世界模型,主要集中在物理規律理解與因果推理、可交互 3D 環境生成、具身智能決策支撐三大核心方向,爲自動駕駛、機器人、數字孿生等場景提供底層認知與仿真能力。


進入 2026 年,這場爭論正演變爲一種新的共識:VLA 與世界模型並非非此即彼。


Harold Soh 預測,未來幾年該領域將向混合方法收斂:即預訓練主幹網絡結合任務及具身感知結構,並配合明確獎勵可控性和魯棒性的訓練目標。


“未來趨勢是融合VLA和世界模型。”香港大學助理教授陳佳玉告訴 DeepTech。他勾勒出了一條清晰的演進邏輯:先發展單場景單任務模型,再發展單場景多任務模型,最後發展多場景多任務模型。這種融合意味着,機器人將不再僅僅是在模仿人類的動作 token,而是在一個能夠感知因果、模擬反饋的“數字孿生”大腦驅動下,進行閉環的感知、規劃與執行。


王子爲預測了更具體的技術演進方向:從端到端黑箱策略學習,轉向可泛化的技能學習;從數據驅動的模仿學習,轉向自我探索的強化學習;從以真實機器人數據爲主,轉向以世界模型、人類視頻等多源低成本數據爲主;從開環的動作策略生成,轉向閉環的感知-規劃-執行-調整架構。


數據之困


儘管技術路線逐漸清晰,但物理 AI 要真正實現規模化落地,仍需跨越一系列深層次的技術與產業壁壘。


首當其衝的是數據壁壘。但在專家們看來,這種“數據荒”與數字 AI 面臨的困境有着本質的差異。


“物理 AI 面臨的數據問題是數據本身從哪裏來,這是一個更根本的挑戰。”陶大程指出。他借用楊立昆所說的智能中的“暗物質”來形容這種獨特性:大語言模型可以從互聯網數千年積累的語言數據中爬取,但物理世界的經驗不存在於任何過往數據庫中,它只能通過與真實世界的交互來生成。


這一觀點得到了Harold Soh 的認可。他進一步補充了採集這些數據的難度:“收集機器人數據的成本遠比標準 LLM/VLM 更昂貴,且獲取能夠真正教授‘感知-動作落地’的有用數據要困難得多。我們可以(也應該)利用現有的資源,例如互聯網規模的數據和強大的預訓練 VLM,但將其橋接到可靠的物理交互上仍然是一個難題。”


李曙光則從科研底層提出了突破方向。他認爲,我們不僅缺數據,更缺乏“對複雜物理世界或物理現象的準確描述和高效建模技術”。在他看來,必須攻克多材料與多場耦合的物理仿真技術,才能讓機器人在仿真中獲得真正高質量的物理常識。


然而,數據只是第一步。Harold Soh 提出了另外一個挑戰:安全性與魯棒性。“語言模型幻覺出一個事實只是個笑話,但機器人的動作幻覺卻是極其危險的。”他強調,當行動產生現實後果時,系統對錯誤的容錯率會降到極低。


這也是爲什麼王子爲認爲,現階段我們依然缺乏足夠精準、魯棒、低成本的高自由度本體。


泛化之困


如果說數據是“燃料”,那麼泛化能力則是引擎的性能,而這正是目前最讓業界頭疼的瓶頸。


“當前具身智能行業面臨的最大困境之一,是智能被‘鎖死’在特定的硬件裏。”陶大程精準地捕捉到了這種碎片化現狀。他發現,不僅人形、四足、機械臂之間無法遷移模型,甚至同品類不同廠商的硬件也無法互通。


這種“跨本體泛化”的缺失,意味着每一款新硬件都要從零開始積累數據。陶大程做了一個生動的類比:“這就像 PC 發展早期,每臺計算機的軟件只能在自己的硬件上運行,直到操作系統的出現纔打破了壁壘。機器人行業今天缺少的,正是一個能夠抽象掉硬件差異的統一智能層。”


王子爲對此表示贊同,他將此總結爲模型壁壘:“目前市場上沒有足夠泛化的模型。”


針對這一困局,李曙光提出了更具前瞻性的科研思路:突破AI 的自主建模、學習與演化技術。他認爲,智能不應只是大腦的職責,未來的方向應該是讓AI 具備在物理世界中自我演化的能力。


“規模化與泛化是深度耦合的。”陶大程總結道,沒有規模化的數據和訓練基礎,泛化就無從談起;而沒有跨本體的泛化能力,規模化產業落地也無法實現。這種聯動關係意味着,物理 AI 的突破需要的不是單一環節的技術進步,而是從數據採集、模型到本體適配的全鏈路協同演進。


範式演化


“數字智能”能否真正“落地具身”,Sim-to-Real(虛實遷移)起到了決定性作用。如何讓 AI 高效、安全且規模化地習得真實世界的生存經驗?


物理 AI 的目標是讓機器人、自動駕駛車、智能設備等在真實物理世界中感知、推理並執行復雜動作。訓練這些系統需要海量交互數據,但真實世界的數據採集成本高、週期長,而且存在安全風險。


因此,行業普遍採用模擬環境進行大規模訓練:在虛擬世界中讓 AI 反覆試錯、積累經驗,然後將學到的策略“轉移”到真實硬件上。這就是 Sim-to-Real 過程。目前,主流路徑是先在高保真模擬器中大規模訓練,然後將策略“轉移”到真實機器人硬件上。


但“現實鴻溝”(Reality Gap)始終存在。這種差距導致轉移失敗率極高,比如機器人在虛擬環境中能熟練抓取,但在處理真實世界的摩擦力、光照噪聲或變形物體時卻頻頻失效。正如陶大程所言,傳統的 Sim-to-Real 依賴研究者手動設計物理引擎和調優參數,這種“手工活”在面對複雜現實時,不僅難以 Scale up(規模化),更無法觸及物理常識的深層邏輯。


爲了彌合這種差距,Real-to-Real(實對實)範式應運而生。它主張“實踐出真知”,讓機器人直接通過真實的物理交互進行閉環自舉。這種方式能最直接地解決策略的魯棒性與泛化問題,因爲它面對的就是真實的光照、噪聲與摩擦。但其代價同樣高昂:初始部署成本極高,每一次“試錯”都可能意味着硬件的損毀或安全風險。這種路徑雖然通往“黎明”,但在大規模規模化之前,極易在“前夜”耗盡資源。


進入 2026 年,行業正加速收斂至第三條路徑:Real-Sim-Real。即從真實世界中以人爲中心地採集高質量交互數據,用模型從真實數據中學習物理規律,生成海量虛擬變體/演化,再回真實硬件部署,形成終極數據飛輪。


如果把機器人學習比作人類成長:Sim-to-Real 先在書本/虛擬遊戲中學習,再實戰;Real-to-Real 直接在摸爬滾打中學習;Real-Sim-Real 實戰採集經驗,腦中覆盤演練,再實戰。


這三種範式的遞進,本質上是在尋找成本、規模與安全之間的平衡,也標誌着物理 AI 研發正式從作坊式的手工調優進入了工業化的閉環自舉。當真實世界的每一秒交互都能轉化爲虛擬世界的無限演化,原本橫亙在實驗室與現實之間的“現實鴻溝”正在被這種高頻的虛實反饋填平。


落地之路


儘管挑戰重重,但物理AI 的商業化齒輪已經開始轉動。如何判斷這項技術將在哪些場景率先落地?陶大程提出了一個清晰的階梯式分析框架:“物理AI 率先落地的,一定是那些能用規則描述的世界;最後攻克的,一定是那些只能用常識理解的世界。”


第一個階梯是理解“空間”。在巡檢、安防、文旅等場景中,所需的核心能力主要集中在導航與避障。這類任務本質上可以被規則高度定義,比如“從 A 點到 B 點,沿途檢測異常”,其成功標準明確,容錯空間也相對充裕。因此,這是當前物理 AI 最先能夠實現規模化落地的層級。


第二個階梯是理解“物體”。當場景進入工廠、倉儲與即時零售,任務難度陡然上升。此時,機器人不僅要知道“往哪走”,還要知道“怎麼拿”。這要求 AI 在理解空間的基礎上,疊加對萬千物體的識別與精細操作。


這一層級已有巨頭先行。2025 年 9 月,由世界經濟論壇與波士頓諮詢聯合發佈的白皮書:《Physical AI: Powering the New Age of Industrial Operations》,其中就提到了兩個已大規模部署的物理 AI 工業案例:亞馬遜的倉儲履行系統和富士康的電子組裝生產線。


亞馬遜通過在其倉儲履行系統中深度整合具備感知與推理能力的物理 AI,實現了跨越式的效能飛躍:其客戶交付速度與整體運營效率均顯著提升了 25%,在生成式 AI 基礎模型的驅動下,龐大的機器人艦隊行駛效率再次優化 10%。尤爲難得的是,物理 AI 的引入並未帶來簡單的勞動力替代,反而使現場技能型崗位增加了 30%,並將站點事故率壓低了 15%,證明了智能自動化在保障安全與促進人才轉型上的雙重價值。


與此同時,精密製造巨頭富士康利用物理 AI 與數字孿生技術,徹底改寫了電子組裝線的生產邏輯。通過模擬仿真與實時自適應系統,富士康將新產線的部署時間縮短了 40%,從過去的數月縮減至數週甚至數天;在運營成本降低 15% 的同時,生產週期縮短了 20%–30%,缺陷率更是大幅下降 25%。


第三個階段是理解“人”。家庭場景是物理 AI 的終極命題。例如當一個人說“幫我收拾一下客廳”時,這背後的信息量是巨大的。這類判斷幾乎無法用規則窮舉,而是極度依賴對人類生活習慣、社會規範及個體偏好的深度理解。這意味着需要更長的技術成熟週期,但它代表了物理 AI 的終極價值,也是整個行業的長期方向。


“其本質原因在於,從理解‘空間’到‘物體’再到‘人’,機器人所需要的常識在呈指數級增長。”陶大程分析道。在巡檢場景中,規則能驅動 90% 的決策;而在家庭場景中,幾乎所有的決策都需要常識支撐。這些常識不能被編程,只能從大規模的物理世界交互經驗中習得。這也是爲什麼不同場景的成熟度會呈現出這樣的階梯。


在不確定中尋找確定


回到開頭,黃仁勳所宣告的物理 AI 的“ChatGPT 時刻”是否已經來臨?答案是否定的。


那究竟什麼纔是真正的里程碑?


作爲科學家,Harold Soh 並不急於給出結論。他認爲,“ChatGPT 時刻”往往具有滯後性,只有在事後審視時纔會清晰。在他看來,判斷物理 AI 是否真正解決問題的標準應是性能的階躍式提升:即方法能否實現跨環境泛化,對長尾的邊緣案例(Edge Cases)具備魯棒性,且無需極端的工程干預。“真正的里程碑,應該是這項技術變得足夠可靠且安全,以至於人們能基於此在現實世界中交付真正的價值和服務。”


如果說 Harold Soh 在尋找的是確定性的證據,那麼陶大程則在試圖構築確定性的動力。


在陶大程看來,物理AI 確實已處於黎明前的“前夜”。他指出,技術完備度方面,三大支柱已逼近臨界點。數據側,通過環境式採集與世界模型放大,可實現上億小時訓練數據規模;算力側,GPU 架構演進與國產生態成熟提供了底層支撐;模型側,世界模型、VLA 等技術路線正從“感知”走向“推理和預測”。


但技術就緒僅是必要條件,而非充分條件。陶大程認爲,物理 AI 正在復刻大語言模型的演進邏輯:從“技術完備”向“規模化 Scale up”跨越。這背後的核心驅動力,是產業界海量資源的投入。“大模型 Scaling Law 的驗證,本質上依賴‘產業投入→模型進步→應用場景→數據飛輪’的正向循環。”


這種視角上的差異,揭示了物理 AI 演進的兩面:一方面是科學界對安全、泛化與因果推斷的嚴苛校驗;另一方面是產業界通過全鏈路生態建設,試圖轉動那個決定性的技術飛輪。陶大程強調,產業端的突破會反向激發基礎研究的活力,最終形成產研互促的閉環。


“所以在我看來,物理 AI 所有的技術條件正在加速匯聚,而能否真正跨過這個臨界點,取決於產業界是否能夠在這個關鍵窗口期合理投入,把飛輪真正轉起來。”


他借用恩格斯的話總結,這條路是“從必然王國走向自由王國”。當物理 AI能夠處理那些只能用常識理解的世界時,它纔算真正迎來了屬於它的自由時刻。


參考鏈接:

1.https://time.com/7347210/physical-ai-revolution-rewiring-global-economy/

2.https://techcrunch.com/2026/01/18/techcrunch-mobility-physical-ai-enters-the-hype-machine/

3.https://www.weforum.org/stories/2025/09/what-is-physical-ai-changing-manufacturing/

4.https://github.com/keon/awesome-physical-ai

5.https://jdmeier.com/jensen-huang-on-the-future-of-ai/

6.https://www.forbes.com/sites/stevenwolfepereira/2026/01/12/how-jensen-huang-won-ces-2026/

7.https://www.forbes.com/sites/ronschmelzer/2026/01/10/physical-ai-made-waves-at-ces-2026-what-is-it/

8.https://www.ft.com/content/3449e77c-721b-4fc9-8082-c584d8f74848

9.https://www.youtube.com/watch?v=b8BDUa-xbyA

10.https://www.technologyreview.com/2026/01/22/1131661/yann-lecuns-new-venture-ami-labs/

11.https://reports.weforum.org/docs/WEF_Physical_AI_Powering_the_New_Age_of_Industrial_Operations_2025.pdf

12.https://www.turingpost.com/p/vlaplus

13.https://www.cl.cam.ac.uk/~ey204/teaching/ACS/R244_2022_2023/papers/ha_arXiv_2018.pdf

14.https://www.cbc.ca/news/business/consumer-electronics-show-photo-scroller-9.7035070

https://x.com/RaquelUrtasun/status/2016680733423628345


排版:胡莉花

Scroll to Top