Physical Intelligence 核心技術(shù)團(tuán)隊(duì)分享:物理世界的“Vibe Coding”如何實(shí)現(xiàn)?
PI團(tuán)隊(duì)致力于構(gòu)建能夠理解多模態(tài)信息并執(zhí)行復(fù)雜任務(wù)的機(jī)器人模型,他們的最新成果VLA模型π?.?展示了在開放世界中實(shí)現(xiàn)泛化和穩(wěn)健性能的潛力。文章詳細(xì)解讀了VLA模型與LLM、VLM的關(guān)系,PI團(tuán)隊(duì)如何從零構(gòu)建數(shù)據(jù)管線,以及他們提出的“知識(shí)絕緣”機(jī)制如何創(chuàng)新性地重構(gòu)訓(xùn)練流程。
通用機(jī)器人是 AGI 從數(shù)字世界走向物理世界的重要路徑,而在 AI robotcis 這個(gè)主題下,Physical Intelligence 無疑是最具技術(shù)深度和研究影響力的團(tuán)隊(duì)之一。今年 4 月,PI 以 π? 為基礎(chǔ),新發(fā)布了一個(gè)在開放世界具有泛化能力的 VLA 模型 π?.?,PI 表示 π?.? 在一些未知環(huán)境中,依然能夠展現(xiàn)出與在原始訓(xùn)練環(huán)境相近的表現(xiàn)。
那么,從技術(shù)視角看,VLA 與 LLM、VLM 之間究竟是什么關(guān)系?為了實(shí)現(xiàn)通用機(jī)器人大腦,PI 是怎么從零構(gòu)建數(shù)據(jù)管線的?PI 新提出的“知識(shí)絕緣(Knowledge Insulation)”機(jī)制到底又是如何運(yùn)行的?
這篇文章是 Physical Intelligence 核心技術(shù)團(tuán)隊(duì)對(duì)機(jī)器人過去和當(dāng)下技術(shù)路徑的解讀,并分享了 PI 在數(shù)據(jù)采集、算法設(shè)計(jì)以及 multi-robot 通用模型領(lǐng)域的前沿技術(shù)探索:
VLM 在 LLM 基礎(chǔ)上拓展了視覺感知能力,而 VLA 是 VLM 在機(jī)器人領(lǐng)域的進(jìn)一步應(yīng)用;
PI 團(tuán)隊(duì)幾乎從頭搭建了整個(gè)數(shù)據(jù)引擎,而且通過實(shí)驗(yàn),PI 證明了提高數(shù)據(jù)的多樣性是提升機(jī)器人泛化的關(guān)鍵路徑;
為了解決傳統(tǒng)模型訓(xùn)練的缺點(diǎn),PI 提出了“知識(shí)絕緣(Knowledge Insulation)”機(jī)制,創(chuàng)新性地重構(gòu)了訓(xùn)練流程;
在開放世界部署機(jī)器人的三大難題分別是數(shù)據(jù)缺口、性能不穩(wěn)健和硬件平臺(tái)遷移非常復(fù)雜;
未來,PI 希望能推動(dòng)軟硬件的深度融合,用戶可以設(shè)計(jì)和定制硬件,實(shí)現(xiàn)“物理世界的 vibe coding”。
……
01.VLA 是 VLM 在機(jī)器人領(lǐng)域的應(yīng)用
如今,機(jī)器人雖然在工業(yè)等結(jié)構(gòu)化生產(chǎn)線上已取得巨大成功,但在家庭、辦公室、公共空間等開放場(chǎng)景中,它們的靈活性和智能水平依然遠(yuǎn)不及人類,因此我們必須進(jìn)一步擴(kuò)展 LLM 的能力空間。
VLM 在 LLM 基礎(chǔ)上拓展了視覺感知能力
視覺-語言模型(Visual-Language Model, VLM)是一類結(jié)合視覺和語言信息的多模態(tài)模型,能夠理解并生成與圖像內(nèi)容相關(guān)的自然語言描述,或者根據(jù)文本 prompt 進(jìn)行圖像分析。與 LLM 相比,VLM 在語言理解能力的基礎(chǔ)上新整合了視覺信息,不僅能處理純文本輸入,還能處理和生成涉及視覺內(nèi)容的復(fù)雜信息。
對(duì)大多數(shù) researcher 來說,VLM 的訓(xùn)練流程已經(jīng)比較完善了。具體來說,VLM 以圖像和文本為輸入,通過預(yù)訓(xùn)練的 Transformer 架構(gòu),結(jié)合 prompt 自回歸地生成文本輸出。常規(guī)訓(xùn)練流程通常是在獲得一個(gè) pre-training 模型后,再從互聯(lián)網(wǎng)上抓取通用數(shù)據(jù),并輔以少量與特定任務(wù)相關(guān)的數(shù)據(jù)進(jìn)行補(bǔ)充,再在大規(guī)模集群上進(jìn)行微調(diào),最后借助現(xiàn)成的推理與部署工具將模型部署到云端。
VLM 架構(gòu)
VLA 的目標(biāo)是直接輸出機(jī)器人動(dòng)作指令
VLM 讓機(jī)器能夠理解和生成自然語言描述,但與其他領(lǐng)域?qū)δP偷男枨笙啾?,機(jī)器人領(lǐng)域的需求存在根本差異。因?yàn)闄C(jī)器人不僅要理解場(chǎng)景,更需生成精確的動(dòng)作指令,實(shí)時(shí)驅(qū)動(dòng)機(jī)械執(zhí)行復(fù)雜任務(wù)。
VLM 處理圖像與文本指令的基本原理
視覺-語言-動(dòng)作模型(Visual-Language-Action,VLA)本質(zhì)上是 VLM 在機(jī)器人領(lǐng)域的應(yīng)用。它不僅能接收?qǐng)D像和文本輸入,還會(huì)整合機(jī)器人當(dāng)前的狀態(tài)信息,例如關(guān)節(jié)角度和機(jī)械臂位置。它的目標(biāo)不再是生成對(duì)場(chǎng)景的語言描述,而是直接輸出控制機(jī)器人的動(dòng)作指令。這一轉(zhuǎn)變帶來極大的工程挑戰(zhàn),因?yàn)闄C(jī)器人動(dòng)作需要保持高頻率、低延遲、連續(xù)且精確的控制,這與傳統(tǒng)文本生成模型在處理連續(xù)動(dòng)作序列的需求存在本質(zhì)差異。
VLA 架構(gòu)
過去三年,多模態(tài) LLM 和 VLM 已經(jīng)從最初的對(duì)話系統(tǒng),逐步發(fā)展為融合視覺編碼、強(qiáng)化學(xué)習(xí)等的多模態(tài)推理系統(tǒng),在編碼輔助、內(nèi)容創(chuàng)作等任務(wù)中表現(xiàn)出色。
而 VLA 的發(fā)展路徑與 VLM 類似,但起步稍晚。以 RT-2 為例,早期的多模態(tài)語言模型已經(jīng)開始引入視覺編碼器,一些模型甚至專門針對(duì)機(jī)器人任務(wù)進(jìn)行訓(xùn)練。雖然這些模型主要作為概念驗(yàn)證的原型存在,但它們已經(jīng)能夠在熟悉的環(huán)境中,指揮機(jī)器人完成多樣的物體抓取任務(wù)。盡管有機(jī)器人數(shù)據(jù)量不足的限制,這些嘗試仍然極大地激發(fā)了業(yè)界對(duì)于通用機(jī)器人智能的關(guān)注和期待。
RT-2(Robotic Transformer 2)是 Google Research 推出的 VLA 模型,是基于 VLM 架構(gòu)進(jìn)行擴(kuò)展的,訓(xùn)練數(shù)據(jù)來源包括網(wǎng)頁圖文、機(jī)器人執(zhí)行示例以及其他多模態(tài)數(shù)據(jù)。
到了 2024 年下半年,一些針對(duì)機(jī)器人操作的多模態(tài)模型進(jìn)一步出現(xiàn),行業(yè)內(nèi)也相繼推出 Gemini for Robotics、NVIDIA GR00T 等方案,但這些系統(tǒng)仍主要屬于概念驗(yàn)證或早期示范階段。
VLMs 與 VLAs 技術(shù)演進(jìn)
02.機(jī)器人的智能發(fā)展:能力、泛化和性能
PI 團(tuán)隊(duì)的核心理念是,如果一件事能被人類遠(yuǎn)程遙控完成,那么模型大概率也能學(xué)會(huì)。這個(gè)想法源自早期對(duì) PR2 機(jī)器人的觀察。盡管 PR2 的硬件在當(dāng)時(shí)非常先進(jìn),但 PR2 的自主決策能力有限,仍然需要依賴人類遠(yuǎn)程控制或預(yù)設(shè)任務(wù)規(guī)劃。
PR2 機(jī)器人(Personal Robot 2)是由 Willow Garage 開發(fā)的一款服務(wù)機(jī)器人,因?yàn)榫哂虚_放平臺(tái)的設(shè)計(jì)以及豐富的軟件生態(tài)系統(tǒng)(如 ROS 機(jī)器人操作系統(tǒng)),所以被廣泛用于機(jī)器人研究和開發(fā)領(lǐng)域。
這一事實(shí)讓 PI 團(tuán)隊(duì)更加堅(jiān)信,機(jī)器人技術(shù)發(fā)展的核心阻礙并不在于硬件性能,而在于如何賦予機(jī)器人像人類一樣的智能,讓機(jī)器人能夠準(zhǔn)確感知復(fù)雜環(huán)境、理解多模態(tài)信息、靈活規(guī)劃并穩(wěn)健執(zhí)行動(dòng)作。PI 的目標(biāo)就是打造基于視覺、語言和動(dòng)作的統(tǒng)一模型,賦予機(jī)器人和人類相似的能力。
為了實(shí)現(xiàn)這一目標(biāo),PI 基于 VLA 進(jìn)行了相關(guān)研究。2024 年下半年,PI 發(fā)布了首款 multi-robot 通用模型 π?,這個(gè)模型具備在多種機(jī)器人平臺(tái)上執(zhí)行復(fù)雜任務(wù)的能力。Physical Intelligence 研究科學(xué)家 Jost Tobias Springenberg 評(píng)價(jià)這個(gè)模型是當(dāng)時(shí)最靈巧、最具實(shí)用性的 multi-robot 通用模型之一,并已經(jīng)開源。π? 還在架構(gòu)上進(jìn)行了優(yōu)化,使用了 diffusion model 來生成高頻率動(dòng)作,來滿足機(jī)器人對(duì)實(shí)時(shí)性和響應(yīng)速度的要求。
PI 認(rèn)為,機(jī)器人的智能發(fā)展可以從三個(gè)方面理解:能力(Capability)、泛化(Generalization)和性能(Performance)。
能力(Capability)指的是機(jī)器人是否能夠完成以前從未實(shí)現(xiàn)過的復(fù)雜任務(wù)。早期機(jī)器人大多只能做重復(fù)的工業(yè)流水線操作,難以應(yīng)對(duì)日常生活中復(fù)雜多變的場(chǎng)景,比如折疊衣服、組裝盒子或整理桌面等。
隨著 π? 的發(fā)布,PI 團(tuán)隊(duì)在多種平臺(tái)上演示了機(jī)器人可以完成多步驟操作任務(wù)的能力。在實(shí)際測(cè)試中,機(jī)器人表現(xiàn)出了接近人類的靈活應(yīng)對(duì)能力,比如執(zhí)行出現(xiàn)偏差時(shí)會(huì)主動(dòng)調(diào)整,甚至多次嘗試直到結(jié)果令人滿意。這種表現(xiàn)與傳統(tǒng)依賴預(yù)設(shè)路徑運(yùn)行的機(jī)器人完全不同,也印證了團(tuán)隊(duì)的觀點(diǎn):凡是遠(yuǎn)程操控能完成的事,模型同樣可以通過學(xué)習(xí)來實(shí)現(xiàn)。
然而,能力本身還不足以支撐機(jī)器人走向?qū)嵱没?。如果機(jī)器人只能在訓(xùn)練過的環(huán)境中工作,那么機(jī)器人的實(shí)際價(jià)值將大打折扣。因此,第二個(gè)方面是泛化(Generalization),即在完全陌生、未見過的環(huán)境中依然能夠正確執(zhí)行任務(wù)。
當(dāng)機(jī)器人具備了能力與泛化后,剩下的最大挑戰(zhàn)就是性能(Performance)。
PI 聯(lián)合創(chuàng)始人兼 CEO Karol Hausman 認(rèn)為,當(dāng)前模型仍處于“演示就緒(demo ready)”而非“部署就緒(deployment ready)”的階段。盡管能力和泛化方面都取得了顯著進(jìn)展,現(xiàn)階段機(jī)器人更多還是停留在演示層面,失敗的情況仍然頻繁出現(xiàn)。
而性能的提升不僅意味著需要更高的任務(wù)成功率,還包括穩(wěn)定性、速度和魯棒性。例如,在衣物折疊實(shí)驗(yàn)中,機(jī)器人可能動(dòng)作緩慢、偶爾出錯(cuò),但往往能通過自我糾正最終完成一整堆衣物的折疊工作。這種“犯錯(cuò)—修正—堅(jiān)持直到成功”的過程,使得機(jī)器人更接近人類的工作方式,而不再是傳統(tǒng)機(jī)器人“一旦出錯(cuò)就徹底失敗”的機(jī)械模式。
但性能的提升并不能單純依賴數(shù)據(jù)規(guī)模的堆積。Hausman 強(qiáng)調(diào),要讓機(jī)器人真正達(dá)到人類級(jí)別的性能,需要新的算法和新的思路,而不僅僅是更多的數(shù)據(jù)或更大的模型。這意味著未來的突破可能會(huì)來自于訓(xùn)練范式、決策機(jī)制和系統(tǒng)設(shè)計(jì)的創(chuàng)新。
因此,對(duì)于 PI 團(tuán)隊(duì)而言,下一階段的重點(diǎn)在于探索模型能力如何隨數(shù)據(jù)多樣性的增加而提升?;谶@一方向,團(tuán)隊(duì)開發(fā)了具備開放世界泛化(open world generalization)的 VLA 模型 PI 0.5(π?.?),目標(biāo)是讓機(jī)器人在跨任務(wù)、跨環(huán)境、跨平臺(tái)的條件下實(shí)現(xiàn)穩(wěn)定而可靠的泛化。目前已有初步結(jié)果顯示,π?.? 在一些未知環(huán)境中,依然能夠維持與原始訓(xùn)練環(huán)境相近的表現(xiàn)。
π?.? 協(xié)同訓(xùn)練數(shù)據(jù)框架
值得一提的是,在眾多潛在應(yīng)用場(chǎng)景中,家庭環(huán)境被選為 PI 模型的首個(gè)重點(diǎn)落地方向。這一選擇是基于以下考量:
- ?環(huán)境高度復(fù)雜:家庭物品豐富多樣,空間結(jié)構(gòu)復(fù)雜多變,人機(jī)交互頻繁且復(fù)雜,這是對(duì)機(jī)器人智能的極限考驗(yàn);
- ?需求非常明確:家庭對(duì)于自動(dòng)化家務(wù)的需求非常旺盛,比如衣物折疊、地面清潔、物品歸置等,市場(chǎng)潛力巨大;
- ?數(shù)據(jù)采集便利:可以通過家庭用戶反饋及遠(yuǎn)程操控進(jìn)行數(shù)據(jù)積累,來讓模型持續(xù)獲得多樣化場(chǎng)景數(shù)據(jù),進(jìn)一步提升泛化和魯棒性;
因此,PI 能夠利用家庭場(chǎng)景的豐富數(shù)據(jù)和明確需求,將模型從實(shí)驗(yàn)室驗(yàn)證階段快速推進(jìn)到真實(shí)環(huán)境進(jìn)行部署。
03.PI 如何重構(gòu)通用機(jī)器人模型研發(fā)模式?
PI 從零構(gòu)建機(jī)器人數(shù)據(jù)管線
Physical Intelligence 在機(jī)器人數(shù)據(jù)收集與模型訓(xùn)練方面采取了從零開始的系統(tǒng)性設(shè)計(jì)。目前市場(chǎng)上沒有現(xiàn)成的解決方案能夠同時(shí)滿足高魯棒性和高靈巧性的需求,因此 PI 團(tuán)隊(duì)幾乎從頭搭建了整個(gè)數(shù)據(jù)引擎,目標(biāo)是在短時(shí)間內(nèi)讓機(jī)器人具備初步的自主操作能力,同時(shí)為未來幾年的規(guī)?;瘮U(kuò)展奠定基礎(chǔ)。
實(shí)際經(jīng)驗(yàn)表明,數(shù)據(jù)管線的搭建和運(yùn)行是整個(gè)流程中最關(guān)鍵的部分之一。團(tuán)隊(duì)超過一半的工作都集中在數(shù)據(jù)系統(tǒng)的構(gòu)建、數(shù)據(jù)的有效收集,以及數(shù)據(jù)質(zhì)量的保障上。
具體來說,團(tuán)隊(duì)設(shè)計(jì)了一套可以動(dòng)態(tài)擴(kuò)展的任務(wù)集合,用來檢驗(yàn)?zāi)壳澳軌蛲瓿傻膭?dòng)作,比如疊衣服、買雜貨等。人類操作員可以通過專門設(shè)計(jì)的運(yùn)行環(huán)境和遠(yuǎn)程控制系統(tǒng)操控機(jī)器人。操作員借助引導(dǎo)臂,讓機(jī)器臂模仿自己的動(dòng)作,然后有專門的軟件將操作員的動(dòng)作轉(zhuǎn)換為機(jī)器臂末端的控制信號(hào)。通過這種方式,機(jī)器人不僅能展現(xiàn)復(fù)雜且細(xì)致的操作,也能收集到高質(zhì)量的數(shù)據(jù)用于訓(xùn)練。
PI 從 0 到 1 構(gòu)建數(shù)據(jù)引擎來驅(qū)動(dòng)機(jī)器人學(xué)習(xí)
整個(gè)數(shù)據(jù)采集過程由一個(gè)云端系統(tǒng)統(tǒng)一管理,這個(gè)系統(tǒng)能夠?qū)崟r(shí)監(jiān)控任務(wù)執(zhí)行情況,并動(dòng)態(tài)安排數(shù)據(jù)采集和標(biāo)注工作。標(biāo)注完成后,數(shù)據(jù)被存入大數(shù)據(jù)桶,再根據(jù)訓(xùn)練需求進(jìn)行篩選,投入模型訓(xùn)練流程。訓(xùn)練完成后,模型能夠掌握?qǐng)?zhí)行任務(wù)所需的策略,并展現(xiàn)一定程度的自主規(guī)劃與執(zhí)行能力。
屏幕上的每個(gè)小方塊代表某位操作員在某個(gè)周二執(zhí)行的具體任務(wù)
通過這套方法,數(shù)據(jù)采集取得了顯著進(jìn)展。項(xiàng)目初期,市場(chǎng)上最大規(guī)模的公開數(shù)據(jù)集是 Open Cross Embodiment 數(shù)據(jù)集,約包含 3800 小時(shí)的機(jī)器人操作數(shù)據(jù),這些數(shù)據(jù)主要來源于全球多家機(jī)器人研究實(shí)驗(yàn)室中的靜態(tài)場(chǎng)景。
Open Cross Embodiment 數(shù)據(jù)集中的靜態(tài)場(chǎng)景指的是在固定環(huán)境中進(jìn)行機(jī)器人操作,如機(jī)器臂在實(shí)驗(yàn)臺(tái)或受控空間內(nèi)完成抓取、搬運(yùn)等任務(wù),這些場(chǎng)景的環(huán)境結(jié)構(gòu)和擺放往往相對(duì)單一,缺乏真實(shí)生活場(chǎng)景的復(fù)雜動(dòng)態(tài)變化。
而 PI 團(tuán)隊(duì)在運(yùn)行自己的這套自主數(shù)據(jù)采集的流程六個(gè)月后,就累計(jì)收集了約 1 萬小時(shí)的機(jī)器人操作的片段,涵蓋了數(shù)十個(gè)不同的家庭環(huán)境和數(shù)百類任務(wù),例如折疊襯衫、物品搬運(yùn)和整理等。這些數(shù)據(jù)相比之前更貼近真實(shí)生活場(chǎng)景,任務(wù)類型也更豐富多樣。
滑動(dòng)查看 PI 自主采集數(shù)據(jù)流程
再過了六個(gè)月之后,團(tuán)隊(duì)不僅在靜態(tài)環(huán)境(如固定廚房、臥室的操作場(chǎng)景)中積累了更多數(shù)據(jù),也開始借助移動(dòng)操控系統(tǒng)進(jìn)行大規(guī)模數(shù)據(jù)采集。移動(dòng)操控系統(tǒng)指的是搭載在移動(dòng)底盤上的機(jī)器人臂,能夠在更大空間內(nèi)靈活移動(dòng)和操作,捕捉動(dòng)態(tài)變化的環(huán)境數(shù)據(jù)。這一階段采集的數(shù)據(jù)不僅任務(wù)范圍顯著擴(kuò)展,還大幅提升了數(shù)據(jù)的多樣性,具體體現(xiàn)在:
環(huán)境多樣性:涵蓋了數(shù)百種不同的場(chǎng)景,包括不同戶型的廚房、臥室、客廳等,不同環(huán)境中的家具布局、光照、物品種類和擺放都有差異;
動(dòng)態(tài)變化:相比早期靜態(tài)實(shí)驗(yàn)環(huán)境,移動(dòng)操控系統(tǒng)能捕捉到環(huán)境中物體被移動(dòng)、人與機(jī)器人的交互等動(dòng)態(tài)過程;
任務(wù)復(fù)雜度:從簡單抓取擴(kuò)展到折疊衣物、整理物品、搬運(yùn)等更加復(fù)雜、細(xì)致的日常生活操作。
數(shù)據(jù)規(guī)模和多樣性的提升使得機(jī)器人可以在多任務(wù)、多環(huán)境、多平臺(tái)條件下表現(xiàn)出更強(qiáng)的自主執(zhí)行能力和靈活性。
機(jī)器人在多樣場(chǎng)景中規(guī)?;瘮?shù)據(jù)訓(xùn)練后提升了任務(wù)自主執(zhí)行能力
特別的是,為了進(jìn)一步驗(yàn)證泛化的來源,團(tuán)隊(duì)在保持訓(xùn)練樣本總量不變的前提下,分別在不同類型的家庭環(huán)境中進(jìn)行訓(xùn)練,再讓模型在一個(gè)從未接觸過的家庭中進(jìn)行測(cè)試。結(jié)果發(fā)現(xiàn),訓(xùn)練所覆蓋的家庭越多,模型在新環(huán)境中的表現(xiàn)越好,甚至優(yōu)于專門在該環(huán)境中訓(xùn)練過的模型。這一發(fā)現(xiàn)證明了,提高數(shù)據(jù)的多樣性是提升機(jī)器人泛化的關(guān)鍵路徑。
訓(xùn)練場(chǎng)景越多,模型在開放世界的泛化能力越強(qiáng)
03.“知識(shí)絕緣機(jī)制”重構(gòu)訓(xùn)練流程
除了在機(jī)器人數(shù)據(jù)采集上進(jìn)行了系統(tǒng)性設(shè)計(jì),PI 團(tuán)隊(duì)還在模型算法架構(gòu)上實(shí)現(xiàn)了模塊化升級(jí)。新模型采用了多模態(tài)融合的設(shè)計(jì),能夠更有效地整合視覺、語言與動(dòng)作信息,實(shí)現(xiàn)更精準(zhǔn)的環(huán)境感知與任務(wù)理解。而且在數(shù)據(jù)方面,模型不僅使用了靜態(tài)和移動(dòng)機(jī)器人操作的多樣數(shù)據(jù),還融合了網(wǎng)絡(luò)圖文、目標(biāo)檢測(cè)和帶語言注釋的交互數(shù)據(jù)。
這些改進(jìn)都讓模型訓(xùn)練成為了一個(gè)難題,因?yàn)閭鹘y(tǒng)的訓(xùn)練方案存在明顯的兩難:如果直接用 diffusion model 訓(xùn)練主干網(wǎng)絡(luò),會(huì)存在削弱模型理解圖像和文字能力的風(fēng)險(xiǎn),同時(shí)模型的訓(xùn)練速度也會(huì)比較緩慢;如果僅用機(jī)器人數(shù)據(jù)進(jìn)行微調(diào),最后泛化能力又會(huì)效果不好。
災(zāi)難性遺忘(catastrophic forgetting)指神經(jīng)網(wǎng)絡(luò)在持續(xù)學(xué)習(xí)新任務(wù)時(shí),由于在面對(duì)新任務(wù)時(shí)有參數(shù)更新,模型在舊任務(wù)上學(xué)到的知識(shí)會(huì)被快速覆蓋或丟失的現(xiàn)象。在多模態(tài)或機(jī)器人學(xué)習(xí)中,如果模型在 pre-training 階段學(xué)會(huì)了較強(qiáng)的視覺和語言理解能力,但在后續(xù)用動(dòng)作數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)沒有妥善設(shè)計(jì)訓(xùn)練策略,就可能導(dǎo)致模型“遺忘”原有的語義理解能力,從而只能執(zhí)行低層控制而缺乏高層任務(wù)理解。
為解決這一問題,PI 的研究團(tuán)隊(duì)提出了“知識(shí)絕緣(Knowledge Insulation)”機(jī)制,創(chuàng)新性地重構(gòu)了訓(xùn)練流程:
首先,將連續(xù)動(dòng)作序列離散化為 text-like tokens,使主干網(wǎng)絡(luò)可以使用由自然語言處理的訓(xùn)練范式;
其次,在接入 Action Expert 擴(kuò)散模塊時(shí)截?cái)嗵荻然貍?,保護(hù)主干網(wǎng)絡(luò)免受擴(kuò)散損失(diffusion loss)的干擾。
PI “知識(shí)絕緣”機(jī)制相關(guān)論文
這個(gè)方法不僅避免了 Action Expert 擴(kuò)散模塊對(duì)主干網(wǎng)絡(luò)參數(shù)的沖擊,還使模型的訓(xùn)練速度提升了 10 倍,使 π?.? 在零樣本任務(wù)中的表現(xiàn)與微調(diào)模型不差上下,同時(shí)還保持原有的泛化能力。
具體來說,π?.? 使用的架構(gòu)以 pre-training 的 Transformer 為核心,并拓展出一個(gè) Action Expert Transformer 子模塊。主干網(wǎng)絡(luò)負(fù)責(zé)感知和理解場(chǎng)景語義,既能預(yù)測(cè)場(chǎng)景中的潛在問題,也能將人類的高層指令分解為可執(zhí)行的子任務(wù),例如將“清理我的臥室”解析為“拾起枕頭”等具體動(dòng)作。Action Expert Transformer 則接收主干網(wǎng)絡(luò)的中間結(jié)果,并以更高頻率運(yùn)行,結(jié)合 diffusion model 和流匹配目標(biāo)生成連續(xù)、平滑的控制動(dòng)作,實(shí)現(xiàn)從語義到物理執(zhí)行的高效銜接。
π?.? 數(shù)據(jù)架構(gòu)
此外,研究團(tuán)隊(duì)還提出了軟硬件解耦戰(zhàn)略,將智能軟件作為系統(tǒng)核心,從而降低對(duì)特定機(jī)器人硬件的依賴。通過打造高度可移植、可復(fù)用的軟件模型,系統(tǒng)能夠快速適配多種機(jī)器人平臺(tái),大幅提升了模型在實(shí)際部署中的靈活性與效率。
04.在開放世界部署機(jī)器人的三大難題
雖然 PI 對(duì)數(shù)據(jù)采集、模型架構(gòu)和訓(xùn)練等方面做了一系列的改進(jìn),但在開放世界中部署機(jī)器人,依然面臨著三大核心難題。
數(shù)據(jù)缺口
VLM 可以依賴海量公開的圖文數(shù)據(jù)進(jìn)行快速迭代,但機(jī)器人操作所需的數(shù)據(jù)遠(yuǎn)不如網(wǎng)絡(luò)文本那樣豐富與開放。不同于自動(dòng)駕駛在封閉道路中的“感知—避障”邏輯,機(jī)器人操作需要實(shí)際物理接觸,在無人干預(yù)下,任務(wù)難度是呈指數(shù)級(jí)增長的。因?yàn)槊看谓佑|都可能產(chǎn)生一系列不確定性,例如物體變形、摩擦系數(shù)變化或受擾動(dòng)等非線性效應(yīng),問題復(fù)雜度遠(yuǎn)遠(yuǎn)超過單純的路徑規(guī)劃。
而且數(shù)據(jù)的稀缺不僅在數(shù)量上,更在質(zhì)量上。收集大量錯(cuò)誤數(shù)據(jù)對(duì)機(jī)器人的行為改進(jìn)沒有幫助,因此我們需要獲取正確的數(shù)據(jù),也就是包含物理交互閉環(huán)反饋的時(shí)序數(shù)據(jù),例如機(jī)械臂施力與布料形變之間的對(duì)應(yīng)關(guān)系。由于缺乏類似互聯(lián)網(wǎng)這種通用數(shù)據(jù)源,在機(jī)器人領(lǐng)域,收集真實(shí)且有效的交互數(shù)據(jù)不僅門檻高,成本也極為昂貴。
性能不穩(wěn)健
Karol Hausman 及部分團(tuán)隊(duì)成員認(rèn)為,目前機(jī)器人 VLA 面臨的最大挑戰(zhàn)是性能的穩(wěn)健性,也就是如何真正“演示就緒(demo ready)”走向“部署就緒(deployment ready)”。
這個(gè)問題不是僅僅擴(kuò)大參數(shù)規(guī)模或增加數(shù)據(jù)量就能直接解決的,更需要在算法和架構(gòu)上實(shí)現(xiàn)突破。盡管在現(xiàn)階段,機(jī)器人在執(zhí)行任務(wù)時(shí)仍會(huì)出現(xiàn)錯(cuò)誤,但它們已經(jīng)展現(xiàn)出了類似人類的適應(yīng)能力,能夠通過“試錯(cuò)-修正”的方式自我調(diào)整,并進(jìn)行多次嘗試直至完成任務(wù),這使得機(jī)器人的行為更貼近真實(shí)的人類操作。
目前,雖然我們可以在 VLM 的基礎(chǔ)上構(gòu)建 VLA 模型,但機(jī)器人執(zhí)行任務(wù)時(shí),對(duì)動(dòng)作指令的頻率與延遲方面的要求極高,同時(shí)還必須具備應(yīng)對(duì)物理擾動(dòng)和感知不確定性的能力。π? 在開源后已經(jīng)完成了跨領(lǐng)域遷移驗(yàn)證,例如無人機(jī)的空中抓取和手術(shù)機(jī)器人的精細(xì)操作,但要實(shí)現(xiàn)商業(yè)化部署,仍需解決動(dòng)作執(zhí)行的時(shí)序錯(cuò)位問題。
因?yàn)槟壳皺C(jī)器人在執(zhí)行任務(wù)時(shí)通常會(huì)先獲得一次觀測(cè)結(jié)果,再進(jìn)行推理,但推理過程往往需要數(shù)百毫秒,在此期間模型會(huì)假設(shè)環(huán)境靜止不變,但現(xiàn)實(shí)世界是動(dòng)態(tài)的,當(dāng)新的動(dòng)作預(yù)測(cè)生成時(shí),環(huán)境狀態(tài)可能已經(jīng)發(fā)生改變,從而導(dǎo)致執(zhí)行偏差。
為應(yīng)對(duì)這一挑戰(zhàn),Kevin Zakka 提出了一種類似圖像修復(fù)(image inpainting)的方法。類似 diffusion models 在圖像中填補(bǔ)缺失區(qū)域,在機(jī)器人場(chǎng)景下,模型可以將已執(zhí)行的動(dòng)作視為“已知?jiǎng)幼鳌保╧nown actions),尚未執(zhí)行的部分則視為“缺失區(qū)域”(masked regions),并根據(jù)這些信息對(duì)未來的行動(dòng)軌跡進(jìn)行補(bǔ)全和修正。這種方式無需重新訓(xùn)練主模型,屬于純粹的算法改進(jìn)。換句話說,機(jī)器人在執(zhí)行當(dāng)前動(dòng)作塊的同時(shí),可以并行計(jì)算并修復(fù)后續(xù)軌跡,從而提升整體穩(wěn)健性。不過,Kevin 也強(qiáng)調(diào),如果未來能顯著提升推理速度,延遲帶來的問題將從根本上得到緩解。
Kevin Zakka 是 U.C. Berkeley Robot Learning Lab 的博士生,導(dǎo)師是 Pieter Abbeel ,目前關(guān)注于全身控制(humanoid control)、數(shù)據(jù)先驗(yàn)(data priors)與仿真等領(lǐng)域。
硬件平臺(tái)遷移非常復(fù)雜
Tobias 認(rèn)為真正制約大規(guī)模商業(yè)化和應(yīng)用落地的,并非性能穩(wěn)健性本身,而是跨硬件平臺(tái)的遷移與泛化。不同的機(jī)器人硬件在控制協(xié)議、感知系統(tǒng)和執(zhí)行機(jī)制上差異巨大,缺乏統(tǒng)一接口層,導(dǎo)致通用模型的跨平臺(tái)遷移非常復(fù)雜且成本很高。
Hausman 也指出,雖然目前硬件的機(jī)電一體化和傳感技術(shù)已有很大進(jìn)步,但早期的機(jī)器人 demo 就已經(jīng)表明了硬件其實(shí)已經(jīng)完全具備完成復(fù)雜任務(wù)的能力了,如前文所述,真正缺失的是具備類人智能的算法和模型。智能不足導(dǎo)致機(jī)器人在面對(duì)復(fù)雜、多變的現(xiàn)實(shí)環(huán)境時(shí)難以自主適應(yīng)和決策,進(jìn)而成為行業(yè)發(fā)展的主要阻礙。
因此,如果要在短時(shí)間內(nèi)將機(jī)器人大規(guī)模推向?qū)嶋H應(yīng)用,比如實(shí)現(xiàn)一年內(nèi)落地上千臺(tái)設(shè)備,有一個(gè)重要前提就是同一個(gè)模型能夠適配多種硬件平臺(tái),而無需針對(duì)每一種設(shè)備進(jìn)行繁瑣的個(gè)性化調(diào)整。
一個(gè)典型案例是 PI 需要在遠(yuǎn)離辦公地點(diǎn)的地方部署一臺(tái)咖啡機(jī)器人。PI 此前從未接觸過這款硬件設(shè)備,模型也沒有針對(duì)這個(gè)機(jī)器人硬件進(jìn)行過定制化訓(xùn)練,但它依然能夠自主制作一杯咖啡。
這個(gè)挑戰(zhàn)的復(fù)雜性也是遠(yuǎn)遠(yuǎn)超過自動(dòng)駕駛的。后者多在封閉環(huán)境中訓(xùn)練強(qiáng)化學(xué)習(xí)模型,目標(biāo)清晰、路徑明確。而機(jī)器人任務(wù),比如清理廚房,往往涉及多個(gè)非結(jié)構(gòu)化子目標(biāo),且機(jī)器人本身的體態(tài)、控制方式和傳感系統(tǒng)是高度異構(gòu)的,這些差異決定了機(jī)器人通用智能的研發(fā)不能照搬自動(dòng)駕駛的技術(shù)路徑,而必須重新設(shè)計(jì)任務(wù)表達(dá)和系統(tǒng)架構(gòu)。
目前還沒有成熟的標(biāo)準(zhǔn)方案能夠?qū)⑦@類大型機(jī)器人模型靈活部署到不同環(huán)境中,例如機(jī)器人本地或設(shè)備端。由于缺乏可直接使用的通用解決方案,多場(chǎng)景、多設(shè)備部署依然處于探索階段。
05.未來可能會(huì)出現(xiàn)“機(jī)器人模型即服務(wù)”
對(duì)于上述的三大難題,PI 在未來 1–2 年時(shí)間里,選擇將重點(diǎn)放在了突破性能瓶頸這一問題上。
同時(shí)為減少對(duì)特定任務(wù)微調(diào)的依賴,PI 正在通過一系列算法改進(jìn),研發(fā)通用的任務(wù)“配方”,一旦這個(gè)“配方”實(shí)現(xiàn),那么用戶在獲得基礎(chǔ)模型后,就不再需要額外對(duì)模型做 post-training 就可以直接部署了。
PI 已經(jīng)構(gòu)建了一個(gè)覆蓋多場(chǎng)景、多任務(wù)的標(biāo)準(zhǔn)化評(píng)估體系,希望能通過統(tǒng)一的 benchmark 來量化模型性能,確保算法和模型在不同環(huán)境下的表現(xiàn)都是穩(wěn)定可靠的。PI 還通過與硬件廠商合作,希望能優(yōu)化軟硬件整體系統(tǒng)的性能,解決機(jī)器人在不同平臺(tái)上部署時(shí)的適配和性能問題。
這個(gè)評(píng)估體系由 Physical Intelligence 為 π? 開發(fā)。這一體系的核心目標(biāo)不僅是統(tǒng)計(jì)單一任務(wù)的成功率,而是在跨場(chǎng)景(不同家庭環(huán)境、不同物體組合)和跨任務(wù)(清理、折疊、搬運(yùn)、組裝等)下全面衡量模型的泛化表現(xiàn)。PI 通過開放 benchmark 的形式,將評(píng)估標(biāo)準(zhǔn)嵌入實(shí)際數(shù)據(jù)集與任務(wù)接口,使研究者和開發(fā)者能夠在相同條件下運(yùn)行 π? 或衍生模型,從而實(shí)現(xiàn)可重復(fù)、可比較的量化評(píng)估。
未來,團(tuán)隊(duì)希望構(gòu)建一個(gè)通用且可定制的機(jī)器人智能生態(tài),讓不同類型的機(jī)器人都能執(zhí)行多樣化的任務(wù)。類比 LLM 的發(fā)展,PI 希望打造一個(gè)智能平臺(tái),在這個(gè)平臺(tái)上,用戶可以通過自然語言發(fā)布命令或做少量示范,就能直接引導(dǎo)機(jī)器人完成復(fù)雜操作,從而降低機(jī)器人使用門檻,提高交互效率。
PI 還希望能推動(dòng)軟硬件的深度融合,用戶可以設(shè)計(jì)和定制硬件,同時(shí)像寫程序一樣向機(jī)器人注入智能算法。這種方式被稱為“物理世界的 vibe coding”,能夠讓機(jī)器人智能的開發(fā)和迭代更靈活、更高效。通過這種設(shè)計(jì),PI 希望打造一個(gè)開放協(xié)作的生態(tài)系統(tǒng),讓開發(fā)者、企業(yè)、硬件廠商和用戶共同推動(dòng)機(jī)器人技術(shù)的發(fā)展,實(shí)現(xiàn)機(jī)器人在實(shí)際生活和工作中的應(yīng)用。
如果上述這些目標(biāo)都能實(shí)現(xiàn)并推廣開來,將會(huì)對(duì)機(jī)器人產(chǎn)業(yè)和日常生活產(chǎn)生影響。PI 認(rèn)為,未來 5-10 年,在家庭中,具備通用智能能力的家庭機(jī)器人可能可以普及,它們可以完成疊衣服、清潔、整理物品等任務(wù),提高生活便利性。在工業(yè)領(lǐng)域,PI 的技術(shù)可以讓機(jī)器人快速適應(yīng)多變的生產(chǎn)線,提升制造效率和柔性生產(chǎn)能力。
這還可能催生新的商業(yè)模式——“機(jī)器人模型即服務(wù)”(RMaaS),通過云端和本地部署的智能平臺(tái),為企業(yè)和個(gè)人提供定制化機(jī)器人解決方案。
編譯:shiling、haozhen 編輯:Siqi 排版:范詩翎
本文由人人都是產(chǎn)品經(jīng)理作者【海外獨(dú)角獸】,微信公眾號(hào):【海外獨(dú)角獸】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!