耗時(shí)2年,Meta聯(lián)手CMU打造最強(qiáng)”通用機(jī)器人智能體“!
爆火的大模型,正在重塑「通用機(jī)器人智能體」的研究。
(資料圖片)
前段時(shí)間,谷歌DeepMind推出了耗時(shí)7個(gè)月打造的項(xiàng)目RT-2,能數(shù)學(xué)推理、辨認(rèn)明星,在網(wǎng)上爆火了一把。
除了谷歌,來(lái)自Meta、CMU的研究人員用了2年的時(shí)間,打造出史上最強(qiáng)的通用機(jī)器人智能體「RoboAgent」。
不同的是,RoboAgent,僅在7500個(gè)軌跡上完成了訓(xùn)練。
具體來(lái)說(shuō),RoboAgent在38個(gè)任務(wù)中,實(shí)現(xiàn)了12種不同的復(fù)雜技能,烘培、拾取物品、上茶、清潔廚房等等。
甚至,它的能力還能夠泛化到100種未知的場(chǎng)景中。
可以說(shuō),上得了廳堂,下得了廚房。
有趣的是,不論你怎么干擾它,RoboAgent依舊設(shè)法去完成任務(wù)。
RoboAgent究竟還能做什么?
烘焙、上茶、擦桌子全能手
首先,RoboAgent可以很流暢地拉開(kāi)或關(guān)上抽屜。
雖然在打開(kāi)時(shí)險(xiǎn)些碰倒了酸奶,但動(dòng)作的銜接上基本沒(méi)有卡頓,絲滑地完成了推拉的動(dòng)作。
除了抽屜,RoboAgent還能輕松打開(kāi)或關(guān)上微波爐的門(mén)。
但它沒(méi)有像人類一樣抓握把手,而是將自己卡進(jìn)了把手與門(mén)之間的空隙中,再使力開(kāi)合了微波爐的門(mén)。
同樣地,面對(duì)瓶瓶罐罐上的蓋子,RoboAgent也能精準(zhǔn)拿捏,打開(kāi)、蓋上——絕不拖泥帶水。
然而在廚房中,除了蓋著的調(diào)料罐,也有一些需要擰開(kāi)的罐子,比如料酒和老干媽等等....
好在,對(duì)于各種拾取和放置類任務(wù),RoboAgent基本是不在話下的。
視頻中,RoboAgent從抽屜里拿出東西、又或是把茶包放進(jìn)杯子里,打開(kāi)微波爐將碗放進(jìn)去等。展示的便是RoboAgent能夠理解泡茶、加熱食物等任務(wù)中包含的一系列動(dòng)作。
對(duì)以上九個(gè)動(dòng)作進(jìn)行排列組合,基本就可以覆蓋在廚房中一系列任務(wù)。
例如為烘焙做準(zhǔn)備、打掃廚房、上菜湯、泡茶、收納餐具等。
為烘焙做準(zhǔn)備時(shí),首先要拉開(kāi)抽屜,然后找到放在里面的黃油。找到后把黃油放到案板上,最后關(guān)上抽屜。
看起來(lái)RoboAgent這一系列動(dòng)作的前后邏輯順序已經(jīng)和真實(shí)的生活場(chǎng)景十分接近了。
但RoboAgent依舊不像人類一樣靈活,先不提人類有兩只手,可以一只手拿黃油,另一只手關(guān)抽屜。就算只用一只手,人類也可以拿著黃油的同時(shí)側(cè)手把抽屜推回去。而RoboAgent只能先把黃油放下,然后才去關(guān)抽屜。
看起來(lái)沒(méi)有那么靈活的樣子。
打掃廚房時(shí),RoboAgent也是四步走:
先關(guān)上抽屜,再關(guān)上微波爐。然后從旁邊拿出一個(gè)毛巾,最后擦案板。
上菜湯時(shí),RoboAgent先打開(kāi)微波爐,然后從微波爐里拿出放在里面的碗。之后把碗放在桌子上,最后把微波爐關(guān)上。
但這里RoboAgent的表現(xiàn)就沒(méi)有那么讓人放心了。
只能說(shuō)還好演示視頻中的碗是空的,如果真讓RoboAgent這樣在現(xiàn)實(shí)中拿裝了食物的碗盆,估計(jì)它剛拿起來(lái)食物就灑地到處都是了。
不過(guò),RoboAgent對(duì)泡茶倒是得心應(yīng)手:
先取開(kāi)茶罐上的蓋子,從里面拿出茶包,然后把茶包精準(zhǔn)降落在杯子里,最后撿起蓋子放回到罐子上。
但這離完美的一杯茶還差了一步:倒水。還是說(shuō)RoboAgent是在請(qǐng)我們喝有茶香的空氣嗎?
縱觀上述RoboAgent的表現(xiàn),雖然大部分任務(wù)都能順利完成,但只有一只手還是太不方便了。
希望Meta和CMU能多給RoboAgent安幾只手,這樣它就能同時(shí)干好幾件事,大大提高效率。
耗時(shí)2年,打造「通用機(jī)器人智能體」
Meta和CMU的研究人員希望,RoboAgent能夠成為一個(gè)真正的通用機(jī)器人智能體。
歷時(shí)2年,他們?cè)诓粩嗤七M(jìn)這一項(xiàng)目的前進(jìn)。RoboAgent是多向研究的集合體,同時(shí)也是未來(lái)更多研究方向的起點(diǎn)。
在「通用機(jī)器人智能體」發(fā)展過(guò)程中,研究人員深受許多最近可泛化的機(jī)器人學(xué)習(xí)項(xiàng)目的啟發(fā)。
當(dāng)前,在邁向通用機(jī)器人智能體路上,需要解決兩大難題。
一是,因果兩難。
幾十年來(lái),擁有一個(gè)能夠在不同環(huán)境中操縱任意物體的機(jī)器人一直是一個(gè)遙不可及的宏偉目標(biāo)。部分原因是缺乏數(shù)據(jù)集來(lái)訓(xùn)練這種智能體,同時(shí)也缺乏能夠生成此類數(shù)據(jù)的通用智能體。
二是,擺脫惡性循環(huán)。
為了擺脫這種惡性循環(huán),研究重點(diǎn)是開(kāi)發(fā)一種有效的范式。
它可以提供一個(gè)通用智能體,能夠在實(shí)際的數(shù)據(jù)預(yù)算下獲得多種技能,并將其推廣到各種未知的情況中。
論文地址:https://robopen.github.io/media/roboagent.pdf
根據(jù)介紹,RoboAgent建立在以下模塊化和可補(bǔ)償?shù)囊刂希?/p>
- RoboPen:
利用商品硬件構(gòu)建的分布式機(jī)器人基礎(chǔ)設(shè)施,能夠長(zhǎng)期不間斷運(yùn)行。
- RoboHive:
跨仿真和現(xiàn)實(shí)世界操作的機(jī)器人學(xué)習(xí)統(tǒng)一框架。
- RoboSet:
一個(gè)高質(zhì)量的數(shù)據(jù)集,代表不同場(chǎng)景中日常對(duì)象的多種技能。
- MT-ACT:
一種高效的語(yǔ)言條件多任務(wù)離線模仿學(xué)習(xí)框架。它通過(guò)在現(xiàn)有機(jī)器人經(jīng)驗(yàn)的基礎(chǔ)上創(chuàng)建一個(gè)多樣化的語(yǔ)義增強(qiáng)集合來(lái)倍增離線數(shù)據(jù)集,并采用一種具有高效動(dòng)作表示法的新型策略架構(gòu),以在數(shù)據(jù)預(yù)算范圍內(nèi)恢復(fù)高性能策略。
動(dòng)作分塊,全新架構(gòu)MT-ACT
為了學(xué)習(xí)通用的操作策略,機(jī)器人必須接觸豐富多樣的經(jīng)驗(yàn),包括各種技能和環(huán)境變化。
然而,收集如此廣泛的數(shù)據(jù)集的操作成本和現(xiàn)實(shí)挑戰(zhàn),限制了數(shù)據(jù)集的總體規(guī)模。
研究人員的目標(biāo)是通過(guò)開(kāi)發(fā)一種范式來(lái)解決這些限制,該范式可以在有限的數(shù)據(jù)預(yù)算下學(xué)習(xí)有效的多任務(wù)智能體。
如下圖所示,Meta和CMU團(tuán)隊(duì)提出了MT-ACT,即多任務(wù)動(dòng)作分塊Transformer(Multi-Task Action Chunking Transformer)。
這一方法由2個(gè)階段組成:
第一階段:語(yǔ)義增強(qiáng)
RoboAgent通過(guò)創(chuàng)建RoboSet(MT-ACT)數(shù)據(jù)集的語(yǔ)義增強(qiáng),從現(xiàn)有基礎(chǔ)模型中注入世界先驗(yàn)。
由此產(chǎn)生的數(shù)據(jù)集,可在不增加人類/機(jī)器人成本的情況下,將機(jī)器人的經(jīng)驗(yàn)與世界先驗(yàn)相乘。
然后,研究人員使用SAM分割目標(biāo)對(duì)象,并將其語(yǔ)義增強(qiáng)為具有形狀、顏色和紋理變化的不同對(duì)象。
第二階段:高效的策略表示
生成的數(shù)據(jù)集是多模態(tài)的,包含豐富多樣的技能、任務(wù)和場(chǎng)景。
研究人員將動(dòng)作分塊適應(yīng)于多任務(wù)設(shè)置,開(kāi)發(fā)出MT-ACT——一種新穎高效的策略表示,既能攝取高度多模態(tài)的數(shù)據(jù)集,又能在低數(shù)據(jù)預(yù)算設(shè)置中避免過(guò)度擬合。
如下,是MT-ACT策略的各個(gè)組成部分。
RoboSet數(shù)據(jù)集
研究的目標(biāo)是建立一個(gè)數(shù)據(jù)高效的機(jī)器人學(xué)習(xí)范例,對(duì)此,研究人員將自己限制在一個(gè)凍結(jié)的、預(yù)先收集的小型但多樣化的數(shù)據(jù)集上。
為了捕捉行為多樣性,研究人員還在不同的廚房場(chǎng)景中,將不同的技能應(yīng)用到不同的任務(wù)中。
在這個(gè)項(xiàng)目中,數(shù)據(jù)集 RoboSet(MT-ACT)由人類遠(yuǎn)程操作收集的7500 條軌跡組成。
該數(shù)據(jù)集包含 12 種技能,橫跨多個(gè)任務(wù)和場(chǎng)景。
下圖顯示了,數(shù)據(jù)集中技能的分布情況。
雖然常用的「拾取-放置」技能在數(shù)據(jù)集中占40% ,但也包括豐富的接觸技能,如擦拭、蓋帽,以及涉及鉸接物體的技能(翻轉(zhuǎn)-打開(kāi)、翻轉(zhuǎn)-關(guān)閉)。
研究人員在4個(gè)不同的廚房場(chǎng)景實(shí)例中收集整個(gè)數(shù)據(jù)集,這些場(chǎng)景中包含各種日常物品。
此外,團(tuán)隊(duì)還將每個(gè)場(chǎng)景實(shí)例與不同變化的物體進(jìn)行交換,從而讓每個(gè)技能接觸到多個(gè)目標(biāo)物體和場(chǎng)景實(shí)例。
數(shù)據(jù)增強(qiáng)
由于收集的數(shù)據(jù)集無(wú)法滿足對(duì)場(chǎng)景和物體多樣性的需求,因此研究人員通過(guò)離線添加不同變化的場(chǎng)景來(lái)增加數(shù)據(jù)集,同時(shí)保留每個(gè)軌跡中的操縱行為。
基于最近在分割和局部重繪(inpainting)模型取得的進(jìn)展,研究人員從互聯(lián)網(wǎng)數(shù)據(jù)中提煉出真實(shí)世界的語(yǔ)義先驗(yàn),以結(jié)構(gòu)化的方式修改場(chǎng)景。
MT-ACT架構(gòu)
MT-ACT的策略架構(gòu)設(shè)計(jì)為一個(gè)有足夠容量的Transformer的模型,可以處理多模態(tài)多任務(wù)機(jī)器人數(shù)據(jù)集。
為了捕捉多模態(tài)數(shù)據(jù),研究人員沿用了之前的研究成果,加入了將動(dòng)作序列編碼為潛在風(fēng)格嵌入式z的CVAE。
為了建立多任務(wù)數(shù)據(jù)模型,研究采用了預(yù)訓(xùn)練的語(yǔ)言編碼器,該編碼器可學(xué)習(xí)特定任務(wù)描述的嵌入。
為了減少?gòu)?fù)合誤差問(wèn)題,在每個(gè)時(shí)間步預(yù)測(cè)未來(lái)H步的行動(dòng),并通過(guò)對(duì)特定時(shí)間步預(yù)測(cè)的重疊行動(dòng)進(jìn)行時(shí)間平滑來(lái)執(zhí)行。
另外,為了提高對(duì)場(chǎng)景變化的穩(wěn)健性,研究人員通過(guò)4個(gè)拍照角度為MT-ACT策略提供了工作空間的四個(gè)不同視圖。
Transformer編碼器以當(dāng)前的時(shí)間步長(zhǎng)、機(jī)器人的當(dāng)前關(guān)節(jié)姿態(tài)、CVAE 的風(fēng)格嵌入z,以及語(yǔ)言嵌入T作為輸入。
然后,再使用基于FiLM的調(diào)節(jié)方法,以確保圖像token能夠可靠地集中在語(yǔ)言指令上,從而在一個(gè)場(chǎng)景中可能存在多個(gè)任務(wù)時(shí),MT-ACT策略不會(huì)對(duì)任務(wù)產(chǎn)生混淆。
編碼后的token將進(jìn)入具有固定位置嵌入的Transformer策略解碼器,最終輸出下一個(gè)動(dòng)作塊(H個(gè)動(dòng)作)。
在執(zhí)行時(shí),研究人員會(huì)對(duì)當(dāng)前時(shí)間步預(yù)測(cè)的所有重疊操作,取平均值(當(dāng)H > 1時(shí),行動(dòng)塊會(huì)重疊),并執(zhí)行產(chǎn)生平均后的行動(dòng)。
少量數(shù)據(jù),趕超谷歌RT-1
MT-ACT策略在真實(shí)世界表現(xiàn)如何?
研究人員通過(guò)實(shí)驗(yàn)評(píng)估了提出的框架樣本效率,以及智能體在不同場(chǎng)景中的通用性。
下圖,將MT-ACT策略與常用的模仿學(xué)習(xí)架構(gòu)進(jìn)行了比較。
研究人員只繪制了L1泛化的結(jié)果,因?yàn)檫@是大多數(shù)其他模仿學(xué)習(xí)算法使用的標(biāo)準(zhǔn)設(shè)置。
從圖中可以看出,所有只模擬下一步行為(而不是子軌跡)的方法都表現(xiàn)不佳。
在這些方法中,研究人員發(fā)現(xiàn)基于動(dòng)作聚類的方法(BeT)在多任務(wù)設(shè)置中的表現(xiàn)要差得多。
此外,由于研究采用的是低數(shù)據(jù)機(jī)制,需要大量數(shù)據(jù)的類似RT1的方法在這種情況下表現(xiàn)不佳。
相比之下,MT-ACT策略使用動(dòng)作檢查對(duì)子軌跡進(jìn)行建模,其表現(xiàn)明顯優(yōu)于所有基線方法。
圖7(右下)顯示了跨多個(gè)泛化級(jí)別(L1,l2和 L3)的所有方法的結(jié)果。
此外,研究人員還分別報(bào)告了每種活動(dòng)的泛化結(jié)果。從圖8中可以看到,每種語(yǔ)義增強(qiáng)方法都對(duì)每種活動(dòng)的性能產(chǎn)生了積極影響。
最后,研究人員還利用不同的設(shè)計(jì)來(lái)對(duì)架構(gòu)進(jìn)行了研究,比如動(dòng)作表示塊的大小、可塑性、穩(wěn)健性。
本文來(lái)源:新智元,原文標(biāo)題:《耗時(shí)2年,Meta聯(lián)手CMU打造最強(qiáng)「通用機(jī)器人智能體」!上茶擦碗多面手,輕松泛化100多種未知任務(wù)》
風(fēng)險(xiǎn)提示及免責(zé)條款 市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見(jiàn)、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。關(guān)鍵詞: