【熱聞】“具身智能”是個啥?
先解釋概念
(資料圖片僅供參考)
Embodied AI = Embodied Intelligence = 具象AI = 具身智能:有身體并支持物理交互的智能體,如家用服務(wù)機器人、無人車等?!?“身體力行”
Internet AI = Disembodied AI = 非具身智能:沒有物理身體,只能被動接受人類采集、制作好的數(shù)據(jù) ?!?“紙上談兵”或者說 “運籌帷幄”
機器人,是人工智能的最終解決方案。
具身智能機器人:首先,要能夠聽懂人類語言,然后,分解任務(wù),規(guī)劃子任務(wù),移動中識別物體,與環(huán)境交互,最終完成相應(yīng)任務(wù)。
具體點說,像人一樣能與環(huán)境交互感知,自主規(guī)劃、決策、行動、執(zhí)行能力的機器人/仿真人(指虛擬環(huán)境中)是AI的終極形態(tài),我們暫且稱之為“具身智能機器人”。它的實現(xiàn)包含了人工智能領(lǐng)域內(nèi)諸多的技術(shù),例如計算機視覺、自然語言處理、機器人學(xué)等。要想全面理解認識人工智能是很困難的。
(一)人工智能分支多 目前走向融合
全面認識人工智能之所以困難,是有客觀原因的。
1、人工智能是一個非常廣泛的領(lǐng)域。當前人工智能涵蓋很多大的學(xué)科,我把它們歸納為六個:
(1)計算機視覺(暫且把模式識別,圖像處理等問題歸入其中)、
(2)自然語言理解與交流(暫且把語音識別、合成歸入其中,包括對話)、
(3)認知與推理(包含各種物理和社會常識)、
(4)機器人學(xué)(機械、控制、設(shè)計、運動規(guī)劃、任務(wù)規(guī)劃等)、
(5)博弈與倫理(多代理人agents的交互、對抗與合作,機器人與社會融合等議題)。
(6)機器學(xué)習(xí)(各種統(tǒng)計的建模、分析工具和計算的方法),
領(lǐng)域各有大模型,迭代很快,gpt 5甚至能摸到NLP天花板!CV剛剛開始,但目前它們正在交叉發(fā)展,走向統(tǒng)一的過程中。
算法層的進步如日中天!
但具有物理實體、能夠與真實世界進行多模態(tài)交互,像人類一樣感知和理解環(huán)境,并通過自主學(xué)習(xí)物理體沒有出現(xiàn)!
具身指的不僅僅是具有物理身體,而且是具有與人一樣的身體體驗的能力。如圖中的貓一樣,主動貓是具身的智能,它可以在環(huán)境中自由行動,從而學(xué)習(xí)行走的能力。被動貓只能被動的觀察世界,最終失去了行走能力。
第一類就像我們給AI模型喂很多數(shù)據(jù),這些數(shù)據(jù)是人類整理,打過標簽的。我們將其定義為Internet AI,與Embodied AI相對應(yīng)。
谷歌公司 Everyday Robot 的SayCan已經(jīng)將機器人和對話模型結(jié)合到一起[6],能夠讓機器人在大型語言模型的幫助下,完成一個包含 16 個步驟的長任務(wù)。UC 伯克利的 LM Nav 用三個大模型(視覺導(dǎo)航模型 ViNG、大型語言模型 GPT-3、視覺語言模型 CLIP)教會了機器人在不看地圖的情況下按照語言指令到達目的地。
(二)具象AI和非具象 AI代際變遷
Internet AI(Disembodied AI)和Embodied AI的辨析
旁觀型標簽學(xué)習(xí)方式 v.s. 實踐性概念學(xué)習(xí)方法
Internet AI從互聯(lián)網(wǎng)收集到的圖像、視頻或文本數(shù)據(jù)集中學(xué)習(xí),這些數(shù)據(jù)集往往制作精良,其與真實世界脫節(jié)、難以泛化和遷移。1)數(shù)據(jù)到標簽的映射。2)無法在真實世界進行體驗學(xué)習(xí)。3)無法在真實世界做出影響。
Embodied AI通過與環(huán)境的互動,雖然以第一視角得到的數(shù)據(jù)不夠穩(wěn)定,但這種類似于人類的自我中心感知中學(xué)習(xí),從而從視覺、語言和推理到一個人工具象(Artificial Embodiment),可以幫助解決更多真實問題。
過去50年,非具身智能就占據(jù)了絕對的優(yōu)勢。不需要物理交互、不考慮具體形態(tài)、專注抽象算法的開發(fā)這一系列有利條件使得非具身智能得以迅速地發(fā)展。今天在算力和數(shù)據(jù)的支持下,深度學(xué)習(xí)這一強有力的工具大大推進了人工智能研究,非具身智能已經(jīng)如圖靈所愿、近乎完美地解決了下棋、預(yù)測蛋白質(zhì)結(jié)構(gòu)等抽象的獨立任務(wù)。互聯(lián)網(wǎng)上充沛的圖片和語義標注也使得一系列視覺問題取得了突出的成果。
然而這樣的智能顯然是有局限的。非具身智能沒有自己的眼睛,因此只能被動地接受人類已經(jīng)采集好的數(shù)據(jù)。非具身智能沒有自己的四肢等執(zhí)行器官,無法執(zhí)行任何物理任務(wù),也缺乏相關(guān)的任務(wù)經(jīng)驗。即使是可以辨識萬物的視覺大模型也不知道如何倒一杯水,而缺乏身體力行的過程,使得非具身智能體永遠也無法理解事物在物理交互中真實的意義。
具身智能具有支持感覺和運動的物理身體,可以進行主動式感知,也可以執(zhí)行物理任務(wù),沒有非具身智能的諸多局限性。更重要的是,具身智能強調(diào)“感知—行動回路”(perception-action loop)的重要性,即感受世界、對世界進行建模、進而采取行動、進行驗證并調(diào)整模型的過程。這一過程正是“紙上得來終覺淺,絕知此事要躬行”,與我們?nèi)祟惖膶W(xué)習(xí)和認知過程一致。
麻省學(xué)者Rodney Brooks 認為智能是在與環(huán)境的交互作用中表現(xiàn)出來的,因此是行為產(chǎn)生了智能。其基本觀點是讓機器人到環(huán)境中去,進行物理交互,從而積累和發(fā)展初級的智能。他因此將研究的重心放在了具身智能,研究如何讓機器人移動和適應(yīng)環(huán)境,于 1986年誕生了第一個基于感知行為模式的輪式機器人。
該機器人不需要中樞控制,實現(xiàn)了避讓、前進和平衡等功能。Rodney Brooks 也成為了人工智能和機器人學(xué)中行為主義的代表性人物。今天對如何發(fā)展真正的智能仍然是一個開放的問題,而具身智能作為符合人類認知規(guī)律的一種發(fā)展途徑也受到了廣泛的討論。
(三)具象AI技術(shù)條件成熟
時機成熟:各路大模型成熟
計算機視覺給具身智能提供了處理視覺信號的能力;
計算機圖形學(xué)開發(fā)的物理仿真環(huán)境給具身智能提供了真實物理世界的替代,大大加快了學(xué)習(xí)的速度并降低了成本;
自然語言給具身智能帶來了與人類交流、從自然文本中學(xué)習(xí)的可能;
認知科學(xué)進一步幫助具身智能體理解人類、構(gòu)建認知和價值。
具象AI實施方案——PIE 方案
具身智能有哪些模塊是一定跑不掉的?我們認為有 3 個模塊 —— 具身感知(Perception)、具身想象(Imagination)和具身執(zhí)行(Execution)。
1、全概念感知
首先,我們具身智能的感知應(yīng)該是什么樣的?跟之前計算機視覺的感知有什么不一樣?我們覺得它應(yīng)該是一個全感知。全感知的意思就是,我們能夠知道我們所操作的這個世界模型(world model)的各種各樣的知識,跟操作相關(guān)的知識,包括外形、結(jié)構(gòu)、語義,以及 48 個真實世界關(guān)節(jié)體類別等等。
2、具身交互感知
具身交互感知是什么呢?我們作交互的時候,其實除了視覺,還有觸覺,還有各種內(nèi)容交互的感覺。這些感覺其實也會帶來新的感知。就像我們剛才講的提一個桶或者打開微波爐,我們其實沒辦法從視覺上知道大概需要多少牛的力,所以其實很多時候我們對這個模型的估計是通過交互來獲得的。
3、具身想象
感知的東西都有了之后,你肯定會在腦子里想我該怎么去做,這是一個具身想象的過程。我們做了一個名為 RFUniverse 的仿真引擎,這個仿真引擎支持 7 種物體(比如關(guān)節(jié)可移動的、柔性的、透明的、流體的……)、87 種原子操作的仿真。
這些操作相當于我們把物體錄入之后,我們在仿真引擎里想象它大概應(yīng)該怎么做。跟以往不同的一點是,我們已經(jīng)有了這些物體的知識。它也支持強化學(xué)習(xí)、VR。這個項目也已經(jīng)開源。
4、具身執(zhí)行
接下來是一個更難的事情:我們想象完了之后怎么去做?大家覺得想完之后去做是不是挺簡單的?其實不是,因為你的想象和真實操作是有差距的。而且我們又希望這個操作能自適應(yīng)于各種事件的變化,這個難度就很大。
我們希望建一個元操作庫,這樣我們就能調(diào)用各種元操作來解決這個問題。在《Mother of all Manipulations:Grasping》這項工作中,我們從 Grasping 做起。給定一個點云,這個點云對應(yīng)的動作會去抓取,你怎么去產(chǎn)生那些 grasp pose?
(四)大廠進展
1、2023年3月谷歌和柏林工業(yè)大學(xué)的團隊重磅推出了史上最大的視覺-語言模型——PaLM-E,參數(shù)量高達5620億(GPT-3的參數(shù)量為1750億)。具體來說, PaLM-E-562B 集成了參數(shù)量 540B 的 PaLM 和參數(shù)量 22B 的視覺 Transformer(ViT),作為一種多模態(tài)具身視覺語言模型(VLM),PaLM-E不僅可以理解圖像,還能理解、生成語言,可以執(zhí)行各種復(fù)雜的機器人指令而無需重新訓(xùn)練。谷歌研究人員計劃探索PaLM-E在現(xiàn)實世界場景中的更多應(yīng)用,例如家庭自動化或工業(yè)機器人。他們希望PaLM-E能夠激發(fā)更多關(guān)于多模態(tài)推理和具身AI的研究。
2、2023年4月?微軟團隊在探索如何將 OpenAI研發(fā)的ChatGPT擴展到機器人領(lǐng)域[8],從而讓我們用語言直觀控制如機械臂、無人機、家庭輔助機器人等多個平臺。研究人員展示了多個 ChatGPT 解決機器人難題的示例,以及在操作、空中和導(dǎo)航領(lǐng)域的復(fù)雜機器人部署。
3、2023年5月英偉達創(chuàng)始人兼首席執(zhí)行官黃仁勛在ITF World 2023半導(dǎo)體大會上,認為“芯片制造是英偉達加速和AI計算的理想應(yīng)用”;“人工智能下一個浪潮將是"具身智能",他也公布了Nvidia VIMA,這是一個多模態(tài)具身人工智能系統(tǒng),能夠在視覺文本提示的指導(dǎo)下執(zhí)行復(fù)雜的任務(wù)。
Huang 描述了一種新型人工智能——“具身人工智能”,即能夠理解、推理并與物理世界互動的智能系統(tǒng)。
他說,例子包括機器人技術(shù)、自動駕駛汽車,甚至是聊天機器人,它們更聰明,因為它們了解物理世界。Huang 介紹了 NVIDIA VIMA,一種多模態(tài)人工智能。VIMA 可以根據(jù)視覺文本提示執(zhí)行任務(wù),例如“重新排列對象以匹配此場景”。它可以學(xué)習(xí)概念并采取相應(yīng)的行動,例如“這是一個小部件”、“那是一個東西”然后“把這個小部件放在那個東西里”。VIMA 在 NVIDIA AI 上運行,其數(shù)字雙胞胎在3D 開發(fā)和模擬平臺NVIDIA Omniverse中運行。Huang 說,了解物理學(xué)的人工智能可以學(xué)習(xí)模仿物理學(xué)并做出符合物理定律的預(yù)測。? ?
部分數(shù)據(jù)來源上海交通大學(xué)教授盧策吾在機器之心 AI 科技年會上,發(fā)表了主題演講 ——《具身智能》? 。
本文來源:?錦緞,原文標題:《“具身智能”是個啥?》
風(fēng)險提示及免責條款 市場有風(fēng)險,投資需謹慎。本文不構(gòu)成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資,責任自負。關(guān)鍵詞: