賽道Hyper | 自動駕駛通用大模型:UniAD技術(shù)遠(yuǎn)圖
北美時(shí)間6月21日,在CVPR(國際計(jì)算機(jī)視覺和模式識別頂級會議)上,出現(xiàn)該會議有史以來首篇以自動駕駛為主題的最佳論文。
這有點(diǎn)像ChatGPT應(yīng)用,底層技術(shù)源頭Transformer模型,來自Google在2017年的神經(jīng)信息處理系統(tǒng)大會上發(fā)表的一篇論文,在最終成了如今AGI(通用人工智能)技術(shù)的應(yīng)用突破口,在CVPR上獲得“最佳”桂冠的這篇論文,也可能會成為未來自動高階駕駛的技術(shù)應(yīng)用推進(jìn)器。
(資料圖片)
對高階自動駕駛技術(shù)的意義在于,首次提出了感知決策一體化的自動駕駛通用大模型——被稱為“UniAD”——開創(chuàng)了以全局任務(wù)為目標(biāo)的自動駕駛大模型架構(gòu)先河,為自動駕駛技術(shù)與產(chǎn)業(yè)發(fā)展提出了全新的方向和空間。
40年來首篇自駕主題最佳
CVPR,由IEEE舉辦的計(jì)算機(jī)視覺和模式識別領(lǐng)域的專業(yè)技術(shù)會議,英文全稱“Conference on Computer Vision and Pattern Recognition”,是AI領(lǐng)域最有學(xué)術(shù)影響力頂級技術(shù)會議中的一個(gè),每年舉辦一次。
在2023年這屆會議上,共有9155篇技術(shù)論文參與“最佳”角逐。
最終的結(jié)果,出現(xiàn)兩篇“最佳論文”,另外一篇是最佳學(xué)生論文。也就是在9155篇論文中,總共有3篇獲得“最佳”獎(Best Paper Award)的技術(shù)論文。
其中,有1篇由上海AI實(shí)驗(yàn)室、武漢大學(xué)和商湯科技三方聯(lián)合研究的主題最佳論文,即“Planning-oriented Autonomous Driving”(以路徑規(guī)劃為導(dǎo)向的自動駕駛),是CVPR從1983年開始舉辦40年以來,第一篇以自動駕駛為主題的最佳論文;同時(shí)也是該會議最近10年以來,作者第一單位來自中國機(jī)構(gòu)的最佳。
值得一提的是,這篇最佳論文的作者方之一,商湯科技,在本屆CVPR中,另有1篇最佳論文候選、7篇Highlight論文和54篇被收錄論文。業(yè)內(nèi)人士告訴華爾街見聞,上海AI實(shí)驗(yàn)室參與這篇論文撰寫的核心人士,均有商湯科技從業(yè)背景。
論文提出的“感知決策一體化的自動駕駛通用大模型”,被稱為“UniAD”,其核心技術(shù)價(jià)值是建立了一套端到端感知決策一體框架,融合多任務(wù)聯(lián)合學(xué)習(xí)新范式,可實(shí)現(xiàn)更有效的信息交換、協(xié)調(diào)感知預(yù)測決策,進(jìn)而能進(jìn)一步提升路徑規(guī)劃能力。這也是該文獲得Best Paper Award稱號的理由。
相當(dāng)多的自動駕駛業(yè)內(nèi)人士在談及高階自動駕駛技術(shù)時(shí),均有類似觀點(diǎn),即“高階自動駕駛在技術(shù)上并非難以逾越或不可解決,但法規(guī)難以同步”。這話除了字面意思,另外還隱含著技術(shù)涵義,也就是高階自動駕駛在行駛時(shí),與其他車輛或行人,還難以形成高效交互。這在本質(zhì)上屬于多任務(wù)應(yīng)用需求范疇。
這層涵義,其隱含的意思,也就是承認(rèn)高階自動駕駛的技術(shù),仍未實(shí)現(xiàn)有效突破。此前,大部分技術(shù)均著眼于解決模塊化問題,比如提升雷達(dá)掃描范圍和精度、域控制器性能或自動駕駛算力芯片性能等等。這些努力都很難兼顧“多任務(wù)”和“高性能”應(yīng)用需求,尤其是前者。
UniAD(自動駕駛通用算法框架:Unified Autonomous Driving)由4個(gè)基于Transformer解碼器的感知預(yù)測模塊以及1個(gè)規(guī)劃模塊組成,整體上是一套自動駕駛通用模型框架。
UniAD首次將感知、預(yù)測和規(guī)劃等3大類主任務(wù),以及包括目標(biāo)檢測、目標(biāo)跟蹤、場景建圖、軌跡預(yù)測、柵格預(yù)測和路徑規(guī)劃在內(nèi)的6小類子任務(wù),整合到統(tǒng)一的基于Transformer的端到端網(wǎng)絡(luò)框架內(nèi),成為一個(gè)全棧關(guān)鍵任務(wù)駕駛的通用模型。
在NuScenes真實(shí)場景數(shù)據(jù)集框架內(nèi),UniAD所有相關(guān)任務(wù)都達(dá)到SoTA(最佳性能:State of The Art),尤其是預(yù)測和規(guī)劃效果遠(yuǎn)超其他模型。
簡單來說,就解決“多任務(wù)”問題,通過多個(gè)Transformer模塊,UniAD實(shí)現(xiàn)了多任務(wù)層級式結(jié)合。對不同任務(wù)間的信息,也能實(shí)現(xiàn)全角度、多方位交互。通過多組查詢向量,UniAD達(dá)成了物體與地圖的建模,隨之將預(yù)測結(jié)果傳遞至規(guī)劃模塊,用于規(guī)劃安全路徑。
應(yīng)用這套框架的自動駕駛?cè)珬=鉀Q方案,能提升多目標(biāo)跟蹤準(zhǔn)確率提升20%,車道線預(yù)測準(zhǔn)確率提升30%,預(yù)測運(yùn)動位移和規(guī)劃的誤差分別降低38%和28%。
強(qiáng)在哪?能搞定多任務(wù)
若觀察該文的獲獎理由,不難發(fā)現(xiàn),解決“多任務(wù)”需求,UniAD從規(guī)劃入手,將全棧關(guān)鍵任務(wù)從端到端,融合進(jìn)一個(gè)統(tǒng)一的框架內(nèi)。
應(yīng)當(dāng)承認(rèn),高階自動駕駛技術(shù)應(yīng)用,在此前并非全是模塊化解決方案,也有相當(dāng)多的國際公司做了很多框架模式。
比如,美國Waymo和Cruise等自駕公司采用“獨(dú)立并行模型” 架構(gòu)設(shè)計(jì),美國特斯拉和中國小鵬汽車等,提出“多任務(wù)共享網(wǎng)絡(luò)”架構(gòu)模式,美國英偉達(dá)、德國馬克斯普朗克研究所(MPI)和英國Wayve自駕公司等,用了“直接”端到端方案。
UniAD首次將全棧關(guān)鍵任務(wù)端到端地包含在一個(gè)統(tǒng)一的網(wǎng)絡(luò)架構(gòu)中,提出了全新的“全??煽亍倍说蕉朔桨?,通過系統(tǒng)聯(lián)合調(diào)優(yōu),取得比此前所有架構(gòu)都要更優(yōu)的應(yīng)用效果。
從技術(shù)角度看,UniAD用了多組查詢向量(Query)串聯(lián)起多個(gè)任務(wù),實(shí)現(xiàn)網(wǎng)絡(luò)信息傳遞,隨后將所有融合的信息傳至最終的規(guī)劃模塊。同時(shí),每個(gè)模塊的Transformer架構(gòu),通過注意力機(jī)制,可有效實(shí)現(xiàn)對查詢向量的交互。
在實(shí)際應(yīng)用層面,UniAD能顯著節(jié)省計(jì)算資源,避免不同任務(wù)模塊的累積誤差(此前單一模塊化解決方案在多次運(yùn)行后形成難以解決的冗余誤差問題)。通過UniAD證明,一旦采用能兼顧“多任務(wù)”和“高性能”全??煽囟说蕉私鉀Q方案的框架,前序多任務(wù)能與后繼任務(wù)相互支持,最終提升了駕駛安全的體驗(yàn)度。
事實(shí)上,大多數(shù)端到端自動駕駛解決方案,也都關(guān)注了感知、決策和規(guī)劃三部分。但是,推進(jìn)這三部分形成的多任務(wù)在發(fā)揮實(shí)際作用時(shí),存在較大差異,沒有誰取設(shè)計(jì)一個(gè)統(tǒng)一框架,將這些滿足不同應(yīng)用需求的任務(wù),融合進(jìn)一個(gè)整體。
為何UniAD能解決多任務(wù)融合問題?
研究團(tuán)隊(duì)采用了多組查詢向量的全Transformer模型,同時(shí),團(tuán)隊(duì)還立足于“規(guī)劃”目標(biāo)做全棧設(shè)計(jì)。
舉個(gè)實(shí)際應(yīng)用例子,在車輛于晴天直行時(shí),UniAD能感知左前方等待的黑色車輛,預(yù)測其未來軌跡(即將左轉(zhuǎn)駛?cè)胱攒嚨能嚨溃?,并立即減速實(shí)現(xiàn)避讓,待黑色駛離后再恢復(fù)正常速度直行。
若處于雨天轉(zhuǎn)彎場景,在視野干擾較大且場景復(fù)雜的十字路口,UniAD能通過分割模塊生成十字路口的整體道路結(jié)構(gòu),做到大幅度左轉(zhuǎn)規(guī)劃。
UniAD號稱自動駕駛通用大模型,這個(gè)應(yīng)該如何理解?
這個(gè)框架奠定了多任務(wù)端到端自動駕駛大模型的基礎(chǔ),具有很強(qiáng)的可擴(kuò)展性。通過增加模型參數(shù)與擴(kuò)充海量數(shù)據(jù)雙輪驅(qū)動,可進(jìn)一步實(shí)現(xiàn)自動駕駛大模型,賦能行業(yè)應(yīng)用與相關(guān)自駕產(chǎn)品落地。
這段話是上海人工智能(AI)實(shí)驗(yàn)室李弘揚(yáng)博士的解釋。
華爾街見聞注意到,UniAD解決多任務(wù)應(yīng)用需求的能力,與商湯科技在今年3月14日發(fā)布的多模態(tài)多任務(wù)通用大模型“書生(INTERN)2.5”很可能有內(nèi)在聯(lián)系。
“書生(INTERN)2.5”,商湯科技稱之“有良好的圖文跨模態(tài)開放任務(wù)處理能力,可為自動駕駛、機(jī)器人等通用場景任務(wù)提供高效精準(zhǔn)的感知和理解能力支持”。其初代版本,由商湯科技、上海人工智能實(shí)驗(yàn)室、清華大學(xué)、香港中文大學(xué)和上海交通大學(xué),于2021年11月首次共同發(fā)布,并持續(xù)聯(lián)合研發(fā)。
商湯科技稱,書生(INTERN)2.5致力于多模態(tài)多任務(wù)通用模型的構(gòu)建,可接收處理各種不同模態(tài)的輸入,并采用統(tǒng)一的模型架構(gòu)和參數(shù)處理各種不同的任務(wù)。
風(fēng)險(xiǎn)提示及免責(zé)條款 市場有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。關(guān)鍵詞: