站長之家(ChinaZ.com) 6月26日消息:機(jī)器人正迅速成為我們?nèi)粘I畹囊徊糠郑鼈兺ǔV槐痪幊虂硗瓿商囟ǖ娜蝿?wù)。盡管利用人工智能的最新進(jìn)展可能會導(dǎo)致機(jī)器人在更多方面發(fā)揮幫助作用,但構(gòu)建通用機(jī)器人的進(jìn)展較慢,部分原因是需要收集現(xiàn)實(shí)世界的培訓(xùn)數(shù)據(jù)。
日前谷歌 DeepMind 最新的論文介紹了一種自我改進(jìn)的機(jī)器人人工智能代理程序,名為 RoboCat,它學(xué)習(xí)執(zhí)行不同機(jī)械臂上的各種任務(wù),然后自動(dòng)生成新的訓(xùn)練數(shù)據(jù)來改善其技術(shù)。
DeepMind 表示,先前的研究探索了如何開發(fā)能夠按比例學(xué)習(xí)多項(xiàng)任務(wù)并將語言模型的理解能力與協(xié)助機(jī)器人的現(xiàn)實(shí)能力相結(jié)合的機(jī)器人。RoboCat 是第一個(gè)解決并適應(yīng)于多個(gè)任務(wù),并在不同的真實(shí)機(jī)器人上完成的代理程序。
(資料圖)
RoboCat 學(xué)習(xí)速度比其他最先進(jìn)的模型快得多。它可以通過僅使用 100 個(gè)演示來掌握新任務(wù),因?yàn)樗揽看罅亢投鄻踊臄?shù)據(jù)集。這種能力將有助于加速機(jī)器人學(xué)研究,因?yàn)樗鼫p少了人工監(jiān)督培訓(xùn)的需求,并是創(chuàng)建通用機(jī)器人的重要一步。
DeepMind 的研究科學(xué)家兼 RoboCat 團(tuán)隊(duì)成員之一的 Alex Lee 在接受 TechCrunch 的電子郵件采訪時(shí)表示:「我們證明了一個(gè)單一的大型模型可以在多個(gè)真實(shí)機(jī)器人實(shí)體上解決各種不同的任務(wù),并能夠快速適應(yīng)新的任務(wù)和實(shí)體。」
RoboCat 是受 Gato 啟發(fā)而開發(fā)的,Gato 是 DeepMind 的一個(gè)人工智能模型,可以分析和處理文本、圖像和事件。RoboCat 使用在模擬和現(xiàn)實(shí)生活中收集的圖像和行動(dòng)數(shù)據(jù)進(jìn)行訓(xùn)練。Lee 表示,這些數(shù)據(jù)來自虛擬環(huán)境中其他控制機(jī)器人模型、人類控制機(jī)器人以及之前的 RoboCat 模型的組合。
為了訓(xùn)練 RoboCat,DeepMind 的研究人員首先收集了 100 到 1000 個(gè)由人類控制的機(jī)器人臂執(zhí)行任務(wù)的示范。然后,他們在該任務(wù)上對 RoboCat 進(jìn)行了微調(diào),創(chuàng)建了一個(gè)專門的「分支」模型,平均訓(xùn)練了該任務(wù) 1 萬次。
利用分支模型生成的數(shù)據(jù)和示范數(shù)據(jù),研究人員不斷擴(kuò)充了 RoboCat 的訓(xùn)練數(shù)據(jù)集,并訓(xùn)練了后續(xù)的新版本 RoboCat。
RoboCat 的最終版本在模擬和實(shí)際世界中的 141 種不同變體的任務(wù)集上進(jìn)行了訓(xùn)練,總共涵蓋了 253 個(gè)任務(wù)。DeepMind 聲稱,在觀察了數(shù)小時(shí)的人類控制示范后,RoboCat 學(xué)會了操作不同的機(jī)器人臂。
雖然 RoboCat 在四種帶有雙爪臂的機(jī)器人上進(jìn)行了訓(xùn)練,但該模型能夠適應(yīng)一個(gè)帶有三指夾爪和兩倍可控輸入的更復(fù)雜的臂。
盡管在 DeepMind 的測試中,RoboCat 在不同任務(wù)上的成功率差異很大,從最低 13% 到最高 99%。這是在訓(xùn)練數(shù)據(jù)中有 1000 個(gè)示范的情況下;當(dāng)示范數(shù)量減少一半時(shí),成功率可預(yù)見地較低。
然而,在某些場景中,DeepMind 聲稱 RoboCat 只需 100 個(gè)示范就能學(xué)會新任務(wù)。
Lee 補(bǔ)充說:「通過提供有限數(shù)量的示范來進(jìn)行新任務(wù)的微調(diào),RoboCat 可以自動(dòng)生成更多數(shù)據(jù)以進(jìn)一步改進(jìn)?!刮磥?,研究團(tuán)隊(duì)的目標(biāo)是將 RoboCat 學(xué)習(xí)完成新任務(wù)所需的示范數(shù)量降低到 10 個(gè)以下。
閱讀DeepMind在 arXiv 上的論文:https://arxiv.org/abs/2306.11706
(舉報(bào))