首頁 > 資訊 > 機器人 > 正文

OpenAI 的前沿 AI 系統(tǒng),讓機器人手臂有人類靈活性

2018-08-09 17:25:42·  來源:機器人云
 
今年 6 月,由馬斯克、霍夫曼、彼得·蒂爾等一眾硅谷大佬聯(lián)合建立的非營利 AI 研究公司 OpenAI 曾占領(lǐng)了新聞頭條,因為其最新的人工智能 Dota 2 玩家——OpenAI Five——成功擊敗了業(yè)余人類玩家。今天,它再次吸引了人們的眼球:一個能夠以人類靈活度來操控物體的機器人系統(tǒng)。
今年 6 月,由馬斯克、霍夫曼、彼得·蒂爾等一眾硅谷大佬聯(lián)合建立的非營利 AI 研究公司 OpenAI 曾占領(lǐng)了新聞頭條,因為其最新的人工智能 Dota 2 玩家——OpenAI Five——成功擊敗了業(yè)余人類玩家。今天,它再次吸引了人們的眼球:一個能夠以人類靈活度來操控物體的機器人系統(tǒng)。



在一篇即將發(fā)表的論文“Dexterous In-Hand Manipulation”(靈巧的手工操作)中,OpenAI 的研究人員展示了一種使用增強模型的系統(tǒng),它在一系列反復(fù)的試驗與試錯中讓 AI 進行學(xué)習(xí),最終指導(dǎo)機器人用手臂以精準的尺度抓取并操控物體。更令人意外的是,它完全在計算機模擬中進行數(shù)字訓(xùn)練,沒有提供任何人類演示。

“對人類而言,靈巧地操控物體屬于基本日常,但對機器人卻頗具挑戰(zhàn),”團隊寫道。“目前的機器人通常是在有限的設(shè)置中完成特定的任務(wù),很多都不能駕馭復(fù)雜的末端執(zhí)行器。在這項研究中,我們演示了控制策略的培訓(xùn)方法,這些控制策略可以進行手工操作,并且可以部署在機器人上。”

那么他們是如何做到的?研究人員用 MuJoCo 物理引擎來模擬物理環(huán)境,讓真實的機器人可以在其中進行操作。他們還用 Unity 渲染圖像,通過培訓(xùn)計算機視覺模型來讓機器人識別姿勢。但這種方法有局限性,模擬只是物理模型的“粗略近似”,過渡到現(xiàn)實世界中可能就有點困難了。



圖丨 OpenAI 的機器人系統(tǒng)開發(fā)的新型物體操控手臂

他們的解決方案是將各個環(huán)境變量隨機化,比如物理(摩擦、重力、關(guān)節(jié)限制、物體尺寸等)和視覺外觀(亮度、姿勢、材料及紋理)。這既降低了過度擬合(神經(jīng)網(wǎng)絡(luò)在訓(xùn)練中受噪音干擾而對其性能產(chǎn)生負面影響的現(xiàn)象)的可能性,又增加了生成有效算法的機會,讓機器人基于真實世界手勢與姿勢選擇動作。

接下來,研究人員開始訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)模型。384 臺計算機,每臺配備 16 核 CPU,每小時可以產(chǎn)生約兩年的模擬經(jīng)驗。在一個 8 核 CPU 電腦上進行優(yōu)化后,他們又進入下一步:訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)可以通過三個模擬攝像機圖像來預(yù)測機器人手中物體的位置和方向。



圖丨模型訓(xùn)練流程圖

模型訓(xùn)練完成后就可以開始驗證測試了。研究人員使用的是幻影手臂(Shadow Dexterous Hand),它是一個擁有 24 個自由度的五指機器人手臂。為了操控物體,手臂被安裝在鋁制框架上。研究人員同時用兩組攝像機(動作捕捉攝像機與 RGB 攝像機)作為系統(tǒng)的眼睛,它可以追蹤物體的旋轉(zhuǎn)與方向。(雖然幻影手臂有觸摸傳感器,但團隊僅選擇使用其關(guān)節(jié)感應(yīng)功能對手指位置進行細粒度控制。)

團隊測試了兩次。第一次測試中,算法的任務(wù)是將標有字母的立方體重新定向。團隊隨機選取字母,AI 系統(tǒng)完成之后就更換新字母,如此一直重復(fù),直到立方體從機器人手中脫落,或者操控一個立方體要所需時間超過 1 分鐘,又或者機器人成功操作 50 次。在第二次測試中,研究人員將立方體替換為八角棱柱。

結(jié)果如何呢?這些模型不僅有“前所未有”的表現(xiàn),而前還順便發(fā)現(xiàn)了人類的抓取動作,比如三角抓?。ㄓ媚粗?、食指和中指抓取),棱鏡抓?。粗概c其它手指相互對立),還有指尖捏握。它們還學(xué)會了如何旋轉(zhuǎn)機器人手臂,以及如何利用重力、平移和扭轉(zhuǎn)力將物體放入理想位置。

“我們的系統(tǒng)不僅能重新發(fā)現(xiàn)人類的抓取技能,還能讓抓取動作更好地適應(yīng)自身的局限和能力,”他們寫道。

但它還不夠完美。它還沒有接受操控多個物體的訓(xùn)練,抓取球形物體很費勁。在第二次測試中,模擬和真實的機器人操作之間存在測量得到的性能差距。

但最終,該研究展現(xiàn)了當代深度學(xué)習(xí)算法的潛力。研究人員總結(jié)說:“現(xiàn)實世界中有一些問題是那些非學(xué)習(xí)型機器人無法解決的,我們的算法可以解決這些問題”。