OpenAI 的前沿 AI 系統(tǒng),讓機(jī)器人手臂有人類(lèi)靈活性
2018-08-09 17:25:42· 來(lái)源:機(jī)器人云
今年 6 月,由馬斯克、霍夫曼、彼得·蒂爾等一眾硅谷大佬聯(lián)合建立的非營(yíng)利 AI 研究公司 OpenAI 曾占領(lǐng)了新聞?lì)^條,因?yàn)槠渥钚碌娜斯ぶ悄?Dota 2 玩家——OpenAI Five——成功擊敗了業(yè)余人類(lèi)玩家。今天,它再次吸引了人們的眼球:一個(gè)能夠以人類(lèi)靈活度來(lái)操控物體的機(jī)器人系統(tǒng)。
今年 6 月,由馬斯克、霍夫曼、彼得·蒂爾等一眾硅谷大佬聯(lián)合建立的非營(yíng)利 AI 研究公司 OpenAI 曾占領(lǐng)了新聞?lì)^條,因?yàn)槠渥钚碌娜斯ぶ悄?Dota 2 玩家——OpenAI Five——成功擊敗了業(yè)余人類(lèi)玩家。今天,它再次吸引了人們的眼球:一個(gè)能夠以人類(lèi)靈活度來(lái)操控物體的機(jī)器人系統(tǒng)。

在一篇即將發(fā)表的論文“Dexterous In-Hand Manipulation”(靈巧的手工操作)中,OpenAI 的研究人員展示了一種使用增強(qiáng)模型的系統(tǒng),它在一系列反復(fù)的試驗(yàn)與試錯(cuò)中讓 AI 進(jìn)行學(xué)習(xí),最終指導(dǎo)機(jī)器人用手臂以精準(zhǔn)的尺度抓取并操控物體。更令人意外的是,它完全在計(jì)算機(jī)模擬中進(jìn)行數(shù)字訓(xùn)練,沒(méi)有提供任何人類(lèi)演示。
“對(duì)人類(lèi)而言,靈巧地操控物體屬于基本日常,但對(duì)機(jī)器人卻頗具挑戰(zhàn),”團(tuán)隊(duì)寫(xiě)道。“目前的機(jī)器人通常是在有限的設(shè)置中完成特定的任務(wù),很多都不能駕馭復(fù)雜的末端執(zhí)行器。在這項(xiàng)研究中,我們演示了控制策略的培訓(xùn)方法,這些控制策略可以進(jìn)行手工操作,并且可以部署在機(jī)器人上。”
那么他們是如何做到的?研究人員用 MuJoCo 物理引擎來(lái)模擬物理環(huán)境,讓真實(shí)的機(jī)器人可以在其中進(jìn)行操作。他們還用 Unity 渲染圖像,通過(guò)培訓(xùn)計(jì)算機(jī)視覺(jué)模型來(lái)讓機(jī)器人識(shí)別姿勢(shì)。但這種方法有局限性,模擬只是物理模型的“粗略近似”,過(guò)渡到現(xiàn)實(shí)世界中可能就有點(diǎn)困難了。

圖丨 OpenAI 的機(jī)器人系統(tǒng)開(kāi)發(fā)的新型物體操控手臂
他們的解決方案是將各個(gè)環(huán)境變量隨機(jī)化,比如物理(摩擦、重力、關(guān)節(jié)限制、物體尺寸等)和視覺(jué)外觀(亮度、姿勢(shì)、材料及紋理)。這既降低了過(guò)度擬合(神經(jīng)網(wǎng)絡(luò)在訓(xùn)練中受噪音干擾而對(duì)其性能產(chǎn)生負(fù)面影響的現(xiàn)象)的可能性,又增加了生成有效算法的機(jī)會(huì),讓機(jī)器人基于真實(shí)世界手勢(shì)與姿勢(shì)選擇動(dòng)作。
接下來(lái),研究人員開(kāi)始訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)模型。384 臺(tái)計(jì)算機(jī),每臺(tái)配備 16 核 CPU,每小時(shí)可以產(chǎn)生約兩年的模擬經(jīng)驗(yàn)。在一個(gè) 8 核 CPU 電腦上進(jìn)行優(yōu)化后,他們又進(jìn)入下一步:訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)可以通過(guò)三個(gè)模擬攝像機(jī)圖像來(lái)預(yù)測(cè)機(jī)器人手中物體的位置和方向。

圖丨模型訓(xùn)練流程圖
模型訓(xùn)練完成后就可以開(kāi)始驗(yàn)證測(cè)試了。研究人員使用的是幻影手臂(Shadow Dexterous Hand),它是一個(gè)擁有 24 個(gè)自由度的五指機(jī)器人手臂。為了操控物體,手臂被安裝在鋁制框架上。研究人員同時(shí)用兩組攝像機(jī)(動(dòng)作捕捉攝像機(jī)與 RGB 攝像機(jī))作為系統(tǒng)的眼睛,它可以追蹤物體的旋轉(zhuǎn)與方向。(雖然幻影手臂有觸摸傳感器,但團(tuán)隊(duì)僅選擇使用其關(guān)節(jié)感應(yīng)功能對(duì)手指位置進(jìn)行細(xì)粒度控制。)
團(tuán)隊(duì)測(cè)試了兩次。第一次測(cè)試中,算法的任務(wù)是將標(biāo)有字母的立方體重新定向。團(tuán)隊(duì)隨機(jī)選取字母,AI 系統(tǒng)完成之后就更換新字母,如此一直重復(fù),直到立方體從機(jī)器人手中脫落,或者操控一個(gè)立方體要所需時(shí)間超過(guò) 1 分鐘,又或者機(jī)器人成功操作 50 次。在第二次測(cè)試中,研究人員將立方體替換為八角棱柱。
結(jié)果如何呢?這些模型不僅有“前所未有”的表現(xiàn),而前還順便發(fā)現(xiàn)了人類(lèi)的抓取動(dòng)作,比如三角抓?。ㄓ媚粗?、食指和中指抓?。?,棱鏡抓取(拇指與其它手指相互對(duì)立),還有指尖捏握。它們還學(xué)會(huì)了如何旋轉(zhuǎn)機(jī)器人手臂,以及如何利用重力、平移和扭轉(zhuǎn)力將物體放入理想位置。
“我們的系統(tǒng)不僅能重新發(fā)現(xiàn)人類(lèi)的抓取技能,還能讓抓取動(dòng)作更好地適應(yīng)自身的局限和能力,”他們寫(xiě)道。
但它還不夠完美。它還沒(méi)有接受操控多個(gè)物體的訓(xùn)練,抓取球形物體很費(fèi)勁。在第二次測(cè)試中,模擬和真實(shí)的機(jī)器人操作之間存在測(cè)量得到的性能差距。
但最終,該研究展現(xiàn)了當(dāng)代深度學(xué)習(xí)算法的潛力。研究人員總結(jié)說(shuō):“現(xiàn)實(shí)世界中有一些問(wèn)題是那些非學(xué)習(xí)型機(jī)器人無(wú)法解決的,我們的算法可以解決這些問(wèn)題”。

在一篇即將發(fā)表的論文“Dexterous In-Hand Manipulation”(靈巧的手工操作)中,OpenAI 的研究人員展示了一種使用增強(qiáng)模型的系統(tǒng),它在一系列反復(fù)的試驗(yàn)與試錯(cuò)中讓 AI 進(jìn)行學(xué)習(xí),最終指導(dǎo)機(jī)器人用手臂以精準(zhǔn)的尺度抓取并操控物體。更令人意外的是,它完全在計(jì)算機(jī)模擬中進(jìn)行數(shù)字訓(xùn)練,沒(méi)有提供任何人類(lèi)演示。
“對(duì)人類(lèi)而言,靈巧地操控物體屬于基本日常,但對(duì)機(jī)器人卻頗具挑戰(zhàn),”團(tuán)隊(duì)寫(xiě)道。“目前的機(jī)器人通常是在有限的設(shè)置中完成特定的任務(wù),很多都不能駕馭復(fù)雜的末端執(zhí)行器。在這項(xiàng)研究中,我們演示了控制策略的培訓(xùn)方法,這些控制策略可以進(jìn)行手工操作,并且可以部署在機(jī)器人上。”
那么他們是如何做到的?研究人員用 MuJoCo 物理引擎來(lái)模擬物理環(huán)境,讓真實(shí)的機(jī)器人可以在其中進(jìn)行操作。他們還用 Unity 渲染圖像,通過(guò)培訓(xùn)計(jì)算機(jī)視覺(jué)模型來(lái)讓機(jī)器人識(shí)別姿勢(shì)。但這種方法有局限性,模擬只是物理模型的“粗略近似”,過(guò)渡到現(xiàn)實(shí)世界中可能就有點(diǎn)困難了。

圖丨 OpenAI 的機(jī)器人系統(tǒng)開(kāi)發(fā)的新型物體操控手臂
他們的解決方案是將各個(gè)環(huán)境變量隨機(jī)化,比如物理(摩擦、重力、關(guān)節(jié)限制、物體尺寸等)和視覺(jué)外觀(亮度、姿勢(shì)、材料及紋理)。這既降低了過(guò)度擬合(神經(jīng)網(wǎng)絡(luò)在訓(xùn)練中受噪音干擾而對(duì)其性能產(chǎn)生負(fù)面影響的現(xiàn)象)的可能性,又增加了生成有效算法的機(jī)會(huì),讓機(jī)器人基于真實(shí)世界手勢(shì)與姿勢(shì)選擇動(dòng)作。
接下來(lái),研究人員開(kāi)始訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)模型。384 臺(tái)計(jì)算機(jī),每臺(tái)配備 16 核 CPU,每小時(shí)可以產(chǎn)生約兩年的模擬經(jīng)驗(yàn)。在一個(gè) 8 核 CPU 電腦上進(jìn)行優(yōu)化后,他們又進(jìn)入下一步:訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)可以通過(guò)三個(gè)模擬攝像機(jī)圖像來(lái)預(yù)測(cè)機(jī)器人手中物體的位置和方向。

圖丨模型訓(xùn)練流程圖
模型訓(xùn)練完成后就可以開(kāi)始驗(yàn)證測(cè)試了。研究人員使用的是幻影手臂(Shadow Dexterous Hand),它是一個(gè)擁有 24 個(gè)自由度的五指機(jī)器人手臂。為了操控物體,手臂被安裝在鋁制框架上。研究人員同時(shí)用兩組攝像機(jī)(動(dòng)作捕捉攝像機(jī)與 RGB 攝像機(jī))作為系統(tǒng)的眼睛,它可以追蹤物體的旋轉(zhuǎn)與方向。(雖然幻影手臂有觸摸傳感器,但團(tuán)隊(duì)僅選擇使用其關(guān)節(jié)感應(yīng)功能對(duì)手指位置進(jìn)行細(xì)粒度控制。)
團(tuán)隊(duì)測(cè)試了兩次。第一次測(cè)試中,算法的任務(wù)是將標(biāo)有字母的立方體重新定向。團(tuán)隊(duì)隨機(jī)選取字母,AI 系統(tǒng)完成之后就更換新字母,如此一直重復(fù),直到立方體從機(jī)器人手中脫落,或者操控一個(gè)立方體要所需時(shí)間超過(guò) 1 分鐘,又或者機(jī)器人成功操作 50 次。在第二次測(cè)試中,研究人員將立方體替換為八角棱柱。
結(jié)果如何呢?這些模型不僅有“前所未有”的表現(xiàn),而前還順便發(fā)現(xiàn)了人類(lèi)的抓取動(dòng)作,比如三角抓?。ㄓ媚粗?、食指和中指抓?。?,棱鏡抓取(拇指與其它手指相互對(duì)立),還有指尖捏握。它們還學(xué)會(huì)了如何旋轉(zhuǎn)機(jī)器人手臂,以及如何利用重力、平移和扭轉(zhuǎn)力將物體放入理想位置。
“我們的系統(tǒng)不僅能重新發(fā)現(xiàn)人類(lèi)的抓取技能,還能讓抓取動(dòng)作更好地適應(yīng)自身的局限和能力,”他們寫(xiě)道。
但它還不夠完美。它還沒(méi)有接受操控多個(gè)物體的訓(xùn)練,抓取球形物體很費(fèi)勁。在第二次測(cè)試中,模擬和真實(shí)的機(jī)器人操作之間存在測(cè)量得到的性能差距。
但最終,該研究展現(xiàn)了當(dāng)代深度學(xué)習(xí)算法的潛力。研究人員總結(jié)說(shuō):“現(xiàn)實(shí)世界中有一些問(wèn)題是那些非學(xué)習(xí)型機(jī)器人無(wú)法解決的,我們的算法可以解決這些問(wèn)題”。
編輯推薦
最新資訊
-
同行四十載 共繪新慶鈴,慶鈴汽車(chē)創(chuàng)
2025-07-15 17:58
-
極狐+享界雙品牌發(fā)力,北汽藍(lán)谷迎來(lái)
2025-07-15 14:59
-
杜爾集團(tuán)將旗下環(huán)境技術(shù)業(yè)務(wù)出售給St
2025-07-15 11:58
-
比亞迪叉車(chē):用科技創(chuàng)新驅(qū)動(dòng)綠色物流
2025-07-10 10:40
-
全球首個(gè)!比亞迪率先實(shí)現(xiàn)媲美L4級(jí)智
2025-07-10 09:31