背景技術(shù):
1、機(jī)器學(xué)習(xí)模型接收輸入并且基于接收到的輸入生成輸出,例如預(yù)測(cè)輸出。一些機(jī)器學(xué)習(xí)模型是參數(shù)模型,并且基于接收到的輸入和模型參數(shù)的值生成輸出。
2、一些機(jī)器學(xué)習(xí)模型是深度模型,其采用多層模型來為接收到的輸入生成輸出。例如,深度神經(jīng)網(wǎng)絡(luò)是一種深度機(jī)器學(xué)習(xí)模型,其包括輸出層和一個(gè)或多個(gè)隱藏層,每個(gè)隱藏層對(duì)接收到的輸入應(yīng)用非線性變換以生成輸出。
技術(shù)實(shí)現(xiàn)思路
1、本說明書總體上描述了一種在一個(gè)或多個(gè)位所(location)的一個(gè)或多個(gè)計(jì)算機(jī)上以計(jì)算機(jī)程序形式實(shí)現(xiàn)的系統(tǒng),該系統(tǒng)在模擬中訓(xùn)練策略神經(jīng)網(wǎng)絡(luò),使得該策略神經(jīng)網(wǎng)絡(luò)能夠被用于控制真實(shí)世界中的機(jī)器人(也稱為智能體)。
2、本說明書中描述的主題的具體實(shí)施例能夠被實(shí)現(xiàn),以實(shí)現(xiàn)以下一個(gè)或多個(gè)優(yōu)點(diǎn)。
3、在模擬中訓(xùn)練控制策略并將其轉(zhuǎn)移到真實(shí)機(jī)器人(sim2real)避免了許多導(dǎo)致在真實(shí)世界環(huán)境中直接學(xué)習(xí)具有挑戰(zhàn)性的問題。這些問題的示例包括狀態(tài)估計(jì)困難、安全風(fēng)險(xiǎn)和數(shù)據(jù)效率。附加地,在模擬中的訓(xùn)練避免在實(shí)際部署機(jī)器人用于環(huán)境中之前對(duì)機(jī)器人造成磨損。
4、然而,創(chuàng)建準(zhǔn)確而逼真的模擬是困難的,并且計(jì)算成本高昂。換句話說,在模擬中生成場(chǎng)景同時(shí)對(duì)機(jī)器人如何感知和與世界互動(dòng)進(jìn)行準(zhǔn)確地建模是一個(gè)難題。
5、減小模擬與真實(shí)世界之間的差距,即提高訓(xùn)練的真實(shí)感,通常涉及收集少量數(shù)據(jù),然后進(jìn)行手動(dòng)調(diào)諧、使用已建立的系統(tǒng)識(shí)別工具,或者最近通過學(xué)習(xí)系統(tǒng)的部分的神經(jīng)網(wǎng)絡(luò)模型。對(duì)如下非結(jié)構(gòu)化場(chǎng)景的幾何和視覺外觀進(jìn)行準(zhǔn)確地建模尤其困難,所述非結(jié)構(gòu)化場(chǎng)景影響機(jī)器人與世界的接觸方式以及機(jī)器人感知其周圍環(huán)境的方式,例如在使用rgb相機(jī)時(shí)。通過使用更容易模擬的深度傳感器或lidar,可以部分緩解對(duì)rgb相機(jī)建模的需求,并且因此具有更小的sim2real差距,但這樣的折衷能夠限制機(jī)器人能夠?qū)W習(xí)的任務(wù)集合,并且限制這些技術(shù)適用的機(jī)器人范圍。通常,現(xiàn)有的照片逼真場(chǎng)景重建和渲染方法在戶外場(chǎng)景中效果不佳,并且使用了不是廣泛可用的專門3d掃描設(shè)置,因此限制了它們的適用性。
6、所描述的技術(shù)能夠通過自動(dòng)地生成具有高度逼真的rgb相機(jī)視圖渲染和精確的幾何的視覺復(fù)雜場(chǎng)景的模擬模型來克服這些挑戰(zhàn)。具體地,所描述的技術(shù)從機(jī)器人將與之交互的真實(shí)世界場(chǎng)景的單個(gè)視頻中學(xué)習(xí)場(chǎng)景合成模型,例如nerf模型,并且將所學(xué)習(xí)的模型與環(huán)境物理模擬器組合使用以生成具有足夠高保真度的組合模擬,以實(shí)現(xiàn)視覺引導(dǎo)的控制策略的模擬到真實(shí)的轉(zhuǎn)移。
7、因此,即使機(jī)器人在視覺復(fù)雜的場(chǎng)景中操作并且依賴于包括例如環(huán)境的rgb圖像的圖像的觀測(cè)(observation),并且需要操縱動(dòng)態(tài)對(duì)象以便成功地完成真實(shí)世界中的任務(wù),所描述的技術(shù)也實(shí)現(xiàn)將策略神經(jīng)網(wǎng)絡(luò)從模擬轉(zhuǎn)移到真實(shí)世界的零樣本(zero-shot)或少樣本(few-shot)轉(zhuǎn)移。
8、本說明書主題的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)在附圖和以下描述中闡述。本主題的其他特征、方面和優(yōu)點(diǎn)將從描述、附圖和權(quán)利要求中變得顯而易見。
1.一種由一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行的方法,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括:
3.根據(jù)權(quán)利要求2所述的方法,進(jìn)一步包括:
4.根據(jù)任一前述權(quán)利要求所述的方法,其中,獲得所述多個(gè)圖像包括:
5.根據(jù)權(quán)利要求4所述的方法,進(jìn)一步包括:
6.根據(jù)任一前述權(quán)利要求所述的方法,其中,生成用于訓(xùn)練所述策略神經(jīng)網(wǎng)絡(luò)的所述訓(xùn)練數(shù)據(jù)包括:
7.根據(jù)權(quán)利要求6所述的方法,其中,至少?gòu)乃鰣?chǎng)景的所述合成圖像生成該時(shí)間步的輸入圖像包括:
8.根據(jù)權(quán)利要求6或權(quán)利要求7所述的方法,其中,所述場(chǎng)景合成模型被配置為接收第一參考坐標(biāo)系中的相機(jī)視點(diǎn),并且其中,所述模擬器在世界參考坐標(biāo)系中操作,并且其中,基于在所述真實(shí)世界環(huán)境的所述模擬內(nèi)所述機(jī)器人相機(jī)在該時(shí)間步處的位所,從模擬器獲得輸入相機(jī)視點(diǎn)包括:
9.根據(jù)權(quán)利要求6至8中任一項(xiàng)所述的方法,進(jìn)一步包括:
10.根據(jù)任一前述權(quán)利要求所述的方法,進(jìn)一步包括:
11.根據(jù)權(quán)利要求10所述的方法,當(dāng)其從屬于權(quán)利要求8時(shí),其中,生成所述網(wǎng)格包括:
12.根據(jù)任一前述權(quán)利要求所述的方法,其中,所述觀測(cè)進(jìn)一步包括來自所述機(jī)器人的陀螺儀、所述機(jī)器人的加速度計(jì)或兩者的數(shù)據(jù)。
13.根據(jù)任一前述權(quán)利要求所述的方法,當(dāng)其從屬于權(quán)利要求2時(shí),其中,訓(xùn)練所述策略神經(jīng)網(wǎng)絡(luò)包括:
14.根據(jù)任一前述權(quán)利要求所述的方法,其中,所述場(chǎng)景合成模型是神經(jīng)輻射場(chǎng)(nerf)模型。
15.根據(jù)任一前述權(quán)利要求所述的方法,其中,捕獲所述多個(gè)圖像的所述相機(jī)與所述機(jī)器人相機(jī)不同,其中,所述相機(jī)數(shù)據(jù)進(jìn)一步包括指定捕獲所述多個(gè)圖像的所述相機(jī)的內(nèi)在參數(shù)的相機(jī)參數(shù),其中,所述場(chǎng)景輸入進(jìn)一步包括指定由所述場(chǎng)景合成機(jī)器學(xué)習(xí)生成的所述合成圖像應(yīng)匹配的輸入相機(jī)的內(nèi)在參數(shù)的輸入相機(jī)參數(shù),并且其中,從由所述場(chǎng)景合成機(jī)器學(xué)習(xí)模型生成的合成圖像生成由所述機(jī)器人的模型與之交互的所述環(huán)境的模擬中的場(chǎng)景的觀測(cè)包括:
16.一種系統(tǒng),包括:
17.一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)存儲(chǔ)介質(zhì),所述一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)指令,所述指令在由一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行時(shí),使所述一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1至15中任一項(xiàng)所述的相應(yīng)方法的操作。