成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

使用場(chǎng)景合成機(jī)器學(xué)習(xí)模型在模擬中訓(xùn)練策略神經(jīng)網(wǎng)絡(luò)的制作方法

文檔序號(hào):41867419發(fā)布日期:2025-05-09 18:32閱讀:3來源:國(guó)知局
使用場(chǎng)景合成機(jī)器學(xué)習(xí)模型在模擬中訓(xùn)練策略神經(jīng)網(wǎng)絡(luò)的制作方法


背景技術(shù):

1、機(jī)器學(xué)習(xí)模型接收輸入并且基于接收到的輸入生成輸出,例如預(yù)測(cè)輸出。一些機(jī)器學(xué)習(xí)模型是參數(shù)模型,并且基于接收到的輸入和模型參數(shù)的值生成輸出。

2、一些機(jī)器學(xué)習(xí)模型是深度模型,其采用多層模型來為接收到的輸入生成輸出。例如,深度神經(jīng)網(wǎng)絡(luò)是一種深度機(jī)器學(xué)習(xí)模型,其包括輸出層和一個(gè)或多個(gè)隱藏層,每個(gè)隱藏層對(duì)接收到的輸入應(yīng)用非線性變換以生成輸出。


技術(shù)實(shí)現(xiàn)思路

1、本說明書總體上描述了一種在一個(gè)或多個(gè)位所(location)的一個(gè)或多個(gè)計(jì)算機(jī)上以計(jì)算機(jī)程序形式實(shí)現(xiàn)的系統(tǒng),該系統(tǒng)在模擬中訓(xùn)練策略神經(jīng)網(wǎng)絡(luò),使得該策略神經(jīng)網(wǎng)絡(luò)能夠被用于控制真實(shí)世界中的機(jī)器人(也稱為智能體)。

2、本說明書中描述的主題的具體實(shí)施例能夠被實(shí)現(xiàn),以實(shí)現(xiàn)以下一個(gè)或多個(gè)優(yōu)點(diǎn)。

3、在模擬中訓(xùn)練控制策略并將其轉(zhuǎn)移到真實(shí)機(jī)器人(sim2real)避免了許多導(dǎo)致在真實(shí)世界環(huán)境中直接學(xué)習(xí)具有挑戰(zhàn)性的問題。這些問題的示例包括狀態(tài)估計(jì)困難、安全風(fēng)險(xiǎn)和數(shù)據(jù)效率。附加地,在模擬中的訓(xùn)練避免在實(shí)際部署機(jī)器人用于環(huán)境中之前對(duì)機(jī)器人造成磨損。

4、然而,創(chuàng)建準(zhǔn)確而逼真的模擬是困難的,并且計(jì)算成本高昂。換句話說,在模擬中生成場(chǎng)景同時(shí)對(duì)機(jī)器人如何感知和與世界互動(dòng)進(jìn)行準(zhǔn)確地建模是一個(gè)難題。

5、減小模擬與真實(shí)世界之間的差距,即提高訓(xùn)練的真實(shí)感,通常涉及收集少量數(shù)據(jù),然后進(jìn)行手動(dòng)調(diào)諧、使用已建立的系統(tǒng)識(shí)別工具,或者最近通過學(xué)習(xí)系統(tǒng)的部分的神經(jīng)網(wǎng)絡(luò)模型。對(duì)如下非結(jié)構(gòu)化場(chǎng)景的幾何和視覺外觀進(jìn)行準(zhǔn)確地建模尤其困難,所述非結(jié)構(gòu)化場(chǎng)景影響機(jī)器人與世界的接觸方式以及機(jī)器人感知其周圍環(huán)境的方式,例如在使用rgb相機(jī)時(shí)。通過使用更容易模擬的深度傳感器或lidar,可以部分緩解對(duì)rgb相機(jī)建模的需求,并且因此具有更小的sim2real差距,但這樣的折衷能夠限制機(jī)器人能夠?qū)W習(xí)的任務(wù)集合,并且限制這些技術(shù)適用的機(jī)器人范圍。通常,現(xiàn)有的照片逼真場(chǎng)景重建和渲染方法在戶外場(chǎng)景中效果不佳,并且使用了不是廣泛可用的專門3d掃描設(shè)置,因此限制了它們的適用性。

6、所描述的技術(shù)能夠通過自動(dòng)地生成具有高度逼真的rgb相機(jī)視圖渲染和精確的幾何的視覺復(fù)雜場(chǎng)景的模擬模型來克服這些挑戰(zhàn)。具體地,所描述的技術(shù)從機(jī)器人將與之交互的真實(shí)世界場(chǎng)景的單個(gè)視頻中學(xué)習(xí)場(chǎng)景合成模型,例如nerf模型,并且將所學(xué)習(xí)的模型與環(huán)境物理模擬器組合使用以生成具有足夠高保真度的組合模擬,以實(shí)現(xiàn)視覺引導(dǎo)的控制策略的模擬到真實(shí)的轉(zhuǎn)移。

7、因此,即使機(jī)器人在視覺復(fù)雜的場(chǎng)景中操作并且依賴于包括例如環(huán)境的rgb圖像的圖像的觀測(cè)(observation),并且需要操縱動(dòng)態(tài)對(duì)象以便成功地完成真實(shí)世界中的任務(wù),所描述的技術(shù)也實(shí)現(xiàn)將策略神經(jīng)網(wǎng)絡(luò)從模擬轉(zhuǎn)移到真實(shí)世界的零樣本(zero-shot)或少樣本(few-shot)轉(zhuǎn)移。

8、本說明書主題的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)在附圖和以下描述中闡述。本主題的其他特征、方面和優(yōu)點(diǎn)將從描述、附圖和權(quán)利要求中變得顯而易見。



技術(shù)特征:

1.一種由一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行的方法,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括:

3.根據(jù)權(quán)利要求2所述的方法,進(jìn)一步包括:

4.根據(jù)任一前述權(quán)利要求所述的方法,其中,獲得所述多個(gè)圖像包括:

5.根據(jù)權(quán)利要求4所述的方法,進(jìn)一步包括:

6.根據(jù)任一前述權(quán)利要求所述的方法,其中,生成用于訓(xùn)練所述策略神經(jīng)網(wǎng)絡(luò)的所述訓(xùn)練數(shù)據(jù)包括:

7.根據(jù)權(quán)利要求6所述的方法,其中,至少?gòu)乃鰣?chǎng)景的所述合成圖像生成該時(shí)間步的輸入圖像包括:

8.根據(jù)權(quán)利要求6或權(quán)利要求7所述的方法,其中,所述場(chǎng)景合成模型被配置為接收第一參考坐標(biāo)系中的相機(jī)視點(diǎn),并且其中,所述模擬器在世界參考坐標(biāo)系中操作,并且其中,基于在所述真實(shí)世界環(huán)境的所述模擬內(nèi)所述機(jī)器人相機(jī)在該時(shí)間步處的位所,從模擬器獲得輸入相機(jī)視點(diǎn)包括:

9.根據(jù)權(quán)利要求6至8中任一項(xiàng)所述的方法,進(jìn)一步包括:

10.根據(jù)任一前述權(quán)利要求所述的方法,進(jìn)一步包括:

11.根據(jù)權(quán)利要求10所述的方法,當(dāng)其從屬于權(quán)利要求8時(shí),其中,生成所述網(wǎng)格包括:

12.根據(jù)任一前述權(quán)利要求所述的方法,其中,所述觀測(cè)進(jìn)一步包括來自所述機(jī)器人的陀螺儀、所述機(jī)器人的加速度計(jì)或兩者的數(shù)據(jù)。

13.根據(jù)任一前述權(quán)利要求所述的方法,當(dāng)其從屬于權(quán)利要求2時(shí),其中,訓(xùn)練所述策略神經(jīng)網(wǎng)絡(luò)包括:

14.根據(jù)任一前述權(quán)利要求所述的方法,其中,所述場(chǎng)景合成模型是神經(jīng)輻射場(chǎng)(nerf)模型。

15.根據(jù)任一前述權(quán)利要求所述的方法,其中,捕獲所述多個(gè)圖像的所述相機(jī)與所述機(jī)器人相機(jī)不同,其中,所述相機(jī)數(shù)據(jù)進(jìn)一步包括指定捕獲所述多個(gè)圖像的所述相機(jī)的內(nèi)在參數(shù)的相機(jī)參數(shù),其中,所述場(chǎng)景輸入進(jìn)一步包括指定由所述場(chǎng)景合成機(jī)器學(xué)習(xí)生成的所述合成圖像應(yīng)匹配的輸入相機(jī)的內(nèi)在參數(shù)的輸入相機(jī)參數(shù),并且其中,從由所述場(chǎng)景合成機(jī)器學(xué)習(xí)模型生成的合成圖像生成由所述機(jī)器人的模型與之交互的所述環(huán)境的模擬中的場(chǎng)景的觀測(cè)包括:

16.一種系統(tǒng),包括:

17.一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)存儲(chǔ)介質(zhì),所述一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)指令,所述指令在由一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行時(shí),使所述一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1至15中任一項(xiàng)所述的相應(yīng)方法的操作。


技術(shù)總結(jié)
用于訓(xùn)練用于在控制機(jī)器人中使用的策略神經(jīng)網(wǎng)絡(luò)的方法、系統(tǒng)和裝置,包括編碼在計(jì)算機(jī)存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序。具體地,能夠使用由場(chǎng)景合成機(jī)器學(xué)習(xí)模型生成的圖像在模擬中訓(xùn)練策略神經(jīng)網(wǎng)絡(luò)。

技術(shù)研發(fā)人員:阿倫庫(kù)馬爾·拜拉萬,揚(yáng)·洪普利克,倫納德·哈森克勒費(fèi)爾,阿瑟·卡爾·布魯斯,弗朗西斯科·諾力
受保護(hù)的技術(shù)使用者:淵慧科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/8
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1