使用場(chǎng)景合成機(jī)器學(xué)習(xí)模型在模擬中訓(xùn)練策略神經(jīng)網(wǎng)絡(luò)的制作方法

文檔序號(hào)：41867419發(fā)布日期：2025-05-09 18:32閱讀：3來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

使用場(chǎng)景合成機(jī)器學(xué)習(xí)模型在模擬中訓(xùn)練策略神經(jīng)網(wǎng)絡(luò)的制作方法

背景技術(shù)：

1、機(jī)器學(xué)習(xí)模型接收輸入并且基于接收到的輸入生成輸出，例如預(yù)測(cè)輸出。一些機(jī)器學(xué)習(xí)模型是參數(shù)模型，并且基于接收到的輸入和模型參數(shù)的值生成輸出。

2、一些機(jī)器學(xué)習(xí)模型是深度模型，其采用多層模型來為接收到的輸入生成輸出。例如，深度神經(jīng)網(wǎng)絡(luò)是一種深度機(jī)器學(xué)習(xí)模型，其包括輸出層和一個(gè)或多個(gè)隱藏層，每個(gè)隱藏層對(duì)接收到的輸入應(yīng)用非線性變換以生成輸出。

技術(shù)實(shí)現(xiàn)思路

1、本說明書總體上描述了一種在一個(gè)或多個(gè)位所(location)的一個(gè)或多個(gè)計(jì)算機(jī)上以計(jì)算機(jī)程序形式實(shí)現(xiàn)的系統(tǒng)，該系統(tǒng)在模擬中訓(xùn)練策略神經(jīng)網(wǎng)絡(luò)，使得該策略神經(jīng)網(wǎng)絡(luò)能夠被用于控制真實(shí)世界中的機(jī)器人(也稱為智能體)。

2、本說明書中描述的主題的具體實(shí)施例能夠被實(shí)現(xiàn)，以實(shí)現(xiàn)以下一個(gè)或多個(gè)優(yōu)點(diǎn)。

3、在模擬中訓(xùn)練控制策略并將其轉(zhuǎn)移到真實(shí)機(jī)器人(sim2real)避免了許多導(dǎo)致在真實(shí)世界環(huán)境中直接學(xué)習(xí)具有挑戰(zhàn)性的問題。這些問題的示例包括狀態(tài)估計(jì)困難、安全風(fēng)險(xiǎn)和數(shù)據(jù)效率。附加地，在模擬中的訓(xùn)練避免在實(shí)際部署機(jī)器人用于環(huán)境中之前對(duì)機(jī)器人造成磨損。

4、然而，創(chuàng)建準(zhǔn)確而逼真的模擬是困難的，并且計(jì)算成本高昂。換句話說，在模擬中生成場(chǎng)景同時(shí)對(duì)機(jī)器人如何感知和與世界互動(dòng)進(jìn)行準(zhǔn)確地建模是一個(gè)難題。

5、減小模擬與真實(shí)世界之間的差距，即提高訓(xùn)練的真實(shí)感，通常涉及收集少量數(shù)據(jù)，然后進(jìn)行手動(dòng)調(diào)諧、使用已建立的系統(tǒng)識(shí)別工具，或者最近通過學(xué)習(xí)系統(tǒng)的部分的神經(jīng)網(wǎng)絡(luò)模型。對(duì)如下非結(jié)構(gòu)化場(chǎng)景的幾何和視覺外觀進(jìn)行準(zhǔn)確地建模尤其困難，所述非結(jié)構(gòu)化場(chǎng)景影響機(jī)器人與世界的接觸方式以及機(jī)器人感知其周圍環(huán)境的方式，例如在使用rgb相機(jī)時(shí)。通過使用更容易模擬的深度傳感器或lidar，可以部分緩解對(duì)rgb相機(jī)建模的需求，并且因此具有更小的sim2real差距，但這樣的折衷能夠限制機(jī)器人能夠?qū)W習(xí)的任務(wù)集合，并且限制這些技術(shù)適用的機(jī)器人范圍。通常，現(xiàn)有的照片逼真場(chǎng)景重建和渲染方法在戶外場(chǎng)景中效果不佳，并且使用了不是廣泛可用的專門3d掃描設(shè)置，因此限制了它們的適用性。

6、所描述的技術(shù)能夠通過自動(dòng)地生成具有高度逼真的rgb相機(jī)視圖渲染和精確的幾何的視覺復(fù)雜場(chǎng)景的模擬模型來克服這些挑戰(zhàn)。具體地，所描述的技術(shù)從機(jī)器人將與之交互的真實(shí)世界場(chǎng)景的單個(gè)視頻中學(xué)習(xí)場(chǎng)景合成模型，例如nerf模型，并且將所學(xué)習(xí)的模型與環(huán)境物理模擬器組合使用以生成具有足夠高保真度的組合模擬，以實(shí)現(xiàn)視覺引導(dǎo)的控制策略的模擬到真實(shí)的轉(zhuǎn)移。

7、因此，即使機(jī)器人在視覺復(fù)雜的場(chǎng)景中操作并且依賴于包括例如環(huán)境的rgb圖像的圖像的觀測(cè)(observation)，并且需要操縱動(dòng)態(tài)對(duì)象以便成功地完成真實(shí)世界中的任務(wù)，所描述的技術(shù)也實(shí)現(xiàn)將策略神經(jīng)網(wǎng)絡(luò)從模擬轉(zhuǎn)移到真實(shí)世界的零樣本(zero-shot)或少樣本(few-shot)轉(zhuǎn)移。

8、本說明書主題的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)在附圖和以下描述中闡述。本主題的其他特征、方面和優(yōu)點(diǎn)將從描述、附圖和權(quán)利要求中變得顯而易見。

技術(shù)特征：

1.一種由一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行的方法，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，進(jìn)一步包括：

3.根據(jù)權(quán)利要求2所述的方法，進(jìn)一步包括：

4.根據(jù)任一前述權(quán)利要求所述的方法，其中，獲得所述多個(gè)圖像包括：

5.根據(jù)權(quán)利要求4所述的方法，進(jìn)一步包括：

6.根據(jù)任一前述權(quán)利要求所述的方法，其中，生成用于訓(xùn)練所述策略神經(jīng)網(wǎng)絡(luò)的所述訓(xùn)練數(shù)據(jù)包括：

7.根據(jù)權(quán)利要求6所述的方法，其中，至少?gòu)乃鰣?chǎng)景的所述合成圖像生成該時(shí)間步的輸入圖像包括：

8.根據(jù)權(quán)利要求6或權(quán)利要求7所述的方法，其中，所述場(chǎng)景合成模型被配置為接收第一參考坐標(biāo)系中的相機(jī)視點(diǎn)，并且其中，所述模擬器在世界參考坐標(biāo)系中操作，并且其中，基于在所述真實(shí)世界環(huán)境的所述模擬內(nèi)所述機(jī)器人相機(jī)在該時(shí)間步處的位所，從模擬器獲得輸入相機(jī)視點(diǎn)包括：

9.根據(jù)權(quán)利要求6至8中任一項(xiàng)所述的方法，進(jìn)一步包括：

10.根據(jù)任一前述權(quán)利要求所述的方法，進(jìn)一步包括：

11.根據(jù)權(quán)利要求10所述的方法，當(dāng)其從屬于權(quán)利要求8時(shí)，其中，生成所述網(wǎng)格包括：

12.根據(jù)任一前述權(quán)利要求所述的方法，其中，所述觀測(cè)進(jìn)一步包括來自所述機(jī)器人的陀螺儀、所述機(jī)器人的加速度計(jì)或兩者的數(shù)據(jù)。

13.根據(jù)任一前述權(quán)利要求所述的方法，當(dāng)其從屬于權(quán)利要求2時(shí)，其中，訓(xùn)練所述策略神經(jīng)網(wǎng)絡(luò)包括：

14.根據(jù)任一前述權(quán)利要求所述的方法，其中，所述場(chǎng)景合成模型是神經(jīng)輻射場(chǎng)(nerf)模型。

15.根據(jù)任一前述權(quán)利要求所述的方法，其中，捕獲所述多個(gè)圖像的所述相機(jī)與所述機(jī)器人相機(jī)不同，其中，所述相機(jī)數(shù)據(jù)進(jìn)一步包括指定捕獲所述多個(gè)圖像的所述相機(jī)的內(nèi)在參數(shù)的相機(jī)參數(shù)，其中，所述場(chǎng)景輸入進(jìn)一步包括指定由所述場(chǎng)景合成機(jī)器學(xué)習(xí)生成的所述合成圖像應(yīng)匹配的輸入相機(jī)的內(nèi)在參數(shù)的輸入相機(jī)參數(shù)，并且其中，從由所述場(chǎng)景合成機(jī)器學(xué)習(xí)模型生成的合成圖像生成由所述機(jī)器人的模型與之交互的所述環(huán)境的模擬中的場(chǎng)景的觀測(cè)包括：

16.一種系統(tǒng)，包括：

17.一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)存儲(chǔ)介質(zhì)，所述一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)指令，所述指令在由一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行時(shí)，使所述一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1至15中任一項(xiàng)所述的相應(yīng)方法的操作。

技術(shù)總結(jié)
用于訓(xùn)練用于在控制機(jī)器人中使用的策略神經(jīng)網(wǎng)絡(luò)的方法、系統(tǒng)和裝置，包括編碼在計(jì)算機(jī)存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序。具體地，能夠使用由場(chǎng)景合成機(jī)器學(xué)習(xí)模型生成的圖像在模擬中訓(xùn)練策略神經(jīng)網(wǎng)絡(luò)。

技術(shù)研發(fā)人員：阿倫庫(kù)馬爾·拜拉萬,揚(yáng)·洪普利克,倫納德·哈森克勒費(fèi)爾,阿瑟·卡爾·布魯斯,弗朗西斯科·諾力
受保護(hù)的技術(shù)使用者：淵慧科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/5/8

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：阿倫庫(kù)馬爾·拜拉萬,揚(yáng)·洪普利克,倫納德·哈森克勒費(fèi)爾,阿瑟·卡爾·布魯斯,弗朗西斯科·諾力
技術(shù)所有人：淵慧科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

使用場(chǎng)景合成機(jī)器學(xué)習(xí)模型在模擬中訓(xùn)練策略神經(jīng)網(wǎng)絡(luò)的制作方法