成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

基于自然語言對三維點(diǎn)云機(jī)器人引導(dǎo)的方法及系統(tǒng)與流程

文檔序號:41808535發(fā)布日期:2025-05-06 17:20閱讀:8來源:國知局
基于自然語言對三維點(diǎn)云機(jī)器人引導(dǎo)的方法及系統(tǒng)與流程

本發(fā)明涉及智能工廠的,尤其涉及基于自然語言對三維點(diǎn)云機(jī)器人引導(dǎo)的方法及系統(tǒng)。


背景技術(shù):

1、智能工廠作為工業(yè)自動化和智能制造的前沿領(lǐng)域,正不斷尋求集成最新的人工智能技術(shù)以提高生產(chǎn)效率、減少人工干預(yù),并增強(qiáng)生產(chǎn)線的靈活性和適應(yīng)性。開發(fā)能夠遵循自然語言指令執(zhí)行各種操作任務(wù)的機(jī)器人對于智能工廠中至關(guān)重要。因此,需要一種基于自然語言指令的機(jī)器人引導(dǎo)系統(tǒng)來提高生產(chǎn)效率。

2、但本技術(shù)發(fā)明人在實(shí)現(xiàn)本技術(shù)實(shí)施例中發(fā)明技術(shù)方案的過程中,發(fā)現(xiàn)上述技術(shù)至少存在如下技術(shù)問題:

3、機(jī)器人需要準(zhǔn)確理解工作環(huán)境中的三維結(jié)構(gòu)和空間關(guān)系,因?yàn)樗鼈兂3P枰趶?fù)雜的三維空間中進(jìn)行精確的操作,如組裝、搬運(yùn)和質(zhì)量檢測等。那么如何使機(jī)器人能夠理解和執(zhí)行基于自然語言指令的復(fù)雜操作任務(wù),同時能夠勝任三維空間的精確操作對于研究人員是一種挑戰(zhàn)。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例通過提供一種基于自然語言對三維點(diǎn)云機(jī)器人引導(dǎo)的方法及系統(tǒng),解決了現(xiàn)有技術(shù)中通過使用三維點(diǎn)云表示、編碼器和多模態(tài)轉(zhuǎn)換器,以及與自然語言指令的有效融合,來提高機(jī)器人操作任務(wù)的性能和效率。

2、本技術(shù)實(shí)施例提供了一種基于自然語言對三維點(diǎn)云機(jī)器人引導(dǎo)的方法,?包括,

3、s1,基于transformer架構(gòu)的機(jī)器人,設(shè)置動作位置t,將所述動作位置t的視覺圖像數(shù)據(jù)轉(zhuǎn)換為三維點(diǎn)云以及標(biāo)準(zhǔn)化輸入,并進(jìn)行下采樣,完成數(shù)據(jù)預(yù)處理;

4、s2,基于數(shù)據(jù)預(yù)處理,將生成的預(yù)處理數(shù)據(jù)的點(diǎn)云進(jìn)行編碼,提取點(diǎn)云的空間特征,生成視覺信息;并通過對自然語言指令進(jìn)行向量嵌入,將自然語言指令表示成模型能夠理解和處理的向量,生成文本信息;

5、s3,基于視覺信息和文本信息,通過注意力機(jī)制將生成的視覺信息和上下文信息融合;

6、s4,基于上下文信息的融合,通過預(yù)測熱圖和偏移量,預(yù)測動作位置t+1步驟的三維位置。

7、進(jìn)一步的,在步驟s1中,所述數(shù)據(jù)預(yù)處理,包括:

8、從點(diǎn)云中提取有用的特征,包括xyz坐標(biāo)、rgb?顏色、法線,同時對點(diǎn)云進(jìn)行合并,生成合并的點(diǎn)云;

9、將合并的點(diǎn)云通過open3d工具包進(jìn)行均勻下采樣及估計每個點(diǎn)的法線,?生成新的點(diǎn)云;

10、將新的點(diǎn)云進(jìn)行裁剪,僅保留物體和機(jī)械臂的點(diǎn);

11、將僅保留物體和機(jī)械臂的點(diǎn)通過隨機(jī)采樣法,采樣2048個點(diǎn)。

12、進(jìn)一步的,在步驟s2中,所述視覺信息基于pointnext模型學(xué)習(xí)點(diǎn)云信息,包括:

13、通過最遠(yuǎn)點(diǎn)采樣方法,從點(diǎn)云中采集n個點(diǎn);

14、設(shè)置半徑,為每個點(diǎn)采集對應(yīng)半徑內(nèi)的所有鄰居節(jié)點(diǎn);

15、通過mlp學(xué)習(xí)每個點(diǎn)對應(yīng)的點(diǎn)云信息;通過最大池化來聚合每個點(diǎn)所有的鄰域信息,得到所有點(diǎn)云信息;所述i為點(diǎn)云的一個點(diǎn)。

16、進(jìn)一步的,在步驟s2中,所述文本信息的生成中,包括,

17、通過凍結(jié)編碼器,并向凍結(jié)編碼器添加線性層以獲得嵌入向量,

18、以下公式3所示:

19、(3);

20、其中,是權(quán)重,是線性層,是輸入的自然語言指令,clip為clip模型。

21、進(jìn)一步的,在步驟s3中,包括,

22、s31,輸入是點(diǎn)云信息以及自然語言指令信息;通過注意力機(jī)制學(xué)習(xí)視覺信息,如下公式4,5所示:

23、(4);

24、(5);

25、其中,是注意力公式;

26、是權(quán)重;

27、是隱藏層大??;

28、s32,通過注意力機(jī)制融合視覺信息與自然語言指令信息,如下公式6所示:

29、(6);

30、s33,通過堆疊1層,最終獲得輸出,如公式7所示:

31、(7);

32、其中,是權(quán)重,是激活函數(shù),是歸一化層。

33、基于自然語言對三維點(diǎn)云機(jī)器人引導(dǎo)的系統(tǒng),包括,

34、數(shù)據(jù)預(yù)處理模塊,基于transformer架構(gòu)的機(jī)器人,用于設(shè)置動作位置t,將所述動作位置t的視覺圖像數(shù)據(jù)轉(zhuǎn)換為三維點(diǎn)云以及標(biāo)準(zhǔn)化輸入,并進(jìn)行下采樣,完成數(shù)據(jù)預(yù)處理;

35、視覺模塊、文本模塊,基于數(shù)據(jù)預(yù)處理,用于將生成的預(yù)處理數(shù)據(jù)的點(diǎn)云進(jìn)行編碼,提取點(diǎn)云的空間特征,生成視覺信息;并通過對自然語言指令進(jìn)行向量嵌入,將自然語言指令表示成模型能夠理解和處理的向量,生成文本信息;

36、融合模塊,基于視覺信息和文本信息,用于通過注意力機(jī)制將生成的視覺信息和上下文信息融合;

37、動作模塊,基于上下文信息的融合,用于通過預(yù)測熱圖和偏移量,預(yù)測動作位置t+1步驟的三維位置。

38、進(jìn)一步的,在數(shù)據(jù)預(yù)處理模塊中,包括:

39、電云生成單元,用于從點(diǎn)云中提取有用的特征,包括xyz坐標(biāo)、rgb?顏色、法線,同時對點(diǎn)云進(jìn)行合并,生成合并的點(diǎn)云;

40、新的點(diǎn)云生成單元,用于將合并的點(diǎn)云通過open3d工具包進(jìn)行均勻下采樣及估計每個點(diǎn)的法線,生成新的點(diǎn)云;

41、電云裁剪單元,用于將新的點(diǎn)云進(jìn)行裁剪,僅保留物體和機(jī)械臂的點(diǎn);

42、電云采樣單元,用于將僅保留物體和機(jī)械臂的點(diǎn)通過隨機(jī)采樣法,采樣2048個點(diǎn)。

43、進(jìn)一步的,在視覺模塊中,包括:

44、通過最遠(yuǎn)點(diǎn)采樣方法,從點(diǎn)云中采集n個點(diǎn);

45、設(shè)置半徑,為每個點(diǎn)采集對應(yīng)半徑內(nèi)的所有鄰居節(jié)點(diǎn);

46、通過mlp學(xué)習(xí)每個點(diǎn)對應(yīng)的點(diǎn)云信息;通過最大池化來聚合每個點(diǎn)所有的鄰域信息,得到所有點(diǎn)云信息,所述i為點(diǎn)云的一個點(diǎn)。

47、進(jìn)一步的,在文本模塊中,包括:

48、通過凍結(jié)編碼器,并向凍結(jié)編碼器添加線性層以獲得嵌入向量,

49、以下公式3所示;

50、(3);

51、其中,是權(quán)重,是線性層,是輸入的自然語言指令,clip為clip模型。

52、進(jìn)一步的,在融合模塊中,包括:

53、注意力機(jī)制學(xué)習(xí)單元,輸入是點(diǎn)云信息以及自然語言指令信息;通過注意力機(jī)制學(xué)習(xí)視覺信息,如下公式4,5所示:

54、(4);

55、(5);

56、其中,是注意力公式;

57、是權(quán)重;

58、是隱藏層大小;

59、注意力機(jī)制融合單元,用于?通過注意力機(jī)制融合視覺信息與自然語言指令信息,如下公式6所示:

60、(6);

61、注意力機(jī)制輸出單元,通過堆疊1層,最終獲得輸出,如公式7所示:

62、(7);

63、其中,是權(quán)重,是激活函數(shù),是歸一化層。

64、本技術(shù)實(shí)施例中提供的一個或多個技術(shù)方案,至少具有如下技術(shù)效果或優(yōu)點(diǎn):

65、1、通過將多視角相機(jī)的rgb圖像轉(zhuǎn)換為3d點(diǎn)云進(jìn)行建模,引入了基于transformer的編碼器對點(diǎn)云數(shù)據(jù)進(jìn)行特征表示,同時基于注意力機(jī)制來融合點(diǎn)云特征和語言嵌入,實(shí)現(xiàn)視覺和語言信息的融合,使模型能夠綜合考慮視覺和語言信息,提高了機(jī)器人對復(fù)雜指令的理解和執(zhí)行能力。

66、2、由于設(shè)計了一個動作解碼模塊,通過預(yù)測熱圖和偏移量來估計機(jī)器人的位置,提高了對機(jī)器人未來動作預(yù)測的準(zhǔn)確性。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1