本發(fā)明涉及計(jì)算機(jī),尤其涉及一種小樣本目標(biāo)檢測(cè)模型的訓(xùn)練方法及裝置。
背景技術(shù):
1、現(xiàn)有主流的小樣本目標(biāo)檢測(cè)方法如下:
2、基于語(yǔ)義提示的方式,該方法將目標(biāo)對(duì)象的標(biāo)簽文本信息通過(guò)文本特征提取器轉(zhuǎn)為特征向量(features1),將待識(shí)別的圖片通過(guò)圖像特征提取器轉(zhuǎn)為特征向量(features2);再將兩個(gè)特征進(jìn)行融合,得到最終的檢測(cè)結(jié)果。
3、對(duì)于不存在于訓(xùn)練數(shù)據(jù)集范圍內(nèi)的類(lèi)別,幾乎無(wú)法直接識(shí)別訓(xùn)練數(shù)據(jù)集外的目標(biāo)對(duì)象,例如假設(shè)道路上的錐筒類(lèi)別不在訓(xùn)練數(shù)據(jù)集中,那么模型無(wú)法提取到很好的關(guān)于錐筒的文本特征向量,也無(wú)法準(zhǔn)確地識(shí)別。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種小樣本目標(biāo)檢測(cè)模型的訓(xùn)練方法及裝置,可以準(zhǔn)確地識(shí)別各種對(duì)象的對(duì)象類(lèi)別。
2、一方面,本發(fā)明提供了一種小樣本目標(biāo)檢測(cè)模型的訓(xùn)練方法,所述方法包括:
3、獲取樣本支持圖片、樣本支持文本以及樣本查詢(xún)圖片;所述樣本查詢(xún)圖片標(biāo)注了樣本對(duì)象標(biāo)識(shí)標(biāo)簽;
4、將所述樣本支持圖片、所述樣本支持文本以及所述樣本查詢(xún)圖片輸入預(yù)設(shè)模型,所述預(yù)設(shè)模型包括支持圖文特征提取模塊、查詢(xún)圖片特征提取模塊以及特征融合模塊;
5、基于所述支持圖文特征提取模塊分別提取所述樣本支持圖片、所述樣本支持文本的特征,得到樣本支持圖文特征;基于所述查詢(xún)圖片特征提取模塊提取所述樣本查詢(xún)圖片的特征,得到樣本查詢(xún)圖片特征;
6、基于所述特征融合模塊對(duì)所述樣本支持圖文特征以及所述樣本查詢(xún)圖片特征進(jìn)行融合處理,得到樣本融合特征;
7、基于所述樣本融合特征以及所述樣本對(duì)象標(biāo)識(shí)標(biāo)簽,對(duì)所述預(yù)設(shè)模型進(jìn)行訓(xùn)練,得到小樣本目標(biāo)檢測(cè)模型。
8、可選的,所述預(yù)設(shè)模型還包括目標(biāo)識(shí)別模塊,所述基于所述樣本融合特征以及所述樣本對(duì)象標(biāo)識(shí)標(biāo)簽,對(duì)所述預(yù)設(shè)模型進(jìn)行訓(xùn)練,得到小樣本目標(biāo)檢測(cè)模型,包括:
9、基于所述目標(biāo)識(shí)別模塊對(duì)所述樣本融合特征進(jìn)行目標(biāo)識(shí)別處理,識(shí)別所述樣本查詢(xún)圖片中的樣本對(duì)象,得到樣本對(duì)象標(biāo)識(shí)結(jié)果;
10、基于所述樣本對(duì)象標(biāo)識(shí)結(jié)果與所述樣本對(duì)象標(biāo)識(shí)標(biāo)簽之間的差異,確定目標(biāo)損失數(shù)據(jù);
11、基于所述目標(biāo)損失數(shù)據(jù)調(diào)節(jié)所述預(yù)設(shè)模型的模型參數(shù)直至滿足訓(xùn)練結(jié)束條件,將訓(xùn)練結(jié)束時(shí)的預(yù)設(shè)模型確定為小樣本目標(biāo)檢測(cè)模型。
12、可選的,所述基于所述目標(biāo)損失數(shù)據(jù)調(diào)節(jié)所述預(yù)設(shè)模型的模型參數(shù)直至滿足訓(xùn)練結(jié)束條件,將訓(xùn)練結(jié)束時(shí)的預(yù)設(shè)模型確定為小樣本目標(biāo)檢測(cè)模型,包括:
13、凍結(jié)所述支持圖文特征提取模塊的參數(shù),基于所述目標(biāo)損失數(shù)據(jù)對(duì)所述查詢(xún)圖片特征提取模塊的參數(shù)進(jìn)行調(diào)節(jié)直至滿足訓(xùn)練結(jié)束條件,將訓(xùn)練結(jié)束時(shí)的預(yù)設(shè)模型確定為小樣本目標(biāo)檢測(cè)模型。
14、可選的,所述支持圖文特征提取模塊包括支持圖片特征提取模塊以及支持文本特征提取模塊,所述基于所述支持圖文特征提取模塊分別提取所述樣本支持圖片、所述樣本支持文本的特征,得到樣本支持圖文特征,包括:
15、基于所述支持圖片特征提取模塊提取所述樣本支持圖片中同類(lèi)別目標(biāo)的多個(gè)樣本圖片特征向量;
16、計(jì)算所述多個(gè)樣本圖片特征向量的平均值,得到樣本支持圖片特征;
17、基于所述支持文本特征提取模塊提取所述樣本支持文本中同類(lèi)別目標(biāo)的多個(gè)樣本文本特征向量;
18、計(jì)算所述多個(gè)樣本文本特征向量的平均值,得到樣本支持文本特征;
19、對(duì)所述樣本支持圖片特征以及所述樣本支持文本特征進(jìn)行融合處理,得到所述樣本支持圖文特征。
20、可選的,所述對(duì)所述樣本支持圖片特征以及所述樣本支持文本特征進(jìn)行融合處理,得到所述樣本支持圖文特征,包括:
21、采用交叉注意力機(jī)制,將所述樣本支持圖片特征作為注意力的q輸入,將所述樣本支持文本特征作為所述注意力機(jī)制的k、v輸入,得到第一文本圖片特征以及第一圖片文本特征;
22、將所述第一文本圖片特征作為所述注意力的q輸入,將所述第一圖片文本特征作為所述注意力機(jī)制的k、v輸入,得到第二文本圖片特征以及第二圖片文本特征;
23、對(duì)所述第二文本圖片特征以及所述第二圖片文本特征進(jìn)行合并處理,得到所述樣本支持圖文特征;
24、其中,所述特征融合模塊包括編碼器以及解碼器,所述基于所述特征融合模塊對(duì)所述樣本支持圖文特征以及所述樣本查詢(xún)圖片特征進(jìn)行融合處理,得到樣本融合特征,包括:
25、基于所述編碼器對(duì)所述樣本支持圖文特征以及所述樣本查詢(xún)圖文特征進(jìn)行編碼處理,得到樣本編碼支持圖文特征以及樣本編碼查詢(xún)圖文特征;
26、基于所述解碼器對(duì)所述樣本編碼支持圖文特征以及樣本編碼查詢(xún)圖文特征進(jìn)行解碼處理,得到所述樣本融合特征。
27、可選的,所述基于所述編碼器對(duì)所述樣本支持圖文特征以及所述樣本查詢(xún)圖文特征進(jìn)行編碼處理,得到樣本編碼支持圖文特征以及樣本編碼查詢(xún)圖文特征,包括:
28、將所述樣本支持圖文特征作為注意力機(jī)制的q輸入,將所述樣本查詢(xún)圖文特征作為所述注意力機(jī)制的k、v輸入,得到第一支持特征以及第一查詢(xún)特征;
29、采用交叉注意力機(jī)制,將所述第一支持特征以及第一查詢(xún)特征重新作為注意力機(jī)制的輸入,得到第二支持特征以及第二查詢(xún)特征;
30、采用自注意力機(jī)制,分別提取所述第二支持特征以及所述第二查詢(xún)特征的特征向量,得到第三支持特征以及第三查詢(xún)特征;
31、對(duì)所述第三支持特征以及所述第三查詢(xún)特征分別進(jìn)行線性處理,得到樣本編碼支持圖文特征以及樣本編碼查詢(xún)圖文特征。
32、可選的,所述基于所述解碼器對(duì)所述樣本編碼支持圖文特征以及樣本編碼查詢(xún)圖文特征進(jìn)行解碼處理,得到所述樣本融合特征,包括:
33、對(duì)所述樣本編碼支持圖文特征進(jìn)行線性特征提取,得到樣本類(lèi)別特征;
34、基于所述樣本類(lèi)別特征以及樣本編碼查詢(xún)圖文特征,確定所述解碼器的初始輸入特征;
35、采用自注意力機(jī)制對(duì)所述初始輸入特征進(jìn)行特征抽象提取,得到第一輸出特征;
36、采用交叉注意力機(jī)制,對(duì)所述第一輸出特征進(jìn)行特征抽象提取,得到第二輸出特征;
37、采用交叉注意力機(jī)制,對(duì)所述第二輸出特征進(jìn)行特征抽象提取,得到第三輸出特征;
38、對(duì)所述第三輸出特征進(jìn)行特征抽象,得到所述樣本融合特征。
39、另一方面提供了一種小樣本目標(biāo)檢測(cè)模型的訓(xùn)練裝置,所述裝置包括:
40、樣本圖片獲取模塊,用于獲取樣本支持圖片、樣本支持文本以及樣本查詢(xún)圖片;所述樣本查詢(xún)圖片標(biāo)注了樣本對(duì)象標(biāo)識(shí)標(biāo)簽;
41、輸入模塊,用于將所述樣本支持圖片、所述樣本支持文本以及所述樣本查詢(xún)圖片輸入預(yù)設(shè)模型,所述預(yù)設(shè)模型包括支持圖文特征提取模塊、查詢(xún)圖片特征提取模塊以及特征融合模塊;
42、特征提取模塊,用于基于所述支持圖文特征提取模塊分別提取所述樣本支持圖片、所述樣本支持文本的特征,得到樣本支持圖文特征;基于所述查詢(xún)圖片特征提取模塊提取所述樣本查詢(xún)圖片的特征,得到樣本查詢(xún)圖片特征;
43、特征融合模塊,用于基于所述特征融合模塊對(duì)所述樣本支持圖文特征以及所述樣本查詢(xún)圖片特征進(jìn)行融合處理,得到樣本融合特征;
44、訓(xùn)練模塊,用于基于所述樣本融合特征以及所述樣本對(duì)象標(biāo)識(shí)標(biāo)簽,對(duì)所述預(yù)設(shè)模型進(jìn)行訓(xùn)練,得到小樣本目標(biāo)檢測(cè)模型。
45、可選的,所述預(yù)設(shè)模型還包括目標(biāo)識(shí)別模塊,所述訓(xùn)練模塊包括:
46、樣本識(shí)別單元,用于基于所述目標(biāo)識(shí)別模塊對(duì)所述樣本融合特征進(jìn)行目標(biāo)識(shí)別處理,識(shí)別所述樣本查詢(xún)圖片中的樣本對(duì)象,得到樣本對(duì)象標(biāo)識(shí)結(jié)果;
47、目標(biāo)數(shù)據(jù)確定單元,用于基于所述樣本對(duì)象標(biāo)識(shí)結(jié)果與所述樣本對(duì)象標(biāo)識(shí)標(biāo)簽之間的差異,確定目標(biāo)損失數(shù)據(jù);
48、模型確定單元,用于基于所述目標(biāo)損失數(shù)據(jù)調(diào)節(jié)所述預(yù)設(shè)模型的模型參數(shù)直至滿足訓(xùn)練結(jié)束條件,將訓(xùn)練結(jié)束時(shí)的預(yù)設(shè)模型確定為小樣本目標(biāo)檢測(cè)模型。
49、可選的,所述模型確定單元,還用于凍結(jié)所述支持圖文特征提取模塊的參數(shù),基于所述目標(biāo)損失數(shù)據(jù)對(duì)所述查詢(xún)圖片特征提取模塊的參數(shù)進(jìn)行調(diào)節(jié)直至滿足訓(xùn)練結(jié)束條件,將訓(xùn)練結(jié)束時(shí)的預(yù)設(shè)模型確定為小樣本目標(biāo)檢測(cè)模型。
50、可選的,所述支持圖文特征提取模塊包括支持圖片特征提取模塊以及支持文本特征提取模塊,所述特征提取模塊包括:
51、特征提取單元,用于基于所述支持圖片特征提取模塊提取所述樣本支持圖片中同類(lèi)別目標(biāo)的多個(gè)樣本圖片特征向量;
52、特征計(jì)算單元,用于計(jì)算所述多個(gè)樣本圖片特征向量的平均值,得到樣本支持圖片特征;
53、文本特征提取單元,用于基于所述支持文本特征提取模塊提取所述樣本支持文本中同類(lèi)別目標(biāo)的多個(gè)樣本文本特征向量;
54、文本特征確定單元,用于計(jì)算所述多個(gè)樣本文本特征向量的平均值,得到樣本支持文本特征;
55、圖文特征確定單元,用于對(duì)所述樣本支持圖片特征以及所述樣本支持文本特征進(jìn)行融合處理,得到所述樣本支持圖文特征。
56、可選的,所述圖文特征確定單元包括:
57、第一輸入子單元,用于采用交叉注意力機(jī)制,將所述樣本支持圖片特征作為注意力的q輸入,將所述樣本支持文本特征作為所述注意力機(jī)制的k、v輸入,得到第一文本圖片特征以及第一圖片文本特征;
58、第二輸入子單元,用于將所述第一文本圖片特征作為所述注意力的q輸入,將所述第一圖片文本特征作為所述注意力機(jī)制的k、v輸入,得到第二文本圖片特征以及第二圖片文本特征;
59、樣本圖文提取子單元,用于對(duì)所述第二文本圖片特征以及所述第二圖片文本特征進(jìn)行合并處理,得到所述樣本支持圖文特征;
60、其中,所述特征融合模塊包括編碼器以及解碼器,所述特征融合模塊包括:
61、編碼單元,用于基于所述編碼器對(duì)所述樣本支持圖文特征以及所述樣本查詢(xún)圖文特征進(jìn)行編碼處理,得到樣本編碼支持圖文特征以及樣本編碼查詢(xún)圖文特征;
62、解碼單元,用于基于所述解碼器對(duì)所述樣本編碼支持圖文特征以及樣本編碼查詢(xún)圖文特征進(jìn)行解碼處理,得到所述樣本融合特征。
63、可選的,所述編碼單元,還用于將所述樣本支持圖文特征作為注意力機(jī)制的q輸入,將所述樣本查詢(xún)圖文特征作為所述注意力機(jī)制的k、v輸入,得到第一支持特征以及第一查詢(xún)特征;
64、采用交叉注意力機(jī)制,將所述第一支持特征以及第一查詢(xún)特征重新作為注意力機(jī)制的輸入,得到第二支持特征以及第二查詢(xún)特征;
65、采用自注意力機(jī)制,分別提取所述第二支持特征以及所述第二查詢(xún)特征的特征向量,得到第三支持特征以及第三查詢(xún)特征;
66、對(duì)所述第三支持特征以及所述第三查詢(xún)特征分別進(jìn)行線性處理,得到樣本編碼支持圖文特征以及樣本編碼查詢(xún)圖文特征。
67、可選的,所述解碼單元,還用于對(duì)所述樣本編碼支持圖文特征進(jìn)行線性特征提取,得到樣本類(lèi)別特征;
68、基于所述樣本類(lèi)別特征以及樣本編碼查詢(xún)圖文特征,確定所述解碼器的初始輸入特征;
69、采用自注意力機(jī)制對(duì)所述初始輸入特征進(jìn)行特征抽象提取,得到第一輸出特征;
70、采用交叉注意力機(jī)制,對(duì)所述第一輸出特征進(jìn)行特征抽象提取,得到第二輸出特征;
71、采用交叉注意力機(jī)制,對(duì)所述第二輸出特征進(jìn)行特征抽象提取,得到第三輸出特征;
72、對(duì)所述第三輸出特征進(jìn)行特征抽象,得到所述樣本融合特征。
73、另一方面提供了一種電子設(shè)備,所述設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器中存儲(chǔ)有至少一條指令或至少一段程序,所述至少一條指令或所述至少一段程序由所述處理器加載并執(zhí)行以實(shí)現(xiàn)如上所述的小樣本目標(biāo)檢測(cè)模型的訓(xùn)練方法。
74、另一方面提供了一種計(jì)算機(jī)存儲(chǔ)介質(zhì),所述計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有至少一條指令或至少一段程序,所述至少一條指令或至少一段程序由處理器加載并執(zhí)行以實(shí)現(xiàn)如上所述的小樣本目標(biāo)檢測(cè)模型的訓(xùn)練方法。
75、另一方面提供了一種計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)程序,該計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)程序包括計(jì)算機(jī)指令,該計(jì)算機(jī)指令存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中。計(jì)算機(jī)設(shè)備的處理器從計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)讀取該計(jì)算機(jī)指令,處理器執(zhí)行該計(jì)算機(jī)指令,使得該計(jì)算機(jī)設(shè)備執(zhí)行以實(shí)現(xiàn)如上所述的小樣本目標(biāo)檢測(cè)模型的訓(xùn)練方法。
76、本發(fā)明提供的小樣本目標(biāo)檢測(cè)模型的訓(xùn)練方法及裝置,具有如下技術(shù)效果:
77、本發(fā)明獲取樣本支持圖片、樣本支持文本以及樣本查詢(xún)圖片;所述樣本查詢(xún)圖片標(biāo)注了樣本對(duì)象標(biāo)識(shí)標(biāo)簽;將所述樣本支持圖片、所述樣本支持文本以及所述樣本查詢(xún)圖片輸入預(yù)設(shè)模型,所述預(yù)設(shè)模型包括支持圖文特征提取模塊、查詢(xún)圖片特征提取模塊以及特征融合模塊;基于所述支持圖文特征提取模塊分別提取所述樣本支持圖片、所述樣本支持文本的特征,得到樣本支持圖文特征;基于所述查詢(xún)圖片特征提取模塊提取所述樣本查詢(xún)圖片的特征,得到樣本查詢(xún)圖片特征;基于所述特征融合模塊對(duì)所述樣本支持圖文特征以及所述樣本查詢(xún)圖片特征進(jìn)行融合處理,得到樣本融合特征;基于所述樣本融合特征以及所述樣本對(duì)象標(biāo)識(shí)標(biāo)簽,對(duì)所述預(yù)設(shè)模型進(jìn)行訓(xùn)練,得到小樣本目標(biāo)檢測(cè)模型。本發(fā)明的小樣本目標(biāo)檢測(cè)模型不僅可以識(shí)別訓(xùn)練集所包含的目標(biāo)類(lèi)別對(duì)象,沒(méi)有經(jīng)過(guò)模型訓(xùn)練的相關(guān)類(lèi)別也可以正常識(shí)別;僅需提供幾張所需識(shí)別的目標(biāo)對(duì)象圖片,即可準(zhǔn)確地識(shí)別對(duì)應(yīng)類(lèi)別的目標(biāo)對(duì)象。