成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

一種基于多模態(tài)模型的交互式圖像標(biāo)注方法及系統(tǒng)與流程

文檔序號:41842116發(fā)布日期:2025-05-09 18:00閱讀:3來源:國知局
一種基于多模態(tài)模型的交互式圖像標(biāo)注方法及系統(tǒng)與流程

本發(fā)明屬于圖像標(biāo)注,具體地,涉及一種基于多模態(tài)模型的交互式圖像標(biāo)注方法及系統(tǒng)。


背景技術(shù):

1、當(dāng)前在目標(biāo)檢測任務(wù)的數(shù)據(jù)標(biāo)注領(lǐng)域中,存在很多標(biāo)注工具軟件,比如最廣泛使用的labelimg和labelme。使用這類傳統(tǒng)標(biāo)注軟件,每張圖像都需要人工逐一檢查和標(biāo)注,工作效率較低。后續(xù)有一些更智能的標(biāo)注軟件出現(xiàn),例如anylabeling,這類軟件除了綜合傳統(tǒng)標(biāo)注軟件的優(yōu)點之外,還支持使用yolo等目標(biāo)檢測模型進(jìn)行標(biāo)注,但是僅能自動標(biāo)注預(yù)先訓(xùn)練的類別。除此之外,其自動標(biāo)注過程僅僅是將圖像作為檢測模型的輸入,這在樣本分布與訓(xùn)練時差距較大的情況下的檢測性能較差。


技術(shù)實現(xiàn)思路

1、為解決現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種基于多模態(tài)模型的交互式圖像標(biāo)注方法及系統(tǒng),無需收集特定類別的數(shù)據(jù)進(jìn)行訓(xùn)練即可準(zhǔn)確獲得檢測結(jié)果,提高數(shù)據(jù)標(biāo)注效率。

2、本發(fā)明采用如下的技術(shù)方案。

3、本發(fā)明的第一方面提供了一種基于多模態(tài)模型的交互式圖像標(biāo)注方法,所述方法包含以下步驟:

4、s1、構(gòu)建目標(biāo)檢測模型,所述目標(biāo)檢測模型為使用多組多模態(tài)數(shù)據(jù)通過深度神經(jīng)網(wǎng)絡(luò)以最小化總損失函數(shù)為目標(biāo)訓(xùn)練得到,所述多組多模態(tài)數(shù)據(jù)的每一組數(shù)據(jù)均包括圖像和文本;

5、s2、獲取待檢測圖像和提示詞文本,所述提示詞文本包括正向提示詞和/或負(fù)向提示詞和/或描述提示詞;其中,正向提示詞中包含待檢測目標(biāo)類別,負(fù)向提示詞為空或包含正向類別-負(fù)向類別對,描述提示詞中包含正向類別和負(fù)向類別的特征、待檢測目標(biāo)在圖像中的位置描述;

6、s3、對提示詞文本進(jìn)行分詞,得到的若干詞元作為不同的待檢測目標(biāo)類別,對于每個待檢測目標(biāo)類別,提取負(fù)向提示詞中存在的相應(yīng)負(fù)向類別,生成詞元索引表;

7、s4、設(shè)置置信度閾值,將待檢測圖像、提示詞文本和詞元索引表輸入所述目標(biāo)檢測模型,目標(biāo)檢測模型通過描述提示詞獲取待檢測目標(biāo)類別和負(fù)向類別的特征,并在待檢測圖像上對待檢測類別對應(yīng)的置信度大于置信度閾值的部分進(jìn)行標(biāo)注,作為中間檢測;

8、s5、設(shè)置類間非極大值抑制的iou閾值,檢查中間檢測中每個待檢測目標(biāo)類別,若其類別有相應(yīng)負(fù)向類別,將此待檢測目標(biāo)類別和相應(yīng)負(fù)向類別的所有檢測框進(jìn)行類間非極大值抑制,并在非極大值抑制的輸出結(jié)果中移除所有負(fù)向類別的檢測框后,剩下的標(biāo)注的檢測框作為最終圖像標(biāo)注結(jié)果。

9、可選地,s1中,使用多組多模態(tài)數(shù)據(jù)通過深度神經(jīng)網(wǎng)絡(luò)以最小化總損失函數(shù)為目標(biāo)對目標(biāo)檢測模型進(jìn)行訓(xùn)練包括:

10、輸入圖像和文本;

11、使用圖像主干網(wǎng)絡(luò)對圖像提取多尺度原始圖像特征,使用文本骨干網(wǎng)絡(luò)對文本提取原始文本特征;

12、將多尺度原始圖像特征和原始文本特征進(jìn)行跨模態(tài)特征融合,在特征融合后的圖像特征中選擇與輸入的文本最相關(guān)的圖像特征,并結(jié)合特征融合后的文本特征進(jìn)行跨模態(tài)解碼,獲得輸入圖像的預(yù)測框和預(yù)測類別;

13、構(gòu)建目標(biāo)檢測模型的總損失函數(shù),通過最小化總損失函數(shù)值獲得最佳訓(xùn)練參數(shù),得到目標(biāo)檢測模型。

14、可選地,在特征融合后的圖像特征中選擇與輸入的文本最相關(guān)的圖像特征,包括:

15、在特征融合后的圖像特征中查詢,查詢過程如下公式表示:

16、

17、其中,i為圖像特征,大小為b×i×c,t為文本特征,大小為b×t×c,b表示批大小,t為當(dāng)前文本特征長度,c表示通道數(shù),i表示第i個圖像特征,logitsbit表示目標(biāo)檢測模型輸出logits的第b個批次、第i個圖像特征和第t個文本特征位置上的值,ibic和tbtc分別表示原始圖像特征和原始文本特征在特征融合后的特征相應(yīng)位置上的值;

18、計算每個樣本輸出logits的最大值:

19、

20、其中,logitsbj表示logits第b個樣本的第j列的值,m為存儲每個樣本最大logits的二維張量;

21、獲取與輸入的文本最相關(guān)的查詢q:

22、

23、其中,表示找到集合i1,i2,...,ik,使得i1,i2,...,ik為與輸入的文本最相關(guān)的圖像特征。

24、可選地,目標(biāo)檢測模型的總損失函數(shù)由邊界框回歸損失和分類損失構(gòu)成,按如下公式表示:

25、

26、其中,α、β分別為邊框回歸損失權(quán)重和類別損失權(quán)重,wd、bd、θ分別為目標(biāo)檢測模型的訓(xùn)練參數(shù),lreg為邊界框回歸損失,lcls為分類損失。

27、可選地,邊界框回歸損失包括l1損失和考慮邊界框重疊的giou損失,邊界框回歸損失按如下公式表示:

28、lreg=l1+lgiou

29、其中,l1為l1損失,lgiou為giou損失。

30、可選地,l1損失按如下公式表示:

31、

32、其中,

33、gtij表示第i個樣本的預(yù)測框的第j個坐標(biāo),

34、detij表示第i個樣本的真實框的第j個坐標(biāo),

35、n為樣本個數(shù)。

36、可選地,giou損失按如下公式表示:

37、

38、其中,gt和det分別表示預(yù)測框和真實框,

39、c表示能夠包住gt和det的最小方框,

40、area(c)表示c的面積。

41、可選地,通過計算每個查詢與文本特征的點積來預(yù)測每個文本標(biāo)記的logits,根據(jù)每個logits計算分類損失,分類損失按如下公式計算:

42、

43、其中,

44、pi是模型預(yù)測第i個樣本的正確logits的置信度,

45、αi是平衡因子,用于調(diào)整不同類別的權(quán)重,

46、γ是調(diào)節(jié)因子,用來控制樣本的權(quán)重衰減程度,

47、q·tj表示將查詢與每個文本特征進(jìn)行點積,q為查詢,tj為第j個文本特征,n為文本特征的數(shù)量,

48、n為樣本個數(shù)。

49、可選地,交互式地在描述提示詞中提供正向類別和/或負(fù)向類別。

50、本發(fā)明的第二方面提供了一種圖像標(biāo)注系統(tǒng),包括:

51、構(gòu)建模塊,用于構(gòu)建目標(biāo)檢測模型,所述目標(biāo)檢測模型為使用多組多模態(tài)數(shù)據(jù)通過深度神經(jīng)網(wǎng)絡(luò)以最小化總損失函數(shù)訓(xùn)練得到,所述多組多模態(tài)數(shù)據(jù)的每一組數(shù)據(jù)均包括圖像和文本;

52、獲取模塊,用于獲取待檢測圖像和提示詞文本,所述提示詞文本包括正向提示詞和/或負(fù)向提示詞和/或描述提示詞;其中,正向提示詞中包含正向類別,正向類別為待檢測目標(biāo)類別,負(fù)向提示詞為空或包含正向類別-負(fù)向類別對,負(fù)向類別為正向類別所述的類別組,描述提示詞中包含正向類別和負(fù)向類別的特征、正向類別和負(fù)向類別在圖像中的位置描述;

53、提取模塊,用于對提示詞文本進(jìn)行分詞,得到的若干詞元作為不同的待檢測目標(biāo)類別,對于每個待檢測目標(biāo)類別,提取負(fù)向提示詞中存在的相應(yīng)負(fù)向類別,生成詞元索引表。

54、第一檢測模塊,用于設(shè)置置信度閾值,將待檢測圖像、提示詞文本和詞元索引表輸入所述目標(biāo)檢測模型,目標(biāo)檢測模型通過描述提示詞獲取待檢測目標(biāo)類別和負(fù)向類別的特征,并在待檢測圖像上對待檢測類別對應(yīng)的置信度大于置信度閾值的部分進(jìn)行標(biāo)注,作為中間檢測;

55、第二檢測模塊,用于設(shè)置類間非極大值抑制的iou閾值,檢查中間檢測中每個待檢測目標(biāo)類別,若其類別有相應(yīng)負(fù)向類別,將此待檢測目標(biāo)類別和相應(yīng)負(fù)向類別的所有檢測框進(jìn)行類間非極大值抑制,并在非極大值抑制的輸出結(jié)果中移除所有負(fù)向類別的檢測框后,剩下的標(biāo)注的檢測框作為最終圖像標(biāo)注結(jié)果。

56、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果至少包括:

57、本發(fā)明圍繞圖像標(biāo)注自動生成的問題,綜合采用深度學(xué)習(xí)、人工智能、人機(jī)交互,無需收集特定類別的數(shù)據(jù)進(jìn)行訓(xùn)練,即可準(zhǔn)確獲得檢測結(jié)果,在人工復(fù)核后即可作為實際使用的圖像標(biāo)注。解決了全人工標(biāo)注需要花費大量人力等問題,提高了數(shù)據(jù)標(biāo)注的效率,從而降低后續(xù)訓(xùn)練目標(biāo)檢測等模型的研發(fā)成本。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1