成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

一種基于屬性語義相似匹配的行人屬性識別方法

文檔序號:41847755發(fā)布日期:2025-05-09 18:06閱讀:1來源:國知局
一種基于屬性語義相似匹配的行人屬性識別方法

本發(fā)明涉及計算機視覺,尤其是涉及一種基于屬性語義相似匹配的行人屬性識別方法。


背景技術(shù):

1、行人屬性識別的目的是從給定的行人圖像中預(yù)測一系列屬性,如年齡、性別、服裝等。由于行人屬性的高級語義性和信息化,可以為其他任務(wù)提供有價值的輔助信息,如行人重識別、場景理解等,在安全監(jiān)控、智能交通等領(lǐng)域有著廣泛的應(yīng)用。行人屬性識別屬于多標簽分類任務(wù)的子集,但與傳統(tǒng)的多標簽分類任務(wù)不同,行人屬性涉及從行人圖像中學習先驗知識和語義結(jié)構(gòu)信息,例如空間分布和屬性間關(guān)系。

2、由于缺乏屬性的位置標簽,現(xiàn)有的屬性識別方法往往難以學習全面的特征表示來進行細粒度的屬性識別。這導致屬性識別的準確率較低,難以滿足實際應(yīng)用需求。近年來,視覺語言預(yù)訓練模型(如clip等)取得快速的發(fā)展,通過在大規(guī)模圖像文本對數(shù)據(jù)集上進行預(yù)訓練,能夠從不同模態(tài)中捕獲豐富的語義信息,在一系列任務(wù)中取得令人印象深刻的性能。由于行人屬性的稀缺性,在數(shù)據(jù)集中每個屬性的頻率并不均衡,利用預(yù)訓練的視覺語言模型來提取屬性的語義信息能夠在一定程度上緩解該問題。但是由于clip的全局特征會突出主體類別,不利于進行多標簽分類的屬性識別。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的是提供一種基于屬性語義相似匹配的行人屬性識別方法,旨在解決現(xiàn)有行人屬性識別方法準確率低、難以學習全面特征表示以及無法有效應(yīng)對樣本不平衡等問題,通過創(chuàng)新的模塊設(shè)計和算法策略,提高行人屬性識別的準確性和可靠性。

2、為實現(xiàn)上述發(fā)明目的,本發(fā)明采用以下技術(shù)方案。

3、一種基于屬性語義相似匹配的行人屬性識別方法,包括以下步驟:

4、1)設(shè)計一個自適應(yīng)屬性查詢模塊,通過自適應(yīng)屬性查詢模塊,從行人圖像中提取特定于屬性的語義信息,以捕獲每個屬性對應(yīng)的語義特征;設(shè)計一系列可學習的參數(shù)作為對應(yīng)的屬性查詢,將行人圖像輸入圖像編碼器以獲得視覺向量表示,并將屬性查詢與視覺向量通過交叉注意力機制來進行交互,學習屬性特定的空間分布并捕獲解耦的屬性語義信息;

5、2)提出一個語義相似匹配模塊,將行人屬性識別重構(gòu)為語義匹配任務(wù),使用屬性文本特征作為語義錨點,利用查詢到的屬性語義信息與對應(yīng)的文本特征間進行相似度匹配,從而識別對應(yīng)行人屬性;

6、3)提出一個動態(tài)負語義學習策略,通過將屬性的空間先驗信息與可學習參數(shù)相結(jié)合,生成屬性的負語義信息,以約束語義查詢模塊對屬性的關(guān)注區(qū)域,確保當圖像中不存在對應(yīng)的屬性時,動態(tài)語義查詢模塊仍能關(guān)注到行人屬性對應(yīng)的局部區(qū)域,實現(xiàn)更加準確的行人屬性識別。

7、在步驟1)中,所述設(shè)計一個自適應(yīng)屬性查詢模塊,具體包括以下步驟:

8、(1)行人圖像特征提取部分

9、對于給定的行人圖像,使用預(yù)訓練的visual?transformer?來提取其對應(yīng)的視覺向量;首先將圖像分成一系列固定大小、不重疊的塊,總共有個塊,其中?p代表塊大小;隨后通過可訓練的線性投影將這些塊序列轉(zhuǎn)換為?1維向量,并送入clip?的視覺編碼器中來獲取視覺向量表示f;

10、(2)屬性語義查詢部分

11、由于clip的全局特征可能會忽略一些細粒度的屬性信息,通過自適應(yīng)屬性查詢來從圖像的特征圖中提取每個屬性所對應(yīng)的語義信息;首先構(gòu)建一組可學習得屬性查詢其中n?為屬性數(shù)量,屬性查詢首先通過自注意力來學習屬性間的關(guān)聯(lián)信息,然后屬性查詢與圖像特征f通過交叉注意力模塊來獲得屬性對應(yīng)的語義信息;

12、(3)語義一致性損失

13、在獲得每個屬性對應(yīng)的語義信息后,提出語義一致性損失,實現(xiàn)屬性語義的解耦并保證相同屬性的語義一致性;首先根據(jù)語義特征是否屬于同一屬性來對訓練最小批內(nèi)生成對應(yīng)的組標簽?然后通過計算不同語義間的相似度,能夠得到其屬于同一屬性的概率;最終的語義一致性損失計算如下:

14、

15、在步驟2)中,所述語義相似匹配模塊,旨在利用屬性文本特征與屬性語義之間的相似性來進行行人屬性識別;通過將屬性識別轉(zhuǎn)化為語義匹配任務(wù),能夠充分利用視覺語言模型的語義一致性,減少由樣本不平衡導致的少數(shù)樣本識別錯誤;具體來說,首先將屬性的名稱拓展為文本描述,然后通過clip的文本編碼器來生成對應(yīng)的文本特征,該過程定義如下:

16、

17、然后計算由屬性語義特征和文本特征之間的余弦相似度,從而得到每個屬性的預(yù)測概率,該過程定義如下:

18、

19、其中,?為溫度超參數(shù),來調(diào)整模型對相似變化的敏感性;使用加權(quán)交叉熵損失訓練所提出的方法,其數(shù)學表達式如下:

20、

21、其中,?表示第j個屬性的不平衡權(quán)重,?表示第j個屬性在訓練集中出現(xiàn)的比例。

22、在步驟3)中,所述動態(tài)負語義學習策略對不存在屬性的查詢語義進行規(guī)則化,將屬性查詢約束到相關(guān)區(qū)域,減少由于圖像中行人屬性不存在導致屬性查詢時不相關(guān)區(qū)域的干擾;對于每個屬性,通過將其的空間位置先驗信息與可學習嵌入相結(jié)合,得到可學習的動態(tài)負語義;該過程表述如下:

23、

24、其中,?與?代表前綴與后綴嵌入,?為第i個屬性對應(yīng)的可學習嵌入;然后通過clip的文本編碼器得到對應(yīng)的負語義特征,具體表述如下:

25、

26、與語義相似匹配模塊類似,通過計算屬性語義與動態(tài)負語義之間的相似性,可以得到關(guān)于每個不存在屬性的預(yù)測概率,然后計算加權(quán)交叉熵損失,該過程表示如下:

27、

28、最終的整體損失表示為:

29、

30、其中,?為控制負語義損失的超參數(shù)。

31、與現(xiàn)有技術(shù)相比,本發(fā)明的突出技術(shù)效果和優(yōu)點在于:

32、1、通過自適應(yīng)屬性查詢模塊,從clip輸出的特征圖中學習屬性的空間分布并提取每個屬性對應(yīng)的語義信息,實現(xiàn)屬性語義的解耦,能夠?qū)W習到特定于屬性的空間分布,捕獲細粒度的屬性語義信息,解決現(xiàn)有方法難以學習全面特征表示的問題,從而提高屬性識別的準確性。

33、2、本發(fā)明將屬性預(yù)測轉(zhuǎn)變?yōu)榱苏Z義相似匹配的方法,能夠保持與預(yù)訓練模型一致的學習目標,提升下游任務(wù)微調(diào)時的表現(xiàn);語義相似匹配模塊采用加權(quán)交叉熵損失訓練模型,根據(jù)屬性在訓練集中的出現(xiàn)頻率調(diào)整損失權(quán)重,有效提升模型對少數(shù)樣本的識別能力,克服樣本不平衡帶來的挑戰(zhàn)。

34、3、為了應(yīng)對樣本正負標簽的不平衡性,引入動態(tài)負語義學習,利用可學習的語義錨點將屬性查詢約束在屬性相關(guān)區(qū)域,提升語義查詢的準確度;動態(tài)負語義學習策略通過生成動態(tài)負語義,約束語義查詢模塊對屬性的關(guān)注區(qū)域,確保當圖像中不存在對應(yīng)屬性時,仍能準確進行屬性查詢,進一步提高行人屬性識別的準確性和可靠性。



技術(shù)特征:

1.一種基于屬性語義相似匹配的行人屬性識別方法,其特征在于包括以下步驟:

2.如權(quán)利要求1所述一種基于屬性語義相似匹配的行人屬性識別方法,其特征在于在步驟1)中,所述設(shè)計一個自適應(yīng)屬性查詢模塊,具體包括以下步驟:

3.如權(quán)利要求1所述一種基于屬性語義相似匹配的行人屬性識別方法,其特征在于在步驟2)中,所述語義相似匹配模塊,旨在利用屬性文本特征與屬性語義之間的相似性來進行行人屬性識別;通過將屬性識別轉(zhuǎn)化為語義匹配任務(wù),能夠充分利用視覺語言模型的語義一致性,減少由樣本不平衡導致的少數(shù)樣本識別錯誤;具體來說,首先將屬性的名稱拓展為文本描述,然后通過clip的文本編碼器來生成對應(yīng)的文本特征,該過程定義如下:

4.如權(quán)利要求1所述一種基于屬性語義相似匹配的行人屬性識別方法,其特征在于在步驟3)中,所述動態(tài)負語義學習策略對不存在屬性的查詢語義進行規(guī)則化,將屬性查詢約束到相關(guān)區(qū)域,減少由于圖像中行人屬性不存在導致屬性查詢時不相關(guān)區(qū)域的干擾;對于每個屬性,通過將其的空間位置先驗信息與可學習嵌入相結(jié)合,得到可學習的動態(tài)負語義;該過程表述如下:


技術(shù)總結(jié)
一種基于屬性語義相似匹配的行人屬性識別方法,涉及計算機視覺技術(shù)領(lǐng)域。首先設(shè)計一個自適應(yīng)的語義查詢模塊,使用與視覺特征結(jié)合的自適應(yīng)查詢來學習特定于屬性的空間分布,并捕獲每個屬性的語義信息。此外,將行人屬性識別重構(gòu)為語義匹配任務(wù),使用屬性文本特征作為語義錨點,根據(jù)查詢的語義信息與錨點間的距離來預(yù)測行人屬性。最后,提出動態(tài)負語義學習策略,通過將屬性的空間先驗信息與可學習參數(shù)相結(jié)合,來生成屬性的負語義信息,以約束語義查詢模塊對屬性的關(guān)注區(qū)域,實現(xiàn)更加準確的行人屬性識別。

技術(shù)研發(fā)人員:王菡子,楊鈺駿,張玉康,盧楊
受保護的技術(shù)使用者:廈門大學
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/8
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1