本發(fā)明涉及計算機視覺和機器學習,特別是涉及一種基于動作快慢特征的多模態(tài)鳥類動作識別方法及裝置。
背景技術:
1、鳥類動作識別是計算機視覺中的一項重要任務,廣泛應用于生態(tài)監(jiān)測、智能安防以及動物行為研究等領域。傳統(tǒng)的鳥類動作識別方法主要依賴于圖像中的物體識別技術,但這些方法往往難以準確捕捉和理解鳥類動作的時間動態(tài)特征。尤其在動作變化速度較大的場景中,現有方法難以有效提取運動速度和頻率信息,從而影響識別效果。因此,如何結合運動信息和視覺特征,提升鳥類動作識別的精度和魯棒性,是一個亟待解決的技術問題。
技術實現思路
1、本發(fā)明的目的在于提供一種基于動作快慢特征的多模態(tài)鳥類動作識別方法及裝置。通過引入光流分析技術與timesformer架構,把由光流法構建的快慢特征融入模型的語義查詢模塊,本發(fā)明能夠更精準地捕捉鳥類動作的速度變化,進而提高鳥類動作的識別性能。
2、為實現上述目的,本發(fā)明提供一種基于動作快慢特征的多模態(tài)鳥類動作識別方法,包括:
3、步驟1,計算輸入視頻相鄰兩幀圖像之間的光流運動矢量;
4、步驟2,將步驟1的光流運動矢量值按照區(qū)間進行劃分,得到多個快慢類別;
5、步驟3,將步驟2的每個快慢類別轉化為一個二進制向量,得到動作快慢特征;
6、步驟4,將步驟3的動作快慢特征與視覺-文本特征相融合,共同作為模型的語義查詢部分;其中,視覺-文本特征由視頻-文本編碼器根據預設的動作標簽,從輸入視頻提取得到;
7、步驟5,訓練模型:將步驟4的語義查詢部分與視頻特征向量均輸入解碼器,解碼器利用語義查詢部分對解碼器進行引導,使解碼器能夠聚焦于與語義查詢部分的信息進行解碼,得到動作識別結果,計算動作識別結果的平均精度均值,平均精度均值作為評價訓練效果的指標;其中,視頻特征向量通過視頻編碼器對輸入視頻進行隨機抽幀采樣得到。
8、優(yōu)選的,步驟1具體包括:
9、步驟1.1,設定圖像的亮度從t1時刻的i1(x,y)變化為t2時刻的i2(x,y),且圖像中每個像素沿x方向和y方向的位移為u和v,對于每個像素點,采用光流方程(1)得到一個二維的光流向量場,該光流向量場中的每個像素光流向量代表相應像素點的運動方向與速度:
10、
11、其中,和是圖像的空間梯度,是時間梯度;
12、步驟1.2,計算每張圖像中所有像素光流向量大小的平均值,作為該幀圖像的光流運動矢量。
13、優(yōu)選的,步驟3具體包括:
14、區(qū)間劃分后得到快慢類別集合c={c1,c2,...ci,,...,cn},其中,n是快慢類別的總數,將每一個快慢類別ci對應的one-hot編碼設置為一個長度為n的動作快慢特征組成的向量v=[v1,v2,...,vj,...,vn],其中只有表示該類別索引位置的元素為1,其他位置的元素均為0。
15、優(yōu)選的,步驟4具體包括:
16、步驟4.1,將動作快慢特征組成的向量v和視頻-文本編碼器得到的視覺-文本特征向量拼接在一起,得到維度為dz的向量z;
17、步驟4.2,通過一個線性變換q=wz+b,將拼接后的向量z映射為維度為dq的語義查詢向量q,保證語義查詢向量q的維度與模型的語義查詢對齊。
18、本發(fā)明還提供一種基于動作快慢特征的多模態(tài)鳥類動作識別裝置,包括:
19、光流運動矢量計算單元,其用于計算輸入視頻相鄰兩幀圖像之間的光流運動矢量;
20、類別劃分單元,其用于將光流運動矢量計算單元的光流運動矢量值按照區(qū)間進行劃分,得到多個快慢類別;
21、向量轉換單元,其用于將類別劃分單元的每個快慢類別轉化為一個二進制向量,得到動作快慢特征;
22、特征融合單元,其用于將向量轉換單元的動作快慢特征與視覺-文本特征相融合,共同作為模型的語義查詢部分;其中,視覺-文本特征由視頻-文本編碼器根據預設的動作標簽,從輸入視頻提取得到;
23、解碼計算單元,其用于訓練模型:將特征融合單元的語義查詢部分與視頻特征向量均輸入解碼器,解碼器利用語義查詢部分對解碼器進行引導,使解碼器能夠聚焦于與語義查詢部分的信息進行解碼,得到動作識別結果,計算動作識別結果的平均精度均值,平均精度均值作為評價訓練效果的指標;其中,視頻特征向量通過視頻編碼器對輸入視頻進行隨機抽幀采樣得到。
24、優(yōu)選的,光流運動矢量計算單元具體包括:
25、光流向量計算模塊,其用于設定圖像的亮度從t1時刻的i1(x,y)變化為t2時刻的i2(x,y),且圖像中每個像素沿x方向和y方向的位移為u和v,對于每個像素點,采用光流方程(1)得到一個二維的光流向量場,該光流向量場中的每個像素光流向量代表相應像素點的運動方向與速度:
26、
27、其中,和是圖像的空間梯度,是時間梯度;
28、光流運動矢量模塊,其用于計算每張圖像中所有像素光流向量大小的平均值,作為該幀圖像的光流運動矢量。
29、優(yōu)選的,向量轉換單元具體包括:
30、區(qū)間劃分后得到快慢類別集合c={c1,c2,...ci,...,cn},其中,n是快慢類別的總數,將每一個快慢類別ci對應的one-hot編碼設置為一個長度為n的動作快慢特征組成的向量v=[v1,v2,...,vj,...,vn],其中只有表示該類別索引位置的元素為1,其他位置的元素均為0。
31、優(yōu)選的,特征融合單元具體包括:
32、向量拼接模塊,其用于將動作快慢特征組成的向量v和視頻-文本編碼器得到的視覺-文本特征向量拼接在一起,得到維度為dz的向量z;
33、維度對齊模塊,其用于通過一個線性變換q=wz+b,將拼接后的向量z映射為維度為dq的語義查詢向量q,保證語義查詢向量q的維度與模型的語義查詢對齊。
34、本發(fā)明由于采取以上技術方案,具有以下優(yōu)點:
35、本發(fā)明通過結合光流分析、多模態(tài)查詢和timesformer架構,能夠有效地提取鳥類動作的快慢特征,并將其融入到動作識別模型中。與傳統(tǒng)的鳥類動作識別方法相比,本發(fā)明能夠更好地捕捉到鳥類動作中的時間動態(tài)信息,尤其是在動作頻率變化較大的情況下,具有更高的識別準確性和魯棒性。此外,融合的多模態(tài)特征能夠增強模型的語義理解能力,進一步提升識別效果。
1.一種基于動作快慢特征的多模態(tài)鳥類動作識別方法,其特征在于,包括:
2.如權利要求1所述的基于動作快慢特征的多模態(tài)鳥類動作識別方法,其特征在于,步驟1具體包括:
3.如權利要求1所述的基于動作快慢特征的多模態(tài)鳥類動作識別方法,其特征在于,步驟3具體包括:
4.如權利要求1-3中任一項所述的基于動作快慢特征的多模態(tài)鳥類動作識別方法,其特征在于,步驟4具體包括:
5.一種基于動作快慢特征的多模態(tài)鳥類動作識別裝置,其特征在于,包括:
6.如權利要求5所述的基于動作快慢特征的多模態(tài)鳥類動作識別裝置,其特征在于,光流運動矢量計算單元具體包括:
7.如權利要求5所述的基于動作快慢特征的多模態(tài)鳥類動作識別裝置,其特征在于,向量轉換單元具體包括:
8.如權利要求5-7中任一項所述的基于動作快慢特征的多模態(tài)鳥類動作識別裝置,其特征在于,特征融合單元具體包括: