本發(fā)明涉及鳥類聲音識別,尤其涉及一種基于多尺度融合的鳥類聲音識別方法。
背景技術(shù):
1、隨著聲音識別技術(shù)的不斷飛躍,聲音技術(shù)在野生動物種群評估、保護(hù)以及生物多樣性研究領(lǐng)域的應(yīng)用愈發(fā)廣泛,并受到了學(xué)術(shù)界與實踐領(lǐng)域的深切關(guān)注。鳥類,作為自然界中生態(tài)健康狀況的靈敏風(fēng)向標(biāo),其發(fā)聲特征因其物種而異,這種獨特的區(qū)分性為物種識別提供了穩(wěn)定而可靠的基礎(chǔ)。正因如此,一種創(chuàng)新的鳥類監(jiān)測手段——利用聲學(xué)檢測設(shè)備進(jìn)行監(jiān)測,正逐漸成為研究焦點。該方法巧妙地借助聲學(xué)監(jiān)測設(shè)備,實現(xiàn)鳥類發(fā)聲的自動采集,并依據(jù)發(fā)聲特征來精確識別鳥類種類,從而高效地進(jìn)行鳥類監(jiān)測。
2、然而,盡管基于深度學(xué)習(xí)的鳥聲識別技術(shù)已取得一定進(jìn)展,但現(xiàn)有的方法仍存在局限。它們難以全面地在譜圖的時間和頻率軸上執(zhí)行長期相關(guān)建模,這意味著在處理復(fù)雜多變的鳥聲數(shù)據(jù)時,可能遺漏重要的時序和頻率特征。此外,這些技術(shù)對于不同尺度特征如何影響最終識別結(jié)果的探索尚不充分。同時,受計算能力和存儲空間的制約,這些先進(jìn)的識別方法在實現(xiàn)實時鳥類聲音識別時,特別是在資源受限的設(shè)備上部署時,仍面臨諸多挑戰(zhàn)。
技術(shù)實現(xiàn)思路
1、為解決現(xiàn)有技術(shù)中鳥類聲音識別模型長期監(jiān)測時特征容易遺漏,算力資源消耗大的問題,本發(fā)明提出一種基于多尺度融合的鳥類聲音識別方法。
2、具體技術(shù)方案如下:一種基于多尺度融合的鳥類聲音識別方法,步驟包括:
3、s1:獲取鳥類聲音樣本信號,對鳥類聲音樣本信號進(jìn)行預(yù)處理;
4、s2:構(gòu)建鳥類聲音識別模型,所述鳥類聲音識別模型采用設(shè)有頻率捕獲路徑的混合架構(gòu)cldnn,所述混合架構(gòu)cldnn由cnn、lstm和dnn組成,通過鳥類聲音識別模型獲取時間依賴性和頻率依賴性,將獲取到的特征進(jìn)行特征融合得到訓(xùn)練分類結(jié)果;
5、s3:將訓(xùn)練的鳥類聲音識別模型作為教師模型,將教師模型通過知識蒸餾生成輕量級的學(xué)生模型。
6、進(jìn)一步的,所述預(yù)處理包括:
7、通過濾波器補(bǔ)償鳥類聲音樣本信號在聲音產(chǎn)生機(jī)制中發(fā)生的衰減;
8、將得到補(bǔ)償?shù)镍B類聲音樣本信號分為若干幀,對所有分幀聲音信號分別加窗;
9、對加窗聲音信號進(jìn)行快速傅里葉變換,將變換結(jié)果輸入梅爾濾波器組得到鳥類聲音梅爾頻譜圖。
10、進(jìn)一步的,所述鳥類聲音識別模型的構(gòu)建包括:
11、為cnn的特征提取模塊添加跳躍連接層,將模型中每個卷積層與跳躍連接層的組合模塊的輸出特征圖分別沿著不同路徑傳遞到下一個組合模塊和多尺度融合模塊;
12、為lstm設(shè)置鳥類聲音的時間依賴性路徑和頻率依賴性路徑,將頻譜圖維度進(jìn)行重排,將頻譜圖特征張量的時間量與頻率量進(jìn)行互換,使用lstm對重排后的頻譜圖進(jìn)行處理,捕捉時間依賴性和頻率依賴性;
13、將輸出特征圖與時間依賴性和頻率依賴性按照通道維度進(jìn)行堆疊作為輸入,分別在通道和空間方向上進(jìn)行特征融合。
14、進(jìn)一步的,所述cnn的特征提取過程包括:為cnn的每個卷積層設(shè)置bn層和relu激活函數(shù),并通過公式提取詳細(xì)特征,其中,k表示卷積核的大小。
15、進(jìn)一步的,所述特征融合包括:將cnn的卷積層和跳躍連接層組合獲取的特征與時間依賴性和頻率依賴性按照通道維度堆疊,將堆疊結(jié)果作為輸入,在通道和空間方向上進(jìn)行特征融合。
16、進(jìn)一步的,所述特征的組合獲取具體包括:
17、將特征進(jìn)行全局最大池化和平均池化操作獲得兩個特征向量;
18、將兩個特征向量通過共享參數(shù)的全連接層,對全連接層輸出的兩個特征向量進(jìn)行逐元素求和并進(jìn)行激活操作,生成通道注意力掩碼。
19、進(jìn)一步的,所述特征的組合獲取還包括:
20、將通道注意力掩碼與原始特征張量進(jìn)行逐元素相乘,得到具有通道注意力的特征圖;
21、對具有通道注意力的特征圖進(jìn)行空間方向的池化操作,將池化結(jié)果沿通道維度堆疊,通過2d卷積減少通道數(shù),加入sigmoid激活函數(shù)輸出空間注意力掩碼;
22、通過通道注意力掩碼和空間注意力掩碼對特征圖進(jìn)行加權(quán),得到融合特征圖。
23、進(jìn)一步的,所述鳥類聲音識別模型的構(gòu)建還包括:將融合結(jié)果通過全局池化操作生成特征向量,將特征向量輸入到一個全連接層,通過softmax激活函數(shù)得到最后的分類結(jié)果。
24、進(jìn)一步的,所述學(xué)生模型的生成包括:
25、訓(xùn)練教師模型,全面學(xué)習(xí)數(shù)據(jù)的特征分布,得到具有特征識別能力和泛化性能的教師模型;
26、通過聯(lián)合訓(xùn)練將教師模型的知識遷移到學(xué)生模型中。
27、進(jìn)一步的,所述知識遷移包括:設(shè)置溫度系數(shù)t,通過溫度系數(shù)t軟化教師模型的類別概率分布,生成包含更多信息的軟目標(biāo)。
28、上述技術(shù)方案具有以下優(yōu)點或技術(shù)效果:
29、1.?本發(fā)明提出了一種基于多尺度融合的鳥類識別模型,基于聲音識別準(zhǔn)確度較高的cldnn框架上進(jìn)行改進(jìn),增加了lstm路徑建立頻率的長期依賴性,引入多特征融合模塊融合不同尺度的特征,從而提高了聲音識別精度。
30、2.?本發(fā)明對cldnn進(jìn)行多尺度融合改造,通過對鳥聲頻譜圖的特征提取,再通過兩個獨立的路徑分別對時間和頻率相關(guān)關(guān)系進(jìn)行建模捕獲時間依賴性和頻率依賴性,最后將提取到的特征輸入多尺度融合模塊在通道和空間方向進(jìn)行特征融合得到分類結(jié)果,減少了長期監(jiān)測過程中可能產(chǎn)生的特征遺漏。
31、3.?本發(fā)明通過將基于多尺度融合的鳥類識別模型進(jìn)行知識蒸餾獲得的輕量級鳥類識別模型,降低了資源消耗,輕量級鳥類識別模型能夠在無網(wǎng)絡(luò)覆蓋的野外環(huán)境中實現(xiàn)鳥類聲音的快速識別,降低了計算能力和存儲所需算力資源的消耗。
1.一種基于多尺度融合的鳥類聲音識別方法,其特征在于,步驟包括:
2.根據(jù)權(quán)利要求1所述的一種基于多尺度融合的鳥類聲音識別方法,其特征在于,所述預(yù)處理包括:
3.根據(jù)權(quán)利要求1所述的一種基于多尺度融合的鳥類聲音識別方法,其特征在于,所述鳥類聲音識別模型的構(gòu)建包括:
4.根據(jù)權(quán)利要求3所述的一種基于多尺度融合的鳥類聲音識別方法,其特征在于,所述cnn的特征提取過程包括:為cnn的每個卷積層設(shè)置bn層和relu激活函數(shù),并通過公式提取詳細(xì)特征,其中,k表示卷積核的大小。
5.根據(jù)權(quán)利要求3所述的一種基于多尺度融合的鳥類聲音識別方法,其特征在于,所述特征融合包括:將cnn的卷積層和跳躍連接層組合獲取的特征與時間依賴性和頻率依賴性按照通道維度堆疊,將堆疊結(jié)果作為輸入,在通道和空間方向上進(jìn)行特征融合。
6.根據(jù)權(quán)利要求5所述的一種基于多尺度融合的鳥類聲音識別方法,其特征在于,所述特征的組合獲取具體包括:
7.根據(jù)權(quán)利要求6所述的一種基于多尺度融合的鳥類聲音識別方法,其特征在于,所述特征的組合獲取還包括:
8.根據(jù)權(quán)利要求3所述的一種基于多尺度融合的鳥類聲音識別方法,其特征在于,所述鳥類聲音識別模型的構(gòu)建還包括:將融合結(jié)果通過全局池化操作生成特征向量,將特征向量輸入到一個全連接層,通過softmax激活函數(shù)得到最后的分類結(jié)果。
9.根據(jù)權(quán)利要求1所述的一種基于多尺度融合的鳥類聲音識別方法,其特征在于,所述學(xué)生模型的生成包括:
10.根據(jù)權(quán)利要求9所述的一種基于多尺度融合的鳥類聲音識別方法,其特征在于,所述知識遷移包括:設(shè)置溫度系數(shù)t,通過溫度系數(shù)t軟化教師模型的類別概率分布,生成包含更多信息的軟目標(biāo)。