本發(fā)明涉及聲音識(shí)別,尤其涉及一種錄音筆關(guān)鍵詞聲音識(shí)別方法、裝置及設(shè)備。
背景技術(shù):
1、統(tǒng)的錄音筆關(guān)鍵詞識(shí)別方法主要依賴于頻域分析和特征匹配,在復(fù)雜環(huán)境下容易受到噪聲干擾,導(dǎo)致識(shí)別準(zhǔn)確率下降。
2、現(xiàn)有的錄音筆關(guān)鍵詞識(shí)別技術(shù)往往將聲音特征提取和關(guān)鍵詞識(shí)別作為獨(dú)立任務(wù)處理,忽視了兩個(gè)任務(wù)之間的內(nèi)在聯(lián)系,且特征提取過程中未充分考慮不同環(huán)境條件下聲音特征的差異性,導(dǎo)致識(shí)別模型的環(huán)境適應(yīng)性不足。這種割裂的處理方式限制了系統(tǒng)的整體性能。此外,傳統(tǒng)方法在處理非平穩(wěn)噪聲時(shí)表現(xiàn)欠佳,缺乏有效的噪聲抑制機(jī)制和自適應(yīng)特征權(quán)重調(diào)整策略,難以準(zhǔn)確捕捉關(guān)鍵詞的聲學(xué)特征。同時(shí),現(xiàn)有方法普遍缺乏可靠的基線特征庫(kù)和模型評(píng)估機(jī)制,無法對(duì)識(shí)別結(jié)果進(jìn)行有效的優(yōu)化和校正。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供了一種錄音筆關(guān)鍵詞聲音識(shí)別方法、裝置及設(shè)備,本發(fā)明提升了錄音筆的關(guān)鍵詞聲音識(shí)別結(jié)果的準(zhǔn)確性。
2、第一方面,本發(fā)明提供了一種錄音筆關(guān)鍵詞聲音識(shí)別方法,所述錄音筆關(guān)鍵詞聲音識(shí)別方法包括:
3、對(duì)錄音筆采集的原始聲音信號(hào)進(jìn)行傅里葉變換和時(shí)域隨機(jī)化處理,得到目標(biāo)時(shí)域聲音信號(hào);
4、提取所述目標(biāo)時(shí)域聲音信號(hào)中音調(diào)特征、音色特征和響度特征,生成目標(biāo)聲音特征向量;
5、基于多個(gè)標(biāo)準(zhǔn)語(yǔ)音樣本建立標(biāo)準(zhǔn)基線特征庫(kù);
6、對(duì)所述目標(biāo)聲音特征向量進(jìn)行加權(quán)k-means聚類分析,生成動(dòng)態(tài)特征權(quán)重矩陣;
7、將所述目標(biāo)聲音特征向量和所述動(dòng)態(tài)特征權(quán)重矩陣輸入圖結(jié)構(gòu)多任務(wù)學(xué)習(xí)模型進(jìn)行關(guān)鍵詞識(shí)別,輸出初始關(guān)鍵詞識(shí)別結(jié)果;
8、根據(jù)所述標(biāo)準(zhǔn)基線特征庫(kù),對(duì)所述初始關(guān)鍵詞識(shí)別結(jié)果進(jìn)行加權(quán)優(yōu)化,生成目標(biāo)關(guān)鍵詞識(shí)別結(jié)果。
9、第二方面,本發(fā)明提供了一種錄音筆關(guān)鍵詞聲音識(shí)別裝置,所述錄音筆關(guān)鍵詞聲音識(shí)別裝置包括:
10、變換模塊,用于對(duì)錄音筆采集的原始聲音信號(hào)進(jìn)行傅里葉變換和時(shí)域隨機(jī)化處理,得到目標(biāo)時(shí)域聲音信號(hào);
11、提取模塊,用于提取所述目標(biāo)時(shí)域聲音信號(hào)中音調(diào)特征、音色特征和響度特征,生成目標(biāo)聲音特征向量;
12、建立模塊,用于基于多個(gè)標(biāo)準(zhǔn)語(yǔ)音樣本建立標(biāo)準(zhǔn)基線特征庫(kù);
13、分析模塊,用于對(duì)所述目標(biāo)聲音特征向量進(jìn)行加權(quán)k-means聚類分析,生成動(dòng)態(tài)特征權(quán)重矩陣;
14、識(shí)別模塊,用于將所述目標(biāo)聲音特征向量和所述動(dòng)態(tài)特征權(quán)重矩陣輸入圖結(jié)構(gòu)多任務(wù)學(xué)習(xí)模型進(jìn)行關(guān)鍵詞識(shí)別,輸出初始關(guān)鍵詞識(shí)別結(jié)果;
15、生成模塊,用于根據(jù)所述標(biāo)準(zhǔn)基線特征庫(kù),對(duì)所述初始關(guān)鍵詞識(shí)別結(jié)果進(jìn)行加權(quán)優(yōu)化,生成目標(biāo)關(guān)鍵詞識(shí)別結(jié)果。
16、本發(fā)明第三方面提供了一種計(jì)算機(jī)設(shè)備,包括:存儲(chǔ)器和至少一個(gè)處理器,所述存儲(chǔ)器中存儲(chǔ)有指令;所述至少一個(gè)處理器調(diào)用所述存儲(chǔ)器中的所述指令,以使得所述計(jì)算機(jī)設(shè)備執(zhí)行上述的錄音筆關(guān)鍵詞聲音識(shí)別方法。
17、本發(fā)明的第四方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行上述的錄音筆關(guān)鍵詞聲音識(shí)別方法。
18、本發(fā)明提供的技術(shù)方案中,通過引入時(shí)域隨機(jī)化處理和自適應(yīng)濾波技術(shù),有效抑制錄音信號(hào)中的非平穩(wěn)噪聲,提高了聲音信號(hào)的質(zhì)量,采用全卷積神經(jīng)網(wǎng)絡(luò)結(jié)合全連接層和稀疏連接層的雙重特征提取機(jī)制,實(shí)現(xiàn)了聲音特征的高效提取和篩選,提升了特征表示的準(zhǔn)確性;建立標(biāo)準(zhǔn)基線特征庫(kù),結(jié)合隨機(jī)森林回歸和概率密度分布模型,構(gòu)建了可靠的特征評(píng)估基準(zhǔn),增強(qiáng)了識(shí)別結(jié)果的可信度;設(shè)計(jì)基于加權(quán)k-means聚類的動(dòng)態(tài)特征權(quán)重調(diào)整機(jī)制,使系統(tǒng)能夠根據(jù)不同環(huán)境條件自適應(yīng)調(diào)整特征權(quán)重,提高了模型的環(huán)境適應(yīng)能力;采用圖結(jié)構(gòu)多任務(wù)學(xué)習(xí)模型,將聲音特征提取和關(guān)鍵詞識(shí)別任務(wù)進(jìn)行聯(lián)合優(yōu)化,通過參數(shù)共享提升了模型的泛化能力;引入基于注意力機(jī)制的特征增強(qiáng)網(wǎng)絡(luò),加強(qiáng)了對(duì)關(guān)鍵聲音特征的捕捉能力,提高了關(guān)鍵詞識(shí)別的精確度;設(shè)計(jì)了基于多層次評(píng)估的識(shí)別結(jié)果優(yōu)化機(jī)制,通過特征相似度分析和一致性評(píng)估,提升了最終識(shí)別結(jié)果的準(zhǔn)確性。
1.一種錄音筆關(guān)鍵詞聲音識(shí)別方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的錄音筆關(guān)鍵詞聲音識(shí)別方法,其特征在于,所述對(duì)錄音筆采集的原始聲音信號(hào)進(jìn)行傅里葉變換和時(shí)域隨機(jī)化處理,得到目標(biāo)時(shí)域聲音信號(hào),包括:
3.根據(jù)權(quán)利要求2所述的錄音筆關(guān)鍵詞聲音識(shí)別方法,其特征在于,所述提取所述目標(biāo)時(shí)域聲音信號(hào)中音調(diào)特征、音色特征和響度特征,生成目標(biāo)聲音特征向量,包括:
4.根據(jù)權(quán)利要求3所述的錄音筆關(guān)鍵詞聲音識(shí)別方法,其特征在于,所述基于多個(gè)標(biāo)準(zhǔn)語(yǔ)音樣本建立標(biāo)準(zhǔn)基線特征庫(kù),包括:
5.根據(jù)權(quán)利要求4所述的錄音筆關(guān)鍵詞聲音識(shí)別方法,其特征在于,所述對(duì)所述目標(biāo)聲音特征向量進(jìn)行加權(quán)k-means聚類分析,生成動(dòng)態(tài)特征權(quán)重矩陣,包括:
6.根據(jù)權(quán)利要求5所述的錄音筆關(guān)鍵詞聲音識(shí)別方法,其特征在于,所述將所述目標(biāo)聲音特征向量和所述動(dòng)態(tài)特征權(quán)重矩陣輸入圖結(jié)構(gòu)多任務(wù)學(xué)習(xí)模型進(jìn)行關(guān)鍵詞識(shí)別,輸出初始關(guān)鍵詞識(shí)別結(jié)果,包括:
7.根據(jù)權(quán)利要求6所述的錄音筆關(guān)鍵詞聲音識(shí)別方法,其特征在于,所述根據(jù)所述標(biāo)準(zhǔn)基線特征庫(kù),對(duì)所述初始關(guān)鍵詞識(shí)別結(jié)果進(jìn)行加權(quán)優(yōu)化,生成目標(biāo)關(guān)鍵詞識(shí)別結(jié)果,包括:
8.一種錄音筆關(guān)鍵詞聲音識(shí)別裝置,其特征在于,用于執(zhí)行如權(quán)利要求1-7中任一項(xiàng)所述的錄音筆關(guān)鍵詞聲音識(shí)別方法,所述錄音筆關(guān)鍵詞聲音識(shí)別裝置包括:
9.一種計(jì)算機(jī)設(shè)備,其特征在于,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的錄音筆關(guān)鍵詞聲音識(shí)別方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器運(yùn)行時(shí)使得所述處理器執(zhí)行如權(quán)利要求1至7中任一項(xiàng)所述的錄音筆關(guān)鍵詞聲音識(shí)別方法。