本發(fā)明涉及基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別方法、系統(tǒng),自然語(yǔ)言處理。
背景技術(shù):
1、語(yǔ)音識(shí)別技術(shù)的應(yīng)用領(lǐng)域非常廣泛,包括語(yǔ)音助手、智能家居、汽車語(yǔ)音交互等多個(gè)領(lǐng)域。方言是中國(guó)民眾日常交流的一種流行方式。方言語(yǔ)種識(shí)別(dialectidentification,did)是指對(duì)輸入的語(yǔ)音序列進(jìn)行分析和處理,以確定其所屬的方言。方言語(yǔ)種識(shí)別的核心挑戰(zhàn)在于如何提取能夠有效區(qū)分不同方言的特征。
2、傳統(tǒng)的方言識(shí)別方法使用大量標(biāo)記數(shù)據(jù)以有監(jiān)督的學(xué)習(xí)方式進(jìn)行訓(xùn)練,首先從語(yǔ)音信號(hào)中提取底層聲學(xué)特征,例如梅爾頻率倒譜系數(shù)、濾波器組、i-vector和x-vector等,然后使用前端編碼器提取出對(duì)應(yīng)的方言表征,然后應(yīng)用后端獨(dú)立訓(xùn)練的分類器來(lái)識(shí)別方言類別。受益于深度神經(jīng)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,前端和后端方法通過(guò)端到端方法集成到單個(gè)網(wǎng)絡(luò)中。雖然監(jiān)督學(xué)習(xí)已經(jīng)成為語(yǔ)音處理的核心方法,但其需要為每個(gè)任務(wù)和場(chǎng)景提供大量的標(biāo)記數(shù)據(jù)。
3、近年來(lái),自監(jiān)督學(xué)習(xí)(self-supervised?learning,ssl)在語(yǔ)音處理領(lǐng)域取得了重大進(jìn)展。與傳統(tǒng)的聲學(xué)特征類似,自監(jiān)督學(xué)習(xí)的語(yǔ)音表征包含大量信息,這些信息對(duì)下游任務(wù)非常有益,如語(yǔ)音情感識(shí)別,語(yǔ)言識(shí)別和說(shuō)話人驗(yàn)證等。盡管目前自監(jiān)督表征在方言語(yǔ)種識(shí)別任務(wù)中已有了進(jìn)展,但尚不清楚這些表征中包含的所有信息是否都對(duì)方言語(yǔ)種識(shí)別任務(wù)有益。因此分析自監(jiān)督表征中信息并將不相關(guān)或不必要的信息解耦出來(lái)就變得至關(guān)重要。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明解決的技術(shù)問(wèn)題是:本發(fā)明提供了基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別方法、系統(tǒng),以用于解耦自監(jiān)督模型中不必要的說(shuō)話人信息,以提取出各方言之間的差異性表征,本發(fā)明提高了方言語(yǔ)種任務(wù)的效果。
2、本發(fā)明的技術(shù)方案是:基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別方法,所述方法包括:
3、step1、將原始語(yǔ)音輸入到自監(jiān)督模型的上下文編碼器中提取輸出上下文表示,其中自監(jiān)督模型由卷積神經(jīng)網(wǎng)絡(luò)的特征提取器和基于transformer的上下文編碼器構(gòu)成;
4、step2、將上下文表示進(jìn)行加權(quán)求和,然后使用平均池化層將結(jié)果轉(zhuǎn)換為自監(jiān)督語(yǔ)音表征;
5、step3、自監(jiān)督語(yǔ)音表征輸入到說(shuō)話人性別分類器和方言分類器分別得到被解耦的說(shuō)話人表征s和方言表征d;
6、step4、利用說(shuō)話人表征和方言表征,基于梯度下降算法對(duì)自監(jiān)督模型進(jìn)行訓(xùn)練,通過(guò)反向傳播損失函數(shù)相對(duì)于網(wǎng)絡(luò)中各個(gè)權(quán)重的梯度來(lái)調(diào)整網(wǎng)絡(luò)的權(quán)重參數(shù),用訓(xùn)練好的自監(jiān)督模型進(jìn)行方言的識(shí)別。
7、進(jìn)一步地,所述step2中,所述自監(jiān)督語(yǔ)音表征u的生成過(guò)程表示如下:
8、
9、其中,wi是i層的權(quán)重,ci表示上下文編碼器第i層的輸出,mean表示均值池化操作,n表示編碼器層的數(shù)量。
10、進(jìn)一步地,所述step3中,所述說(shuō)話人性別分類器和方言分類器均采用交叉熵?fù)p失(cross-entropy?loss)函數(shù)來(lái)計(jì)算各自的損失;方言和性別分類的損失函數(shù)分別定義如下:
11、
12、其中,di和si分別表示真實(shí)的方言和說(shuō)話人性別標(biāo)簽;和表示預(yù)測(cè)的概率分;nd和ns是所有方言標(biāo)簽的數(shù)量和性別標(biāo)簽的數(shù)量;ld和ls分別是方言和性別分類的損失函數(shù)。
13、進(jìn)一步地,所述step3還包括在說(shuō)話人性別分類器之前增加一個(gè)梯度反轉(zhuǎn)層用于解耦說(shuō)話人信息。
14、進(jìn)一步地,所述step4中,所述自監(jiān)督模型進(jìn)行訓(xùn)練過(guò)程中,在自監(jiān)督模型的前向傳播過(guò)程中,梯度反轉(zhuǎn)層并沒(méi)有實(shí)質(zhì)性的參與;當(dāng)自監(jiān)督模型訓(xùn)練的反向轉(zhuǎn)播過(guò)程中,與一般的梯度下降算法不同,梯度反轉(zhuǎn)層將后續(xù)層的梯度乘以-λ并將其傳遞到前一層,這樣模型的權(quán)重參數(shù)在更新時(shí)就會(huì)被訓(xùn)練到遠(yuǎn)離目標(biāo)分布中;模型的權(quán)重參數(shù)θm的更新公式如下:
15、
16、其中,μ是學(xué)習(xí)率,λ是一個(gè)可手動(dòng)調(diào)節(jié)的超參數(shù),θs表示說(shuō)話人分類器的權(quán)重參數(shù)、μ表示學(xué)習(xí)率、θd表示方言分類器的權(quán)重參數(shù)。
17、本發(fā)明還提供基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別系統(tǒng),所述系統(tǒng)包括:用于執(zhí)行上述的基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別方法的模塊。
18、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別方法。
19、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別方法。
20、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別方法。
21、本發(fā)明探索了自監(jiān)督模型(self-supervised?model,ssm)在方言語(yǔ)種識(shí)別任務(wù)中的應(yīng)用;分析了說(shuō)話人信息對(duì)方言語(yǔ)種識(shí)別的影響并可視化自監(jiān)督模型不同層之間說(shuō)話人信息;提出了分層使用梯度反轉(zhuǎn)層(gradient?reversal?layer,grl)從自監(jiān)督表示中解耦與說(shuō)話人相關(guān)的信息的方法。
22、本發(fā)明的有益效果是:
23、1、本發(fā)明的提出的特征解耦方法成功從自監(jiān)督模型中解耦了說(shuō)話人信息,提高了方言語(yǔ)種任務(wù)的效果。
24、2、在kespeech方言公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本發(fā)明提出的模型在方言語(yǔ)種識(shí)別任務(wù)中表現(xiàn)出了優(yōu)異的性能。
25、3、本發(fā)明所提出的模型在低資源下方言語(yǔ)種識(shí)別中表現(xiàn)出了優(yōu)異的性能。
1.基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別方法,其特征在于:所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別方法,其特征在于:所述step2中,所述自監(jiān)督語(yǔ)音表征u的生成過(guò)程表示如下:
3.根據(jù)權(quán)利要求1所述的基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別方法,其特征在于:所述step3中,所述說(shuō)話人性別分類器和方言分類器均采用交叉熵?fù)p失函數(shù)來(lái)計(jì)算各自的損失;方言和性別分類的損失函數(shù)分別定義如下:
4.根據(jù)權(quán)利要求1所述的基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別方法,其特征在于:所述step3還包括在說(shuō)話人性別分類器之前增加一個(gè)梯度反轉(zhuǎn)層用于解耦說(shuō)話人信息。
5.根據(jù)權(quán)利要求1所述的基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別方法,其特征在于:所述step4中,所述自監(jiān)督模型進(jìn)行訓(xùn)練過(guò)程中,在自監(jiān)督模型的前向傳播過(guò)程中,梯度反轉(zhuǎn)層并沒(méi)有實(shí)質(zhì)性的參與;當(dāng)自監(jiān)督模型訓(xùn)練的反向轉(zhuǎn)播過(guò)程中,梯度反轉(zhuǎn)層將后續(xù)層的梯度乘以-λ并將其傳遞到前一層,這樣模型的權(quán)重參數(shù)在更新時(shí)就會(huì)被訓(xùn)練到遠(yuǎn)離目標(biāo)分布中;模型的權(quán)重參數(shù)θm的更新公式如下:
6.基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別系統(tǒng),其特征在于,所述系統(tǒng)包括:用于執(zhí)行如權(quán)利要求1至5任一權(quán)利要求所述的基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別方法的模塊。
7.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至5任一項(xiàng)所述基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別方法。
8.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至5任一項(xiàng)所述基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別方法。
9.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至5任一項(xiàng)所述基于自監(jiān)督說(shuō)話人表征解耦的方言語(yǔ)種識(shí)別方法。