本發(fā)明涉及自然語(yǔ)言處理,具體為一種語(yǔ)音識(shí)別合成翻譯方法、裝置及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著人工智能(ai)和自然語(yǔ)言處理(nlp)技術(shù)的快速發(fā)展,語(yǔ)音識(shí)別與機(jī)器翻譯技術(shù)已逐漸成為智能語(yǔ)音交互、實(shí)時(shí)翻譯等應(yīng)用的核心技術(shù)。語(yǔ)音識(shí)別系統(tǒng)能夠?qū)⒄Z(yǔ)音信號(hào)轉(zhuǎn)換為文本,而機(jī)器翻譯則能夠?qū)⒃凑Z(yǔ)言的文本翻譯為目標(biāo)語(yǔ)言文本。這兩項(xiàng)技術(shù)的結(jié)合使得多語(yǔ)言交流更加便捷。然而,在實(shí)際應(yīng)用中,現(xiàn)有技術(shù)仍然面臨一些問(wèn)題,尤其是在語(yǔ)音識(shí)別和翻譯系統(tǒng)的集成與優(yōu)化方面。
2、首先,現(xiàn)有的語(yǔ)音識(shí)別系統(tǒng)常常受到環(huán)境噪聲、語(yǔ)音質(zhì)量差異以及發(fā)音方式等因素的影響,導(dǎo)致音頻信號(hào)在經(jīng)過(guò)處理后識(shí)別的準(zhǔn)確性較低。盡管存在去噪和增強(qiáng)方法,但這些方法往往對(duì)特定噪聲環(huán)境有效,難以應(yīng)對(duì)復(fù)雜的現(xiàn)實(shí)情況。
3、其次,目前的語(yǔ)音識(shí)別系統(tǒng)在特征提取階段主要依賴于梅爾頻率倒譜系數(shù),但由于語(yǔ)音信號(hào)本身的多樣性,現(xiàn)有的mfcc特征提取方法對(duì)復(fù)雜的語(yǔ)音信號(hào)表現(xiàn)不佳。
4、最后,在現(xiàn)有技術(shù)中,語(yǔ)音識(shí)別和機(jī)器翻譯通常是兩個(gè)獨(dú)立的處理步驟,盡管可以在語(yǔ)音識(shí)別模塊輸出文本后再進(jìn)行機(jī)器翻譯,但這種處理流程可能導(dǎo)致誤差的累積。尤其是在處理復(fù)雜對(duì)話和實(shí)時(shí)語(yǔ)音翻譯時(shí),如何有效將語(yǔ)音識(shí)別與機(jī)器翻譯模型結(jié)合。
5、針對(duì)上述問(wèn)題,有必要提出一種語(yǔ)音識(shí)別合成翻譯方法、裝置及存儲(chǔ)介質(zhì)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于解決背景技術(shù)中存在的問(wèn)題,而提出一種語(yǔ)音識(shí)別合成翻譯方法、裝置及存儲(chǔ)介質(zhì)。
2、本發(fā)明的目的可以通過(guò)以下技術(shù)方案實(shí)現(xiàn):
3、第一方面,本發(fā)明提供一種語(yǔ)音識(shí)別合成翻譯方法,包括以下步驟:
4、步驟一、訓(xùn)練數(shù)據(jù)集準(zhǔn)備與預(yù)處理;
5、收集并準(zhǔn)備包含源語(yǔ)言和目標(biāo)語(yǔ)言的語(yǔ)音數(shù)據(jù)對(duì)。所述語(yǔ)音數(shù)據(jù)的使用環(huán)境涵蓋日常交際對(duì)話中的各種場(chǎng)景,以確保系統(tǒng)的實(shí)用性和泛化能力。
6、s101、對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理,包括去噪處理和音量標(biāo)準(zhǔn)化處理。
7、所述的去噪處理具體為:獲取各個(gè)源語(yǔ)言語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的時(shí)序音頻信號(hào)x(t)。通過(guò)快速傅里葉變換fft將時(shí)序音頻信號(hào)x(t)從時(shí)域轉(zhuǎn)換到頻域,得到頻域信號(hào)x(f)。所述的快速傅里葉變換公式為:其中f為頻率、t是時(shí)序音頻信號(hào)的采樣點(diǎn)數(shù);其中j為虛數(shù)單位且j×j=-1。
8、通過(guò)公式計(jì)算頻域信號(hào)x(f)中原始信號(hào)部分的頻率譜密度ps(f)和早上信號(hào)部分的頻率譜密度pn(f)。
9、計(jì)算頻域信號(hào)的頻譜通過(guò)信號(hào)頻譜進(jìn)行濾波運(yùn)算s^(f)=h(f)×x(f),過(guò)濾噪聲信號(hào)部分n(t),得到濾波后的頻域信號(hào)s^(f)。
10、通過(guò)逆傅里葉變換公式將頻域信號(hào)s^(f)從頻域恢復(fù)到時(shí)域,得到降噪后的時(shí)序音頻信號(hào)s^(t)。
11、所述的音量標(biāo)準(zhǔn)化處理具體為:獲取經(jīng)過(guò)降噪處理的時(shí)序音頻信號(hào)x(t),通過(guò)歸一化運(yùn)算,調(diào)整時(shí)序音頻信號(hào)的音量,使其在一定的范圍內(nèi)波動(dòng)。
12、歸一化運(yùn)算公式為:其中a為目標(biāo)音量,其中max(|x(t)|)為降噪后時(shí)序音頻信號(hào)中的最大值。其中y(t)為經(jīng)過(guò)歸一化運(yùn)算得到的時(shí)序音頻信號(hào)。
13、s102、音頻特征提??;
14、以預(yù)設(shè)時(shí)間間隔將經(jīng)過(guò)歸一化運(yùn)算得到的時(shí)序音頻信號(hào)y(t)分為n個(gè)短時(shí)幀y(i)=y(tǒng)(1),y(2),...,y(n);其中i=1,2,...,n。
15、對(duì)每個(gè)短時(shí)幀y(1)進(jìn)行短時(shí)傅里葉變換,得到頻率域上的頻譜信息x(i,f)。短時(shí)傅里葉變換公式為:其中h(i-τ)為窗函數(shù)。其中τ為回溯索引。
16、作為本發(fā)明的一種優(yōu)選方式,通過(guò)梅爾頻率變換將頻譜從線性頻率尺度轉(zhuǎn)換為對(duì)人耳聽(tīng)覺(jué)感知更為符合的梅爾尺度,并通過(guò)預(yù)設(shè)的m個(gè)梅爾濾波器對(duì)每個(gè)短時(shí)幀的頻譜信息x(i,f)進(jìn)行加權(quán)運(yùn)算得到m個(gè)梅爾頻率尺度上的頻譜信息em;其中m=1,2,...,m。
17、所述的梅爾頻率變換公式為:
18、所述的加權(quán)運(yùn)算公式為:其中|x(i,fmel)|2為頻率信息x(i,f)幅度的平方;其中hm(fmel)為第m個(gè)梅爾濾波器的響應(yīng)值。
19、作為本發(fā)明的一種優(yōu)選方式,對(duì)輸出的每個(gè)梅爾頻率fmel進(jìn)行對(duì)數(shù)處理lm=log(em),以模擬人耳的非線性響應(yīng)。
20、最后,對(duì)對(duì)數(shù)梅爾頻譜進(jìn)行離散余弦變換,以減少特征之間的相關(guān)性并生成最終的mfcc特征系數(shù)。所述的離散余弦變換公式為:其中m為梅爾濾波器的編號(hào)符,其中m為梅爾濾波器總數(shù),cn為第n個(gè)mfcc特征系數(shù)。
21、s103、數(shù)據(jù)標(biāo)注與準(zhǔn)備;
22、通過(guò)人工標(biāo)注的方式對(duì)包含源語(yǔ)言和目標(biāo)語(yǔ)言的語(yǔ)音數(shù)據(jù)進(jìn)行標(biāo)注,包括語(yǔ)音和相應(yīng)的音素和詞語(yǔ)標(biāo)注。幫助訓(xùn)練聲學(xué)模型學(xué)習(xí)到音素之間的映射關(guān)系。
23、步驟二、構(gòu)建語(yǔ)音識(shí)別模型;
24、基于深度學(xué)習(xí)的asr自動(dòng)語(yǔ)音識(shí)別技術(shù)構(gòu)建語(yǔ)音識(shí)別模型。
25、所述的語(yǔ)音識(shí)別模型負(fù)責(zé)將輸入的源語(yǔ)言語(yǔ)音信號(hào)轉(zhuǎn)換為對(duì)應(yīng)的源語(yǔ)言文本序列。
26、所述的語(yǔ)音識(shí)別模型包括:
27、用于聲學(xué)分析的前饋神經(jīng)網(wǎng)絡(luò),包括輸入層、隱藏層和輸出層。
28、其中輸入層的輸入?yún)?shù)為mfcc特征系數(shù)cn;
29、其中隱藏層通過(guò)卷積運(yùn)算將輸入特征映射到音素概率空間。
30、其中輸出層的輸出參數(shù)為輸出每個(gè)時(shí)間幀i對(duì)應(yīng)的音素類別概率分布,表示每個(gè)音素的出現(xiàn)概率;
31、作為本發(fā)明的一種優(yōu)選方式,輸出層取各個(gè)時(shí)間幀i對(duì)應(yīng)的最大音素類別概率,匹配到預(yù)設(shè)的音素標(biāo)注,得到音素標(biāo)注序列,進(jìn)而生成對(duì)應(yīng)的源語(yǔ)言文本序列。
32、步驟三、構(gòu)建機(jī)器翻譯模型;
33、基于自然語(yǔ)言處理技術(shù)構(gòu)建機(jī)器翻譯模型。
34、所述的機(jī)器翻譯模型負(fù)責(zé)將語(yǔ)音識(shí)別模塊輸出的源語(yǔ)言文本序列翻譯為目標(biāo)語(yǔ)言文本序列。
35、所述的機(jī)器翻譯模型包括:編碼器和解碼器。
36、所述的編碼器處理源語(yǔ)言的文本序列,將其轉(zhuǎn)換為固定長(zhǎng)度的上下文向量;
37、編碼器的編碼器包含一個(gè)用于編碼器處理的前饋神經(jīng)網(wǎng)絡(luò),包括輸入層、隱藏層和輸出層。
38、其中輸入層的輸入?yún)?shù)為源語(yǔ)言文本序列;
39、其中隱藏層通過(guò)卷積運(yùn)算將輸入的源語(yǔ)言文本序列映射到音素概率空間。
40、其中輸出層的輸出參數(shù)為源語(yǔ)言文本序列中每個(gè)字符對(duì)應(yīng)的翻譯結(jié)果概率分布,表示每個(gè)目標(biāo)語(yǔ)言字符的出現(xiàn)概率;
41、作為本發(fā)明的一種優(yōu)選方式,輸出層取源語(yǔ)言文本序列中每個(gè)字符對(duì)應(yīng)的最大翻譯結(jié)果概率,匹配到預(yù)設(shè)的目標(biāo)語(yǔ)言字符,得到目標(biāo)語(yǔ)言字符,進(jìn)而生成對(duì)應(yīng)的目標(biāo)語(yǔ)言序列。
42、所述的解碼器根據(jù)編碼器的輸出生成目標(biāo)語(yǔ)言的文本序列。
43、步驟四、模型聯(lián)合訓(xùn)練;
44、將語(yǔ)音識(shí)別模型和機(jī)器翻譯模型結(jié)合起來(lái)進(jìn)行聯(lián)合優(yōu)化。
45、針對(duì)同一段源語(yǔ)言語(yǔ)音數(shù)據(jù),獲取語(yǔ)音識(shí)別模型輸出的語(yǔ)音識(shí)別結(jié)果,即源語(yǔ)言文本序列y={yp}={y1,y2,...,yp},其中p為源語(yǔ)言文本序列包含的字?jǐn)?shù),且p=1,2,...,p;隨后,將源語(yǔ)言文本序列輸入機(jī)器翻譯模型,獲取其輸出的目標(biāo)文本序列z={zq}={z1,z2,...,zq},其中q為目標(biāo)文本序列包含的字?jǐn)?shù)。且q=1,2,...,q;
46、設(shè)定語(yǔ)音識(shí)別損失函數(shù)其中cn∈yp代表屬于源語(yǔ)言字符yp的所有mfcc特征系數(shù)cn。其中θ1為語(yǔ)音模型參數(shù)向量,即語(yǔ)音識(shí)別模型中前饋神經(jīng)網(wǎng)絡(luò)中的權(quán)重因子和偏置因子組成的向量。
47、設(shè)定機(jī)器翻譯模型損失函數(shù)其中p(ztarger|zq,θ2)為目標(biāo)語(yǔ)言字符zq預(yù)測(cè)為目標(biāo)字符ztarger的概率。其中θ2為翻譯模型參數(shù)向量,即機(jī)器翻譯模型中前饋神經(jīng)網(wǎng)絡(luò)中的權(quán)重因子和偏置因子組成的向量。
48、作為本發(fā)明的一種優(yōu)選方式,設(shè)定聯(lián)合損失函數(shù)l=λ1×lasr+λ2×lmt。其中λ1和λ2為預(yù)設(shè)的超參數(shù),用于調(diào)節(jié)語(yǔ)音識(shí)別和翻譯任務(wù)之間的準(zhǔn)確度訓(xùn)練平衡。設(shè)定訓(xùn)練目標(biāo):令聯(lián)合損失函數(shù)最小,即minl=min(λ1×lasr+λ2×lmt)。
49、在聯(lián)合訓(xùn)練過(guò)程中,使用優(yōu)化算法優(yōu)化超參數(shù)λ1、λ2、語(yǔ)音模型參數(shù)向量θ1和翻譯模型參數(shù)向量θ2,計(jì)算聯(lián)合損失的梯度,模型逐步調(diào)整參數(shù),進(jìn)行參數(shù)更新,使得語(yǔ)音識(shí)別和翻譯任務(wù)的準(zhǔn)確度都能得到提升。
50、參數(shù)更新公式為:其中,η1、η2、η3和η4為預(yù)設(shè)的學(xué)習(xí)率因子。其中和為聯(lián)合損失函數(shù)l對(duì)λ1、λ2、θ1和θ2的梯度。
51、步驟五、語(yǔ)音識(shí)別與翻譯應(yīng)用;
52、將經(jīng)過(guò)預(yù)處理語(yǔ)音信號(hào)輸入到訓(xùn)練完成的語(yǔ)音識(shí)別模塊和機(jī)器翻譯模塊中,展開(kāi)語(yǔ)音識(shí)別和翻譯。
53、具體來(lái)說(shuō),首先將采集到的音頻信號(hào)輸入步驟一進(jìn)行預(yù)處理,得到若干對(duì)應(yīng)的mfcc特征系數(shù)。
54、經(jīng)過(guò)所述的mfcc特征系數(shù)輸入到語(yǔ)音識(shí)別模塊中,得到對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果,即源語(yǔ)言文本序列。
55、隨后,將源語(yǔ)言文本序列輸入機(jī)器翻譯模塊,得到對(duì)應(yīng)的翻譯結(jié)果,即目標(biāo)語(yǔ)言文本序列。
56、第二方面,本發(fā)明提供一種語(yǔ)音識(shí)別合成翻譯裝置,包括語(yǔ)音識(shí)別模塊和機(jī)器翻譯模塊。
57、語(yǔ)音識(shí)別模塊用于儲(chǔ)存語(yǔ)音識(shí)別模型,包含若干用于搭載前饋神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)和服務(wù)器。將輸入的源語(yǔ)言語(yǔ)音信號(hào)轉(zhuǎn)換為源語(yǔ)言的文本序列。此過(guò)程通過(guò)深度學(xué)習(xí)技術(shù)中的聲學(xué)模型和語(yǔ)言模型共同完成。
58、機(jī)器翻譯模塊用于儲(chǔ)存機(jī)器翻譯模型,包含若干用于搭載前饋神經(jīng)網(wǎng)絡(luò)、編碼器和解碼器的計(jì)算機(jī)和服務(wù)器,負(fù)責(zé)將語(yǔ)音識(shí)別模塊輸出的源語(yǔ)言文本序列翻譯為目標(biāo)語(yǔ)言文本序列。該過(guò)程基于神經(jīng)網(wǎng)絡(luò)中的編碼器-解碼器框架。
59、第三方面,本發(fā)明提供一種語(yǔ)音識(shí)別合成翻譯存儲(chǔ)介質(zhì),包含若干計(jì)算機(jī)和服務(wù)器,用于搭載前饋神經(jīng)網(wǎng)絡(luò)、編碼器和解碼器,其上存儲(chǔ)有計(jì)算機(jī)程序。
60、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
61、1、本發(fā)明通過(guò)將語(yǔ)音識(shí)別模型和機(jī)器翻譯模型進(jìn)行聯(lián)合訓(xùn)練,能夠在訓(xùn)練過(guò)程中優(yōu)化語(yǔ)音識(shí)別與翻譯之間的任務(wù)相關(guān)性,顯著提高翻譯結(jié)果的準(zhǔn)確性。該方法利用深度學(xué)習(xí)技術(shù)和聯(lián)合損失函數(shù)的優(yōu)化,使得語(yǔ)音識(shí)別和翻譯模塊能夠協(xié)同工作,從而減少單一模塊處理時(shí)的誤差積累,提高整體翻譯的質(zhì)量;
62、2、本發(fā)明通過(guò)在語(yǔ)音數(shù)據(jù)預(yù)處理階段進(jìn)行去噪和音量標(biāo)準(zhǔn)化處理,優(yōu)化了后續(xù)語(yǔ)音識(shí)別和翻譯過(guò)程的輸入數(shù)據(jù)質(zhì)量。去噪處理有效減少了環(huán)境噪聲對(duì)語(yǔ)音識(shí)別的影響,而音量標(biāo)準(zhǔn)化確保了語(yǔ)音信號(hào)的均勻性,有助于系統(tǒng)在不同音量條件下保持較高的識(shí)別準(zhǔn)確率,提升了系統(tǒng)的泛化能力,適應(yīng)更多實(shí)際應(yīng)用場(chǎng)景;
63、3、本發(fā)明通過(guò)采用基于前饋神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別模型和機(jī)器翻譯模型,能夠高效處理語(yǔ)音輸入并生成相應(yīng)的翻譯結(jié)果。結(jié)合現(xiàn)代計(jì)算硬件如高性能服務(wù)器和計(jì)算機(jī)集群,可以有效支持大規(guī)模語(yǔ)音數(shù)據(jù)的處理,確保系統(tǒng)在實(shí)時(shí)翻譯應(yīng)用中的高效性。此外,系統(tǒng)的架構(gòu)具有良好的擴(kuò)展性,可以根據(jù)需求不斷優(yōu)化和升級(jí),以適應(yīng)不斷變化的技術(shù)發(fā)展和應(yīng)用需求。