本發(fā)明涉及語音翻譯,具體地說,涉及一種基于ai識(shí)別的智能語音自動(dòng)翻譯系統(tǒng)。
背景技術(shù):
1、智能語音自動(dòng)翻譯系統(tǒng)是一種利用人工智能技術(shù),通過自然語言處理、語音識(shí)別和語音合成,將一種語言的語音直接轉(zhuǎn)換成另一種語言的語音的系統(tǒng),這種系統(tǒng)能夠?qū)崿F(xiàn)跨語言的實(shí)時(shí)交流,極大地便利了全球化背景下的溝通。
2、目前,智能語音自動(dòng)翻譯系統(tǒng)能夠?qū)φZ言文字進(jìn)行準(zhǔn)確識(shí)別,由于,不同國家和地區(qū)的人們生活環(huán)境的不同以及風(fēng)俗習(xí)慣不同,相同文字表達(dá)的含義以及語義、語法也不相同,同時(shí),使用者在講述語言文字時(shí),其情感狀態(tài)也會(huì)影響語言表達(dá)的含義,為了在語音翻譯時(shí),不是簡單的對(duì)語音進(jìn)行逐字翻譯,而是通過語法分析和語義理解,準(zhǔn)確的翻譯出語言信息,同時(shí),根據(jù)講述者的情緒狀態(tài)對(duì)合成語音的參數(shù)進(jìn)行自動(dòng)調(diào)整,在保證語音翻譯準(zhǔn)確的前提下,能夠更加生動(dòng)形象的表達(dá)講述者的語音含義,因此,我們提出一種基于ai識(shí)別的智能語音自動(dòng)翻譯系統(tǒng)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于解決不同國家和地區(qū)的語言習(xí)慣不同,若是簡單的進(jìn)行逐字翻譯,會(huì)導(dǎo)致翻譯結(jié)果與講述著所表達(dá)的真實(shí)意思相悖,為了在翻譯時(shí),增加語法分析以及語義理解,更加準(zhǔn)確地表達(dá)講述者的語言信息,同時(shí)根據(jù)講述者的情緒狀態(tài)對(duì)合成語音的參數(shù)進(jìn)行自動(dòng)調(diào)整,在保證語音翻譯準(zhǔn)確的前提下,能夠更加生動(dòng)形象的表達(dá)講述者的語音含義。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供一種基于ai識(shí)別的智能語音自動(dòng)翻譯系統(tǒng),包括語音識(shí)別模塊、語言翻譯模塊、情感分析模塊和語音合成模塊;
3、所述語音識(shí)別模塊對(duì)待識(shí)別的語音信號(hào)進(jìn)行預(yù)處理和特征提取,把語音特征信號(hào)輸入到聲學(xué)模型中,計(jì)算輸出每個(gè)音素的概率分布,通過維特比算法得到音素序列,并將該音素序列轉(zhuǎn)換為文本序列,輸入到語言模型中,利用語言模型的上下文感知能力對(duì)文本序列進(jìn)行調(diào)整和優(yōu)化,生成多個(gè)候選的文本序列,通過加權(quán)融合的方式,綜合考慮聲學(xué)模型和語言模型的置信度,選擇最優(yōu)的文本序列;
4、所述語言翻譯模塊把語音識(shí)別模塊識(shí)別的文本序列輸入到統(tǒng)計(jì)機(jī)器翻譯模型中,對(duì)文本序列進(jìn)行詞法、句法分析,識(shí)別出單詞、短語,利用統(tǒng)計(jì)概率,生成多個(gè)目標(biāo)語言翻譯候選,通過語言模型對(duì)候選譯文進(jìn)行評(píng)估,選擇得分最高、最符合語言表達(dá)習(xí)慣的譯文作為最終翻譯譯文;
5、所述情感分析模塊接收語音識(shí)別模塊提取的語音特征數(shù)據(jù),以基音頻率、語速和韻律特征為輸入,以情感類別積極、消極和中性為輸出建立情感分析的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,通過交叉熵?fù)p失函數(shù)衡量模型輸出的情感類別概率分布與真實(shí)情感標(biāo)簽之間的差異,對(duì)模型進(jìn)行訓(xùn)練,利用adam優(yōu)化器對(duì)模型參數(shù)進(jìn)行優(yōu)化調(diào)整,輸出語音的情感類別;
6、所述語音合成模塊接收語言翻譯模塊的最終翻譯譯文以及情感分析模塊輸出的語音情感類別,根據(jù)情感與語音參數(shù)之間的映射規(guī)則庫,對(duì)合成語音的參數(shù)進(jìn)行自動(dòng)調(diào)整,以最終翻譯譯文為文本,語音播報(bào)出最終的翻譯結(jié)果。
7、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述語音識(shí)別模塊包括聲學(xué)識(shí)別單元和語言識(shí)別單元;
8、所述聲學(xué)識(shí)別單元提取每一幀語音信號(hào)的梅爾頻率倒譜系數(shù),把梅爾頻率倒譜系數(shù)輸入到聲學(xué)模型中,輸出音素標(biāo)簽,通過前向傳播計(jì)算得到每個(gè)音素的概率分布,通過維特比算法得到音素序列,并將該音素序列轉(zhuǎn)換為文本序列;
9、所述語言識(shí)別單元以聲學(xué)模型輸出的文本序列為輸入,根據(jù)語言模型內(nèi)的語法、語義和語用對(duì)文本序列進(jìn)行評(píng)估,利用語言模型的上下文感知能力對(duì)文本序列進(jìn)行糾錯(cuò)和調(diào)整,通過加權(quán)融合選擇最優(yōu)的文本序列。
10、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述聲學(xué)識(shí)別單元對(duì)每一幀語音信號(hào)進(jìn)行分幀與加窗,利用短時(shí)傅里葉變換將時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào),再提取每一幀語音信號(hào)的梅爾頻率倒譜系數(shù)。
11、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述聲學(xué)識(shí)別單元中,短時(shí)傅里葉變換公式為:
12、
13、其中,x(k)為變換后的頻譜系數(shù),x(n)為離散時(shí)間語音信號(hào),w(n)為窗函數(shù),n為幀長,k為頻率索引,j為虛數(shù)單位。
14、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述語言識(shí)別單元對(duì)候選的文本序列,將其聲學(xué)置信度和語言置信度進(jìn)行加權(quán)求和,得到融合后的置信度得分,融合后的置信度得分公式為:
15、p=αpa+(1-α)pl;
16、其中,p為融合后的置信度得分,α為聲學(xué)模型的加權(quán)系數(shù),1-α為語言模型的加權(quán)系數(shù),pa為聲學(xué)置信度,pl為語言置信度。
17、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述語言翻譯模塊采用梯度下降算法更新統(tǒng)計(jì)機(jī)器翻譯模型的參數(shù),公式為:
18、
19、其中,θ為模型參數(shù),θnew為更新后的模型參數(shù),θold為更新前的模型參數(shù),η為學(xué)習(xí)率,為損失函數(shù)對(duì)θ的梯度。
20、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述情感分析模塊包括建立模型單元和優(yōu)化調(diào)整單元;
21、所述建立模型單元以基音頻率、語速和韻律特征為輸入,以情感類別積極、消極和中性為輸出建立情感分析的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,并利用交叉熵?fù)p失函數(shù)對(duì)模型進(jìn)行訓(xùn)練;
22、所述優(yōu)化調(diào)整單元利用adam優(yōu)化器對(duì)模型參數(shù)進(jìn)行優(yōu)化調(diào)整,以模型的準(zhǔn)確率、召回率、f1值作為評(píng)估指標(biāo),衡量模型在不同情感類別上的預(yù)測性能。
23、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述建立模型單元利用循環(huán)神經(jīng)網(wǎng)絡(luò)層捕捉輸入特征序列中的長期依賴關(guān)系,對(duì)情感的動(dòng)態(tài)變化進(jìn)行建模,并利用全連接層將循環(huán)神經(jīng)網(wǎng)絡(luò)層的輸出映射到情感類別空間。
24、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述優(yōu)化調(diào)整單元根據(jù)評(píng)估結(jié)果,采用網(wǎng)格搜索對(duì)模型進(jìn)行超參數(shù)調(diào)整。
25、作為本技術(shù)方案的進(jìn)一步改進(jìn),所述語音合成模塊以支持向量機(jī)為分類模型,建立情感與語音參數(shù)之間的映射規(guī)則庫。
26、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
27、1.該基于ai識(shí)別的智能語音自動(dòng)翻譯系統(tǒng),通過語音識(shí)別模塊對(duì)待識(shí)別的語音信號(hào)進(jìn)行預(yù)處理和特征提取,利用聲學(xué)模型計(jì)算輸出每個(gè)音素的概率分布,通過維特比算法得到音素序列,并將該音素序列轉(zhuǎn)換為文本序列,根據(jù)語言模型內(nèi)的語法、語義和語用對(duì)文本序列進(jìn)行評(píng)估,利用語言模型的上下文感知能力對(duì)文本序列進(jìn)行糾錯(cuò)和調(diào)整,通過加權(quán)融合選擇最優(yōu)的文本序列,實(shí)現(xiàn)在語音識(shí)別時(shí),通過語法分析以及語義理解把講述者的真實(shí)語義解析成文本形式,再通過語言翻譯模塊把文本序列翻譯成譯文,保證語音識(shí)別的準(zhǔn)確性,準(zhǔn)確地表達(dá)出講述者的真實(shí)含義;
28、2.利用情感分析模塊以基音頻率、語速和韻律特征為輸入,以情感類別積極、消極和中性為輸出建立情感分析的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,對(duì)講述者的情感進(jìn)行分析,根據(jù)情感與語音參數(shù)之間的映射規(guī)則庫,對(duì)合成語音的參數(shù)進(jìn)行自動(dòng)調(diào)整,以最終翻譯譯文為文本,語音播報(bào)出最終的翻譯結(jié)果,在翻譯時(shí),表達(dá)出講述者的情感狀態(tài),進(jìn)而能夠更加生動(dòng)形象的表達(dá)講述者的語音含義。
1.一種基于ai識(shí)別的智能語音自動(dòng)翻譯系統(tǒng),其特征在于:包括語音識(shí)別模塊(100)、語言翻譯模塊(200)、情感分析模塊(300)和語音合成模塊(400);
2.根據(jù)權(quán)利要求1所述的基于ai識(shí)別的智能語音自動(dòng)翻譯系統(tǒng),其特征在于:所述語音識(shí)別模塊(100)包括聲學(xué)識(shí)別單元(110)和語言識(shí)別單元(120);
3.根據(jù)權(quán)利要求2所述的基于ai識(shí)別的智能語音自動(dòng)翻譯系統(tǒng),其特征在于:所述聲學(xué)識(shí)別單元(110)對(duì)每一幀語音信號(hào)進(jìn)行分幀與加窗,利用短時(shí)傅里葉變換將時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào),再提取每一幀語音信號(hào)的梅爾頻率倒譜系數(shù)。
4.根據(jù)權(quán)利要求3所述的基于ai識(shí)別的智能語音自動(dòng)翻譯系統(tǒng),其特征在于:所述聲學(xué)識(shí)別單元(110)中,短時(shí)傅里葉變換公式為:
5.根據(jù)權(quán)利要求2所述的基于ai識(shí)別的智能語音自動(dòng)翻譯系統(tǒng),其特征在于:所述語言識(shí)別單元(120)對(duì)候選的文本序列,將其聲學(xué)置信度和語言置信度進(jìn)行加權(quán)求和,得到融合后的置信度得分,融合后的置信度得分公式為:
6.根據(jù)權(quán)利要求1所述的基于ai識(shí)別的智能語音自動(dòng)翻譯系統(tǒng),其特征在于:所述語言翻譯模塊(200)采用梯度下降算法更新統(tǒng)計(jì)機(jī)器翻譯模型的參數(shù),公式為:
7.根據(jù)權(quán)利要求1所述的基于ai識(shí)別的智能語音自動(dòng)翻譯系統(tǒng),其特征在于:所述情感分析模塊(300)包括建立模型單元(310)和優(yōu)化調(diào)整單元(320);
8.根據(jù)權(quán)利要求7所述的基于ai識(shí)別的智能語音自動(dòng)翻譯系統(tǒng),其特征在于:所述建立模型單元(310)利用循環(huán)神經(jīng)網(wǎng)絡(luò)層捕捉輸入特征序列中的長期依賴關(guān)系,對(duì)情感的動(dòng)態(tài)變化進(jìn)行建模,并利用全連接層將循環(huán)神經(jīng)網(wǎng)絡(luò)層的輸出映射到情感類別空間。
9.根據(jù)權(quán)利要求7所述的基于ai識(shí)別的智能語音自動(dòng)翻譯系統(tǒng),其特征在于:所述優(yōu)化調(diào)整單元(320)根據(jù)評(píng)估結(jié)果,采用網(wǎng)格搜索對(duì)模型進(jìn)行超參數(shù)調(diào)整。
10.根據(jù)權(quán)利要求1所述的基于ai識(shí)別的智能語音自動(dòng)翻譯系統(tǒng),其特征在于:所述語音合成模塊(400)以支持向量機(jī)為分類模型,建立情感與語音參數(shù)之間的映射規(guī)則庫。