成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法及裝置

文檔序號(hào):41870412發(fā)布日期:2025-05-09 18:39閱讀:4來(lái)源:國(guó)知局
結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法及裝置

本發(fā)明涉及語(yǔ)音處理,更具體的,涉及:1、一種結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法;2、一種結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成裝置。


背景技術(shù):

1、個(gè)性化語(yǔ)音合成是指通過(guò)從參考音源中學(xué)習(xí)說(shuō)話人的獨(dú)特說(shuō)話模式,生成反映說(shuō)話人習(xí)慣韻律的語(yǔ)音。也就是說(shuō),韻律特征是個(gè)性化語(yǔ)音合成的關(guān)鍵。

2、現(xiàn)有研究人員提出了多種方法及工具,例如全局風(fēng)格標(biāo)記(gst)、變分自動(dòng)編碼器(vae)、聚合變分自動(dòng)編碼器(avae),來(lái)對(duì)韻律特征建模來(lái)實(shí)現(xiàn)語(yǔ)音合成中的風(fēng)格控制。但發(fā)明人進(jìn)行分析后,發(fā)現(xiàn)現(xiàn)有方式存在如下缺點(diǎn):1、對(duì)韻律特征的粒度處理不合理——有些僅關(guān)注了粗粒度,有些僅關(guān)注了細(xì)粒度,也有些雖然關(guān)注了全局和局部、但結(jié)合方式欠佳;2、研究主要圍繞著韻律特征本身考慮,忽視了其他因素與韻律特征的關(guān)系。


技術(shù)實(shí)現(xiàn)思路

1、基于此,有必要針對(duì)現(xiàn)有韻律語(yǔ)音方法對(duì)韻律特征的粒度處理不合理、忽視其他因素的問(wèn)題,提供了一種結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法及裝置。

2、本發(fā)明采用以下技術(shù)方案實(shí)現(xiàn):

3、第一方面,本發(fā)明公開(kāi)了一種結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法,包括:

4、步驟一,獲取待處理文本inf、目標(biāo)說(shuō)話人的原始參考音頻voice0;

5、步驟二,對(duì)inf分別進(jìn)行語(yǔ)法提取處理、音素轉(zhuǎn)換處理以得到語(yǔ)法圖g、音素序列phoneme;

6、對(duì)voice0進(jìn)行音頻轉(zhuǎn)換處理以得到原始梅爾譜圖mel_s0;

7、步驟三,將phoneme、g、mel_s0輸入訓(xùn)練好的語(yǔ)法注入多粒度韻律網(wǎng)絡(luò)進(jìn)行處理以得到合成梅爾譜圖new_mel;

8、步驟四,對(duì)new_mel進(jìn)行聲碼轉(zhuǎn)換以得到合成語(yǔ)音new_voice;

9、其中,語(yǔ)法注入多粒度韻律網(wǎng)絡(luò)的構(gòu)建方法包括:

10、將fastspeech2網(wǎng)絡(luò)作為基底網(wǎng)絡(luò),并在其內(nèi)的音素編碼器、變差適配器之間增加多粒度韻律編碼器,即得到語(yǔ)法注入多粒度韻律網(wǎng)絡(luò);

11、多粒度韻律編碼器用于結(jié)合g、mel_s0將音素編碼器輸出的文本隱藏嵌入ec處理成文本隱藏優(yōu)化嵌入eh;eh融合了多粒度韻律特征,并作為變差適配器的輸入。

12、該種結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法實(shí)現(xiàn)根據(jù)本公開(kāi)的實(shí)施例的方法或過(guò)程。

13、第二方面,本發(fā)明公開(kāi)了一種結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成裝置,其使用了第一方面公開(kāi)的結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法。

14、結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成裝置包括:數(shù)據(jù)獲取模塊、預(yù)處理模塊、數(shù)據(jù)處理模塊、語(yǔ)音生成模塊。

15、數(shù)據(jù)獲取模塊用于獲取待處理文本inf、目標(biāo)說(shuō)話人的原始參考音頻voice0;

16、預(yù)處理模塊用于:對(duì)inf分別進(jìn)行語(yǔ)法提取處理、音素轉(zhuǎn)換處理以得到語(yǔ)法圖g、音素序列phoneme;對(duì)voice0進(jìn)行音頻轉(zhuǎn)換處理以得到原始梅爾譜圖mel_s0。

17、數(shù)據(jù)處理模塊用于將phoneme、g、mel_s0輸入訓(xùn)練好的語(yǔ)法注入多粒度韻律網(wǎng)絡(luò)進(jìn)行處理以得到合成梅爾譜圖new_mel。

18、語(yǔ)音生成模塊用于對(duì)new_mel進(jìn)行聲碼轉(zhuǎn)換以得到合成語(yǔ)音new_voice。

19、該種結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成裝置實(shí)現(xiàn)根據(jù)本公開(kāi)的實(shí)施例的方法或過(guò)程。

20、與現(xiàn)有技術(shù)相比,本發(fā)明具備如下有益效果:

21、1、本發(fā)明將fastspeech2網(wǎng)絡(luò)作為基底網(wǎng)絡(luò),并在其內(nèi)的音素編碼器、變差適配器之間增加了多粒度韻律編碼器而構(gòu)建出語(yǔ)法注入多粒度韻律網(wǎng)絡(luò)(gmg-prosodynet),對(duì)韻律特征進(jìn)行更加合理的多粒度處理和結(jié)合,并引入了文本語(yǔ)法信息,提高了韻律語(yǔ)音合成的效果。

22、2、本發(fā)明的多粒度韻律編碼器一方面采用了語(yǔ)法級(jí)編碼器來(lái)指導(dǎo)單詞和音素級(jí)韻律特征的預(yù)測(cè),能夠預(yù)測(cè)出與參考語(yǔ)音非常相似的詞級(jí)和音素級(jí)韻律特征;另一方面采用了音素級(jí)編碼器、單詞級(jí)編碼器實(shí)現(xiàn)了在語(yǔ)音合成過(guò)程中精確控制表達(dá)風(fēng)格;其中,利用詞級(jí)韻律預(yù)測(cè)器生成詞級(jí)韻律特征,使其保留了與詞級(jí)頻譜內(nèi)音調(diào)和語(yǔ)音連續(xù)性有關(guān)的有價(jià)值信息,以提高網(wǎng)絡(luò)效果。

23、3、本發(fā)明的語(yǔ)法級(jí)編碼器利用ggnn網(wǎng)絡(luò)從語(yǔ)法圖中提取出語(yǔ)法級(jí)韻律特征,使單詞節(jié)點(diǎn)相互作用,以捕捉反映遠(yuǎn)處單詞之間依賴關(guān)系的語(yǔ)法特征,從而提取出與語(yǔ)法信息相關(guān)的韻律風(fēng)格,進(jìn)而提高了合成語(yǔ)音中時(shí)長(zhǎng)、音高和能量的預(yù)測(cè)精度。



技術(shù)特征:

1.一種結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法,其特征在于,多粒度韻律編碼器包括:1個(gè)語(yǔ)法級(jí)編碼器、1個(gè)話語(yǔ)級(jí)編碼器、1個(gè)音素級(jí)編碼器、1個(gè)單詞級(jí)編碼器、4個(gè)拓展器、2個(gè)子疊加層、1個(gè)單詞分割器;

3.根據(jù)權(quán)利要求2所述的結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法,其特征在于,語(yǔ)法級(jí)編碼器包括:1個(gè)單詞級(jí)平均池化層、2個(gè)ggnn網(wǎng)絡(luò)層、1個(gè)子疊加層;

4.根據(jù)權(quán)利要求2所述的結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法,其特征在于,話語(yǔ)級(jí)編碼器包括:2個(gè)一維卷積層、2個(gè)relu激活函數(shù)、2個(gè)歸一化層、2個(gè)dropout層、1個(gè)一維平均池化層;

5.根據(jù)權(quán)利要求2所述的結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法,其特征在于,單詞級(jí)編碼器包括:2個(gè)二維卷積層、2個(gè)relu激活函數(shù)、2個(gè)歸一化層、2個(gè)dropout層、1個(gè)二維自適應(yīng)平均池化層、1個(gè)線性層;

6.根據(jù)權(quán)利要求2所述的結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法,其特征在于,音素級(jí)編碼器包括:2個(gè)一維卷積層、2個(gè)relu激活函數(shù)、2個(gè)歸一化層、2個(gè)dropout層、1個(gè)線性層;

7.根據(jù)權(quán)利要求1所述的結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法,其特征在于,基底網(wǎng)絡(luò)包括:1個(gè)音素嵌入層、1個(gè)音素編碼器、1個(gè)變差適配器、1個(gè)梅爾解碼器、2個(gè)父疊加層、1個(gè)線性層;

8.根據(jù)權(quán)利要求1所述的結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法,其特征在于,訓(xùn)練好的語(yǔ)法注入多粒度韻律網(wǎng)絡(luò)的獲取方法包括:

9.根據(jù)權(quán)利要求8所述的結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法,其特征在于,每輪訓(xùn)練從訓(xùn)練集中隨機(jī)抽取部分?jǐn)?shù)據(jù)作為1個(gè)訓(xùn)練子集,共抽取n個(gè)訓(xùn)練子集{u1、…、un}以對(duì)應(yīng)進(jìn)行n輪訓(xùn)練;

10.一種結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成裝置,其特征在于,其使用了如權(quán)利要求1-8中任一項(xiàng)所述的結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法;


技術(shù)總結(jié)
本發(fā)明涉及語(yǔ)音處理技術(shù)領(lǐng)域,具體涉及結(jié)合文本語(yǔ)法的多粒度韻律語(yǔ)音合成方法及裝置。本發(fā)明的方法包括:獲取待處理文本、目標(biāo)說(shuō)話人的原始參考音頻;接著一方面將待處理文本預(yù)處理成語(yǔ)法圖、音素序列,另一方面將原始參考音頻預(yù)處理成原始梅爾譜圖,并輸入訓(xùn)練好的語(yǔ)法注入多粒度韻律網(wǎng)絡(luò)進(jìn)行處理以得到合成梅爾譜圖;最后對(duì)合成梅爾譜圖進(jìn)行聲碼轉(zhuǎn)換以得到合成語(yǔ)音。本發(fā)明將FastSpeech2網(wǎng)絡(luò)作為基底網(wǎng)絡(luò),并在其內(nèi)的音素編碼器、變差適配器之間增加了多粒度韻律編碼器構(gòu)建出語(yǔ)法注入多粒度韻律網(wǎng)絡(luò),對(duì)韻律特征進(jìn)行更加合理的多粒度處理和結(jié)合,并引入了文本語(yǔ)法信息,提高了韻律語(yǔ)音合成的效果。

技術(shù)研發(fā)人員:周健,劉佳慧
受保護(hù)的技術(shù)使用者:安徽大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/8
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1