成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

用于生成語音的方法、系統(tǒng)、電子設(shè)備和介質(zhì)與流程

文檔序號:41854353發(fā)布日期:2025-05-09 18:13閱讀:5來源:國知局
用于生成語音的方法、系統(tǒng)、電子設(shè)備和介質(zhì)與流程

本公開涉及計算機,尤其涉及一種用于生成語音的方法、系統(tǒng)、電子設(shè)備、計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品。


背景技術(shù):

1、對于一段說話人錄制的語音信號,普通人一般可以在只聽到聲音的情況下以較高準(zhǔn)確度推斷出說話人的年齡段,已有技術(shù)也可以用機器學(xué)習(xí)算法分析語音信號并做出類似的推斷。

2、現(xiàn)有的聲音處理技術(shù)能夠?qū)φf話人的音色進(jìn)行處理,雖然保留了說話內(nèi)容,但不再能識別出原本的說話人。另外,采用傳統(tǒng)的序列到序列(sequence?to?sequence)轉(zhuǎn)換模型進(jìn)行語音信號的說話人音色年齡特征編輯時需要采用平行訓(xùn)練數(shù)據(jù),即同一個人年輕時和年老時錄制的語音數(shù)據(jù),而這樣的數(shù)據(jù)本身時間跨度太大,難以實施。


技術(shù)實現(xiàn)思路

1、有鑒于此,本公開提供了一種用于生成語音的方法、系統(tǒng)、電子設(shè)備、計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品,其中能夠?qū)φZ音信號進(jìn)行編輯,使得所生成的語音信號保持說話人的本人的音色,但是音色年齡向所指定的方向(例如年輕或年老)發(fā)生變化,而不需要不同年齡跨度下的個人錄制語音。在本文中,音色年齡是指說話人的音色所呈現(xiàn)的年齡或年齡范圍,而非說話人的年齡,更不是說話人的真實年齡數(shù)據(jù)。

2、在本公開的第一方面中,提供了一種用于生成語音的方法,包括:從輸入語音信號獲取內(nèi)容特征;從所述輸入語音信號獲取音色特征,所述音色特征包括與音色年齡相關(guān)的特征;編輯所述音色特征,編輯后的音色特征包括與所述目標(biāo)音色年齡相關(guān)的特征;以及基于所述內(nèi)容特征和所述編輯后的音色特征,生成目標(biāo)語音信號。

3、在本公開的第二方面中,提供了一種用于生成語音的系統(tǒng),包括:第一神經(jīng)網(wǎng)絡(luò)模型,被配置用于從輸入語音信號獲取內(nèi)容特征;第二神經(jīng)網(wǎng)絡(luò)模型,被配置用于從所述輸入語音信號獲取音色特征,所述音色特征包括與音色年齡相關(guān)的特征;第三神經(jīng)網(wǎng)絡(luò)模型,被配置用于編輯所述音色特征,編輯后的音色特征包括與目標(biāo)音色年齡相關(guān)的特征;第四神經(jīng)網(wǎng)絡(luò)模型,被配置用于基于所述內(nèi)容特征和所述編輯后的音色特征,生成目標(biāo)語音信號。

4、在本公開的第三方面中,提供了一種電子設(shè)備,包括一個或多個處理器;以及存儲裝置,用于存儲一個或多個程序,當(dāng)一個或多個程序被一個或多個處理器執(zhí)行,使得一個或多個處理器實現(xiàn)根據(jù)本公開的第一方面的方法。

5、在本公開的第四方面中,提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)根據(jù)本公開的第一方面的方法。

6、在本公開的第五方面中,提供了一種計算機程序產(chǎn)品,計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)本公開的第一方面的方法。

7、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。



技術(shù)特征:

1.一種用于生成語音的方法,包括:

2.根據(jù)權(quán)利要求1所述的方法,其中所述內(nèi)容特征包括與所述輸入語音信號中的文本有關(guān)的信息。

3.根據(jù)權(quán)利要求1所述的方法,其中所述內(nèi)容特征是基于第一神經(jīng)網(wǎng)絡(luò)模型而獲得的,所述第一神經(jīng)網(wǎng)絡(luò)模型包括預(yù)訓(xùn)練語音識別模型,所述內(nèi)容特征包括所述預(yù)訓(xùn)練語音識別模型的中間層激活信號。

4.根據(jù)權(quán)利要求1所述的方法,其中所述音色特征是基于第二神經(jīng)網(wǎng)絡(luò)模型而獲得的,所述第二神經(jīng)網(wǎng)絡(luò)模型包括經(jīng)訓(xùn)練的用于提取聲紋的擴展上下文感知平行注意力-時延神經(jīng)網(wǎng)絡(luò)。

5.根據(jù)權(quán)利要求1所述的方法,其中編輯所述音色特征包括:

6.根據(jù)權(quán)利要求5所述的方法,其中所述第三神經(jīng)網(wǎng)絡(luò)模型包括條件式標(biāo)準(zhǔn)化流網(wǎng)絡(luò),并且獲取所述編輯后的音色特征包括:

7.根據(jù)權(quán)利要求1所述的方法,其中生成目標(biāo)語音信號包括:

8.根據(jù)權(quán)利要求7所述的方法,其中所述第四神經(jīng)網(wǎng)絡(luò)模型包括生成式語音擴散模型。

9.一種用于生成語音的系統(tǒng),包括:

10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述內(nèi)容特征包括與所述輸入語音信號中的文本有關(guān)的信息。

11.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述第一神經(jīng)網(wǎng)絡(luò)模型包括預(yù)訓(xùn)練語音識別模型,所述內(nèi)容特征包括所述預(yù)訓(xùn)練語音識別模型的中間層激活信號。

12.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述第二神經(jīng)網(wǎng)絡(luò)模型包括經(jīng)訓(xùn)練的用于提取聲紋的擴展上下文感知平行注意力-時延神經(jīng)網(wǎng)絡(luò)。

13.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述第三神經(jīng)網(wǎng)絡(luò)模型被配置為通過如下方式來編輯所述音色特征:

14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中所述第三神經(jīng)網(wǎng)絡(luò)模型包括條件式標(biāo)準(zhǔn)化流網(wǎng)絡(luò),并且獲取所述編輯后的音色特征包括:

15.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述第四神經(jīng)網(wǎng)絡(luò)模型被配置為通過如下方式來生成所述目標(biāo)語音信號:

16.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述第四神經(jīng)網(wǎng)絡(luò)模型包括生成式語音擴散模型。

17.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述系統(tǒng)通過如下方式被訓(xùn)練:

18.一種電子設(shè)備,所述電子設(shè)備包括:

19.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述程序被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-8中任一項所述的方法。

20.一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-8中任一項所述的方法。


技術(shù)總結(jié)
本公開的實施例提供了用于生成語音的方法、系統(tǒng)、電子設(shè)備和介質(zhì)。方法包括:從輸入語音信號獲取內(nèi)容特征;從輸入語音信號獲取音色特征,音色特征包括與音色年齡相關(guān)的特征;編輯音色特征,編輯后的音色特征包括與目標(biāo)音色年齡相關(guān)的特征;以及基于內(nèi)容特征和編輯后的音色特征,生成目標(biāo)語音信號。

技術(shù)研發(fā)人員:唐振宇,彭開南,賈東亞,田喬,馬明博,王玉平,王雨軒
受保護的技術(shù)使用者:臉萌有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/8
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1