用于生成語音的方法、系統(tǒng)、電子設(shè)備和介質(zhì)與流程

文檔序號：41854353發(fā)布日期：2025-05-09 18:13閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本公開涉及計算機，尤其涉及一種用于生成語音的方法、系統(tǒng)、電子設(shè)備、計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品。

背景技術(shù)：

1、對于一段說話人錄制的語音信號，普通人一般可以在只聽到聲音的情況下以較高準(zhǔn)確度推斷出說話人的年齡段，已有技術(shù)也可以用機器學(xué)習(xí)算法分析語音信號并做出類似的推斷。

2、現(xiàn)有的聲音處理技術(shù)能夠?qū)φf話人的音色進(jìn)行處理，雖然保留了說話內(nèi)容，但不再能識別出原本的說話人。另外，采用傳統(tǒng)的序列到序列(sequence?to?sequence)轉(zhuǎn)換模型進(jìn)行語音信號的說話人音色年齡特征編輯時需要采用平行訓(xùn)練數(shù)據(jù)，即同一個人年輕時和年老時錄制的語音數(shù)據(jù)，而這樣的數(shù)據(jù)本身時間跨度太大，難以實施。

技術(shù)實現(xiàn)思路

1、有鑒于此，本公開提供了一種用于生成語音的方法、系統(tǒng)、電子設(shè)備、計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品，其中能夠?qū)φZ音信號進(jìn)行編輯，使得所生成的語音信號保持說話人的本人的音色，但是音色年齡向所指定的方向(例如年輕或年老)發(fā)生變化，而不需要不同年齡跨度下的個人錄制語音。在本文中，音色年齡是指說話人的音色所呈現(xiàn)的年齡或年齡范圍，而非說話人的年齡，更不是說話人的真實年齡數(shù)據(jù)。

2、在本公開的第一方面中，提供了一種用于生成語音的方法，包括：從輸入語音信號獲取內(nèi)容特征；從所述輸入語音信號獲取音色特征，所述音色特征包括與音色年齡相關(guān)的特征；編輯所述音色特征，編輯后的音色特征包括與所述目標(biāo)音色年齡相關(guān)的特征；以及基于所述內(nèi)容特征和所述編輯后的音色特征，生成目標(biāo)語音信號。

3、在本公開的第二方面中，提供了一種用于生成語音的系統(tǒng)，包括：第一神經(jīng)網(wǎng)絡(luò)模型，被配置用于從輸入語音信號獲取內(nèi)容特征；第二神經(jīng)網(wǎng)絡(luò)模型，被配置用于從所述輸入語音信號獲取音色特征，所述音色特征包括與音色年齡相關(guān)的特征；第三神經(jīng)網(wǎng)絡(luò)模型，被配置用于編輯所述音色特征，編輯后的音色特征包括與目標(biāo)音色年齡相關(guān)的特征；第四神經(jīng)網(wǎng)絡(luò)模型，被配置用于基于所述內(nèi)容特征和所述編輯后的音色特征，生成目標(biāo)語音信號。

4、在本公開的第三方面中，提供了一種電子設(shè)備，包括一個或多個處理器；以及存儲裝置，用于存儲一個或多個程序，當(dāng)一個或多個程序被一個或多個處理器執(zhí)行，使得一個或多個處理器實現(xiàn)根據(jù)本公開的第一方面的方法。

5、在本公開的第四方面中，提供了一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，該程序被處理器執(zhí)行時實現(xiàn)根據(jù)本公開的第一方面的方法。

6、在本公開的第五方面中，提供了一種計算機程序產(chǎn)品，計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)本公開的第一方面的方法。

7、應(yīng)當(dāng)理解，本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實施例的關(guān)鍵或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

技術(shù)特征：

1.一種用于生成語音的方法，包括：

2.根據(jù)權(quán)利要求1所述的方法，其中所述內(nèi)容特征包括與所述輸入語音信號中的文本有關(guān)的信息。

3.根據(jù)權(quán)利要求1所述的方法，其中所述內(nèi)容特征是基于第一神經(jīng)網(wǎng)絡(luò)模型而獲得的，所述第一神經(jīng)網(wǎng)絡(luò)模型包括預(yù)訓(xùn)練語音識別模型，所述內(nèi)容特征包括所述預(yù)訓(xùn)練語音識別模型的中間層激活信號。

4.根據(jù)權(quán)利要求1所述的方法，其中所述音色特征是基于第二神經(jīng)網(wǎng)絡(luò)模型而獲得的，所述第二神經(jīng)網(wǎng)絡(luò)模型包括經(jīng)訓(xùn)練的用于提取聲紋的擴展上下文感知平行注意力-時延神經(jīng)網(wǎng)絡(luò)。

5.根據(jù)權(quán)利要求1所述的方法，其中編輯所述音色特征包括：

6.根據(jù)權(quán)利要求5所述的方法，其中所述第三神經(jīng)網(wǎng)絡(luò)模型包括條件式標(biāo)準(zhǔn)化流網(wǎng)絡(luò)，并且獲取所述編輯后的音色特征包括：

7.根據(jù)權(quán)利要求1所述的方法，其中生成目標(biāo)語音信號包括：

8.根據(jù)權(quán)利要求7所述的方法，其中所述第四神經(jīng)網(wǎng)絡(luò)模型包括生成式語音擴散模型。

9.一種用于生成語音的系統(tǒng)，包括：

10.根據(jù)權(quán)利要求9所述的系統(tǒng)，其中所述內(nèi)容特征包括與所述輸入語音信號中的文本有關(guān)的信息。

11.根據(jù)權(quán)利要求9所述的系統(tǒng)，其中所述第一神經(jīng)網(wǎng)絡(luò)模型包括預(yù)訓(xùn)練語音識別模型，所述內(nèi)容特征包括所述預(yù)訓(xùn)練語音識別模型的中間層激活信號。

12.根據(jù)權(quán)利要求9所述的系統(tǒng)，其中所述第二神經(jīng)網(wǎng)絡(luò)模型包括經(jīng)訓(xùn)練的用于提取聲紋的擴展上下文感知平行注意力-時延神經(jīng)網(wǎng)絡(luò)。

13.根據(jù)權(quán)利要求9所述的系統(tǒng)，其中所述第三神經(jīng)網(wǎng)絡(luò)模型被配置為通過如下方式來編輯所述音色特征：

14.根據(jù)權(quán)利要求13所述的系統(tǒng)，其中所述第三神經(jīng)網(wǎng)絡(luò)模型包括條件式標(biāo)準(zhǔn)化流網(wǎng)絡(luò)，并且獲取所述編輯后的音色特征包括：

15.根據(jù)權(quán)利要求9所述的系統(tǒng)，其中所述第四神經(jīng)網(wǎng)絡(luò)模型被配置為通過如下方式來生成所述目標(biāo)語音信號：

16.根據(jù)權(quán)利要求9所述的系統(tǒng)，其中所述第四神經(jīng)網(wǎng)絡(luò)模型包括生成式語音擴散模型。

17.根據(jù)權(quán)利要求9所述的系統(tǒng)，其中所述系統(tǒng)通過如下方式被訓(xùn)練：

18.一種電子設(shè)備，所述電子設(shè)備包括：

19.一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，所述程序被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-8中任一項所述的方法。

20.一種計算機程序產(chǎn)品，包括計算機程序，所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-8中任一項所述的方法。

技術(shù)總結(jié)
本公開的實施例提供了用于生成語音的方法、系統(tǒng)、電子設(shè)備和介質(zhì)。方法包括：從輸入語音信號獲取內(nèi)容特征；從輸入語音信號獲取音色特征，音色特征包括與音色年齡相關(guān)的特征；編輯音色特征，編輯后的音色特征包括與目標(biāo)音色年齡相關(guān)的特征；以及基于內(nèi)容特征和編輯后的音色特征，生成目標(biāo)語音信號。

技術(shù)研發(fā)人員：唐振宇,彭開南,賈東亞,田喬,馬明博,王玉平,王雨軒
受保護的技術(shù)使用者：臉萌有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/5/8

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：唐振宇,彭開南,賈東亞,田喬,馬明博,王玉平,王雨軒
技術(shù)所有人：臉萌有限公司
我是此專利的發(fā)明人

上一篇：一種水利工程用頂管機的制作方法
上一篇：一種便于安裝的電動車儀表盤的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

用于生成語音的方法、系統(tǒng)、電子設(shè)備和介質(zhì)與流程

用于生成語音的方法、系統(tǒng)、電子設(shè)備和介質(zhì)與流程