本公開涉及計算機,尤其涉及一種用于生成語音的方法、系統(tǒng)、電子設(shè)備、計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品。
背景技術(shù):
1、對于一段說話人錄制的語音信號,普通人一般可以在只聽到聲音的情況下以較高準(zhǔn)確度推斷出說話人的年齡段,已有技術(shù)也可以用機器學(xué)習(xí)算法分析語音信號并做出類似的推斷。
2、現(xiàn)有的聲音處理技術(shù)能夠?qū)φf話人的音色進(jìn)行處理,雖然保留了說話內(nèi)容,但不再能識別出原本的說話人。另外,采用傳統(tǒng)的序列到序列(sequence?to?sequence)轉(zhuǎn)換模型進(jìn)行語音信號的說話人音色年齡特征編輯時需要采用平行訓(xùn)練數(shù)據(jù),即同一個人年輕時和年老時錄制的語音數(shù)據(jù),而這樣的數(shù)據(jù)本身時間跨度太大,難以實施。
技術(shù)實現(xiàn)思路
1、有鑒于此,本公開提供了一種用于生成語音的方法、系統(tǒng)、電子設(shè)備、計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品,其中能夠?qū)φZ音信號進(jìn)行編輯,使得所生成的語音信號保持說話人的本人的音色,但是音色年齡向所指定的方向(例如年輕或年老)發(fā)生變化,而不需要不同年齡跨度下的個人錄制語音。在本文中,音色年齡是指說話人的音色所呈現(xiàn)的年齡或年齡范圍,而非說話人的年齡,更不是說話人的真實年齡數(shù)據(jù)。
2、在本公開的第一方面中,提供了一種用于生成語音的方法,包括:從輸入語音信號獲取內(nèi)容特征;從所述輸入語音信號獲取音色特征,所述音色特征包括與音色年齡相關(guān)的特征;編輯所述音色特征,編輯后的音色特征包括與所述目標(biāo)音色年齡相關(guān)的特征;以及基于所述內(nèi)容特征和所述編輯后的音色特征,生成目標(biāo)語音信號。
3、在本公開的第二方面中,提供了一種用于生成語音的系統(tǒng),包括:第一神經(jīng)網(wǎng)絡(luò)模型,被配置用于從輸入語音信號獲取內(nèi)容特征;第二神經(jīng)網(wǎng)絡(luò)模型,被配置用于從所述輸入語音信號獲取音色特征,所述音色特征包括與音色年齡相關(guān)的特征;第三神經(jīng)網(wǎng)絡(luò)模型,被配置用于編輯所述音色特征,編輯后的音色特征包括與目標(biāo)音色年齡相關(guān)的特征;第四神經(jīng)網(wǎng)絡(luò)模型,被配置用于基于所述內(nèi)容特征和所述編輯后的音色特征,生成目標(biāo)語音信號。
4、在本公開的第三方面中,提供了一種電子設(shè)備,包括一個或多個處理器;以及存儲裝置,用于存儲一個或多個程序,當(dāng)一個或多個程序被一個或多個處理器執(zhí)行,使得一個或多個處理器實現(xiàn)根據(jù)本公開的第一方面的方法。
5、在本公開的第四方面中,提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)根據(jù)本公開的第一方面的方法。
6、在本公開的第五方面中,提供了一種計算機程序產(chǎn)品,計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)本公開的第一方面的方法。
7、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種用于生成語音的方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中所述內(nèi)容特征包括與所述輸入語音信號中的文本有關(guān)的信息。
3.根據(jù)權(quán)利要求1所述的方法,其中所述內(nèi)容特征是基于第一神經(jīng)網(wǎng)絡(luò)模型而獲得的,所述第一神經(jīng)網(wǎng)絡(luò)模型包括預(yù)訓(xùn)練語音識別模型,所述內(nèi)容特征包括所述預(yù)訓(xùn)練語音識別模型的中間層激活信號。
4.根據(jù)權(quán)利要求1所述的方法,其中所述音色特征是基于第二神經(jīng)網(wǎng)絡(luò)模型而獲得的,所述第二神經(jīng)網(wǎng)絡(luò)模型包括經(jīng)訓(xùn)練的用于提取聲紋的擴展上下文感知平行注意力-時延神經(jīng)網(wǎng)絡(luò)。
5.根據(jù)權(quán)利要求1所述的方法,其中編輯所述音色特征包括:
6.根據(jù)權(quán)利要求5所述的方法,其中所述第三神經(jīng)網(wǎng)絡(luò)模型包括條件式標(biāo)準(zhǔn)化流網(wǎng)絡(luò),并且獲取所述編輯后的音色特征包括:
7.根據(jù)權(quán)利要求1所述的方法,其中生成目標(biāo)語音信號包括:
8.根據(jù)權(quán)利要求7所述的方法,其中所述第四神經(jīng)網(wǎng)絡(luò)模型包括生成式語音擴散模型。
9.一種用于生成語音的系統(tǒng),包括:
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述內(nèi)容特征包括與所述輸入語音信號中的文本有關(guān)的信息。
11.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述第一神經(jīng)網(wǎng)絡(luò)模型包括預(yù)訓(xùn)練語音識別模型,所述內(nèi)容特征包括所述預(yù)訓(xùn)練語音識別模型的中間層激活信號。
12.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述第二神經(jīng)網(wǎng)絡(luò)模型包括經(jīng)訓(xùn)練的用于提取聲紋的擴展上下文感知平行注意力-時延神經(jīng)網(wǎng)絡(luò)。
13.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述第三神經(jīng)網(wǎng)絡(luò)模型被配置為通過如下方式來編輯所述音色特征:
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中所述第三神經(jīng)網(wǎng)絡(luò)模型包括條件式標(biāo)準(zhǔn)化流網(wǎng)絡(luò),并且獲取所述編輯后的音色特征包括:
15.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述第四神經(jīng)網(wǎng)絡(luò)模型被配置為通過如下方式來生成所述目標(biāo)語音信號:
16.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述第四神經(jīng)網(wǎng)絡(luò)模型包括生成式語音擴散模型。
17.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述系統(tǒng)通過如下方式被訓(xùn)練:
18.一種電子設(shè)備,所述電子設(shè)備包括:
19.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述程序被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-8中任一項所述的方法。
20.一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-8中任一項所述的方法。