本申請(qǐng)實(shí)施例涉及音樂編輯,具體而言,涉及一種歌曲生成方法、裝置、電子設(shè)備。
背景技術(shù):
1、ai(artificial?intelligence,人工智能)生成音樂是近年來隨著人工智能技術(shù)的快速發(fā)展而興起的一個(gè)新興領(lǐng)域。它利用深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等先進(jìn)技術(shù),通過對(duì)大量音樂數(shù)據(jù)的學(xué)習(xí)和分析,掌握音樂的基本規(guī)律和風(fēng)格特征,從而能夠創(chuàng)作出音樂片段或完整的音樂作品。
2、然而,ai生成音樂仍然面臨一些挑戰(zhàn)和問題,例如現(xiàn)有的ai生成音樂的模型架構(gòu)復(fù)雜,收斂速度慢,需要gpu集群訓(xùn)練。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述現(xiàn)有技術(shù)中存在的問題,本申請(qǐng)實(shí)施例提供了一種歌曲生成方法、裝置、電子設(shè)備,僅需要輸入歌曲的歌詞特征和時(shí)間位置特征,即可生成用戶所需的歌曲,從而能夠簡(jiǎn)化輸入?yún)?shù)且能夠加速生成模型的收斂速度。
2、第一方面,本申請(qǐng)實(shí)施例提供一種歌曲生成方法,包括以下步驟:
3、獲取歌曲的歌詞特征和時(shí)間位置特征;
4、根據(jù)所述歌詞特征和所述時(shí)間位置特征,生成歌曲音頻的中間表達(dá);和
5、將所述歌曲音頻的中間表達(dá)還原成目標(biāo)歌曲音頻。
6、進(jìn)一步地,所述獲取歌曲的歌詞特征和時(shí)間位置特征,包括:
7、將所述歌曲的歌詞編碼為嵌入向量,以獲得所述歌曲的歌詞特征;和
8、將所述歌曲的時(shí)間位置進(jìn)行編碼,以獲得所述歌曲的時(shí)間位置特征。
9、進(jìn)一步地,所述根據(jù)所述歌詞特征和所述時(shí)間位置特征,生成歌曲音頻的中間表達(dá),包括:
10、將所述歌詞特征和所述時(shí)間位置特征輸入至擴(kuò)散模型,生成歌曲音頻的中間表達(dá)。
11、進(jìn)一步地,所述將所述歌詞特征和所述時(shí)間位置特征輸入至擴(kuò)散模型,生成歌曲音頻的中間表達(dá),包括:
12、將所述歌詞特征和所述時(shí)間位置特征在第二維進(jìn)行相加,輸入至所述擴(kuò)散模型中,以生成所述歌曲音頻的中間表達(dá)。
13、進(jìn)一步地,在所述將所述歌詞特征和所述時(shí)間位置特征輸入至擴(kuò)散模型,生成歌曲音頻的中間表達(dá)之前,還包括:
14、對(duì)所述擴(kuò)算模型進(jìn)行訓(xùn)練,所述擴(kuò)散模型的訓(xùn)練的損失函數(shù)為在所輸出的音頻波形上進(jìn)行均方差損失計(jì)算。
15、進(jìn)一步地,所述將所述歌曲音頻的中間表達(dá)還原成目標(biāo)歌曲音頻,包括:
16、將所述歌曲音頻的中間表達(dá)還原至音頻波形,以生成所述目標(biāo)歌曲音頻。
17、進(jìn)一步地,所述將所述歌曲音頻的中間表達(dá)還原至音頻波形,以生成所述目標(biāo)歌曲音頻,包括:
18、通過vae模型將所述歌曲音頻的中間表達(dá)還原至音頻波形,以生成所述目標(biāo)歌曲音頻。
19、第二方面,本申請(qǐng)實(shí)施例還提供了一種歌曲生成裝置,包括:
20、特征獲取模塊,用于獲取歌曲的歌詞特征和時(shí)間位置特征;
21、中間表達(dá)生成模塊,用于根據(jù)所述歌詞特征和所述時(shí)間位置特征,生成歌曲音頻的中間表達(dá);和
22、目標(biāo)音頻生成模塊,用于將所述歌曲音頻的中間表達(dá)還原成目標(biāo)歌曲音頻薦。
23、第三方面,本申請(qǐng)實(shí)施例還提供了一種電子設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器用于執(zhí)行所述程序時(shí)實(shí)現(xiàn)根據(jù)上述的第一方面所述的歌曲生成方法。
24、第四方面,本申請(qǐng)實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序用于實(shí)現(xiàn)根據(jù)上述的第一方面所述的歌曲生成方法。
25、本申請(qǐng)實(shí)施例帶來了以下有益效果:
26、本申請(qǐng)實(shí)施例提供的歌曲生成方法中,首先獲取歌曲的歌詞特征和時(shí)間位置特征,并根據(jù)所述歌詞特征和所述時(shí)間位置特征,生成歌曲音頻的中間表達(dá),最后將所述歌曲音頻的中間表達(dá)還原成目標(biāo)歌曲音頻,本申請(qǐng)實(shí)施例提供的歌曲生成方法僅需要輸入歌曲的歌詞特征和時(shí)間位置特征,即可生成用戶所需的歌曲,從而能夠簡(jiǎn)化輸入?yún)?shù)且能夠加速生成模型的收斂速度。
1.一種歌曲生成方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的歌曲生成方法,其特征在于,所述獲取歌曲的歌詞特征和時(shí)間位置特征,包括:
3.根據(jù)權(quán)利要求1所述的歌曲生成方法,其特征在于,所述根據(jù)所述歌詞特征和所述時(shí)間位置特征,生成歌曲音頻的中間表達(dá),包括:
4.根據(jù)權(quán)利要求3所述的歌曲生成方法,其特征在于,所述將所述歌詞特征和所述時(shí)間位置特征輸入至擴(kuò)散模型,生成歌曲音頻的中間表達(dá),包括:
5.根據(jù)權(quán)利要求4所述的歌曲生成方法,其特征在于,在所述將所述歌詞特征和所述時(shí)間位置特征輸入至擴(kuò)散模型,生成歌曲音頻的中間表達(dá)之前,還包括:
6.根據(jù)權(quán)利要求1所述的歌曲生成方法,其特征在于,所述將所述歌曲音頻的中間表達(dá)還原成目標(biāo)歌曲音頻,包括:
7.根據(jù)權(quán)利要求1所述的歌曲生成方法,其特征在于,所述將所述歌曲音頻的中間表達(dá)還原至音頻波形,以生成所述目標(biāo)歌曲音頻,包括:
8.一種歌曲生成裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器用于執(zhí)行所述程序時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1-7任一項(xiàng)所述的歌曲生成方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序用于實(shí)現(xiàn)根據(jù)權(quán)利要求1-7任一項(xiàng)所述的歌曲生成方法。