成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

高保真高同步的說話人臉生成模型訓練方法及系統(tǒng)

文檔序號:41872224發(fā)布日期:2025-05-09 18:44閱讀:7來源:國知局
高保真高同步的說話人臉生成模型訓練方法及系統(tǒng)

本發(fā)明涉及圖像處理,尤其涉及一種高保真高同步的說話人臉生成模型訓練方法及系統(tǒng)。


背景技術(shù):

1、說話人臉生成算法是一種通過音頻信號來驅(qū)動和合成視頻中的人臉圖像的技術(shù),使得人臉的口型和表情與音頻中的聲音同步。

2、基于生成對抗網(wǎng)絡(luò)進行說話人臉生成,一般通過一個身份參考圖像和一個位姿圖像作為輸入,結(jié)合給定的音頻進行生成。現(xiàn)有的方法在選取身份參考圖像時,一般采用隨機選取的方法。該方法會導致,訓練時有大量參考圖像和位姿圖像嘴型一致的樣本,模型傾向于對嘴型直接進行復制,影響生成的說話人臉同步性。

3、由此可見,相關(guān)技術(shù)中的說話人臉生成方法,存在人臉的口型與音頻中的聲音同步性較低的技術(shù)問題。


技術(shù)實現(xiàn)思路

1、本發(fā)明提供一種高保真高同步的說話人臉生成模型訓練方法及系統(tǒng),用以解決現(xiàn)有技術(shù)中說話人臉生成方法,存在人臉的口型與音頻中的聲音同步性較低的缺陷,實現(xiàn)生成同時具有保真度和同步性的說話人臉。

2、本發(fā)明提供一種高保真高同步的說話人臉生成模型訓練方法,包括如下步驟。獲取待驅(qū)動音頻、位姿圖像以及參考圖像候選集;基于所述位姿圖像與所述圖像候選集進行難例挖掘,得到所述位姿圖像對應(yīng)的身份參考圖像,其中,所述身份參考圖像與所述位姿圖像之間的嘴部匹配度最低;將所述身份參考圖像、所述位姿圖像以及所述待驅(qū)動音頻輸入至說話人臉生成模型,得到所述說話人臉生成模型輸出的生成說話人臉圖像,其中,所述說話人臉生成模型是基于生成對抗網(wǎng)絡(luò)模型的;基于目標分辨率人臉圖像指導的損失函數(shù),對所述生成說話人臉圖像模型進行監(jiān)督,以訓練所述說話人臉生成模型,其中,所述目標分辨率人臉圖像的分辨率高于所述生成說話人臉圖像的分辨率。

3、根據(jù)本發(fā)明提供的一種高保真高同步的說話人臉生成模型訓練方法,所述基于所述位姿圖像與所述圖像候選集進行難例挖掘,得到所述位姿圖像對應(yīng)的身份參考圖像,包括:對所述位姿圖像與所述參考圖像候選集中的每個候選圖像分別進行人臉關(guān)鍵點檢測,得到所述位姿圖像對應(yīng)的第一人臉關(guān)鍵點與所述每個候選圖像對應(yīng)的第二人臉關(guān)鍵點;確定所述第一人臉關(guān)鍵點對應(yīng)的第一仿射變換矩陣,以及所述第二人臉關(guān)鍵點對應(yīng)的第二仿射變換矩陣;將所述位姿圖像與所述第一人臉關(guān)鍵點、所述每個候選圖像與所述第二人臉關(guān)鍵點,分別基于所述第一仿射變換矩陣與所述第二仿射變換矩陣進行目標位姿對齊,得到所述位姿圖像的第一嘴部對應(yīng)關(guān)鍵點與所述每個候選圖像的第二嘴部對應(yīng)關(guān)鍵點;分別確定所述位姿圖像的第一嘴部對應(yīng)關(guān)鍵點與所述每個候選圖像的第二嘴部對應(yīng)關(guān)鍵點之間的距離;將所述距離最大的第二嘴部對應(yīng)關(guān)鍵點所對應(yīng)的候選圖像作為身份參考圖像。

4、根據(jù)本發(fā)明提供的一種高保真高同步的說話人臉生成模型訓練方法,所述將所述距離最大的第二嘴部對應(yīng)關(guān)鍵點所對應(yīng)的候選圖像作為身份參考圖像,包括:

5、

6、其中,表示身份參考圖像,是表示所述候選圖像,表示所述第一仿射變換矩陣,表示所述第二仿射變換矩陣,表示所述位姿圖像的第一嘴部對應(yīng)關(guān)鍵點,表示所述每個候選圖像的第二嘴部對應(yīng)關(guān)鍵點。

7、根據(jù)本發(fā)明提供的一種高保真高同步的說話人臉生成模型訓練方法,所述說話人臉生成模型包括:圖像編碼器、預訓練的音頻特征提取器以及生成器;所述將所述身份參考圖像、所述位姿圖像以及所述待驅(qū)動音頻輸入至說話人臉生成模型,得到所述說話人臉生成模型輸出的生成說話人臉圖像,包括:對所述位姿圖像的目標部位進行遮擋,得到遮擋位姿圖像;基于rgb通道對所述遮擋位姿圖像與所述身份參考圖像進行拼接,得到拼接圖像;將所述拼接圖像輸入至所述圖像編碼器,得到所述圖像編碼器輸出的圖像特征圖;將所述待驅(qū)動音頻輸入至所述預訓練的音頻特征提取器,得到所述預訓練的音頻特征提取器輸出的音頻特征;將所述圖像特征圖作為噪音條件輸入至所述生成器,并將所述音頻特征作為風格條件輸入至所述生成器;通過所述生成器輸出與所述待驅(qū)動音頻對應(yīng)的生成說話人臉圖像。

8、根據(jù)本發(fā)明提供的一種高保真高同步的說話人臉生成模型訓練方法,所述生成對抗網(wǎng)絡(luò)模型包括:辨別器與生成器;在所述基于目標分辨率人臉圖像指導的損失函數(shù),對所述生成說話人臉圖像模型進行監(jiān)督之前,所述方法還包括:獲取真實說話人臉圖像以及目標分辨率人臉圖像;所述目標分辨率人臉圖像指導的損失函數(shù)具體為:

9、

10、其中,表示所述目標分辨率人臉圖像指導的損失函數(shù),表示所述辨別器,表示所述生成器,表示所述真實說話人臉圖像,表示所述目標分辨率人臉圖像,表示所述生成說話人臉圖像,表示對所述生成器進行最小化優(yōu)化,對所述辨別器進行最大化優(yōu)化;表示所述真實說話人臉圖像的期望對數(shù)似然,表示所述目標分辨率人臉圖像的期望對數(shù)似然,表示所述生成說話人臉圖像的期望對數(shù)似然。

11、根據(jù)本發(fā)明提供的一種高保真高同步的說話人臉生成模型訓練方法,在所述基于目標分辨率人臉圖像指導的損失函數(shù),對所述生成說話人臉圖像模型進行監(jiān)督之后,所述方法還包括:對所述說話人臉圖像模型進行隨機初始化,得到初始化的說話人臉圖像模型;將全局損失函數(shù)作為初始損失函數(shù)進行訓練,提升所述初始化的說話人臉圖像模型的對口型能力;當所述初始化的說話人臉圖像模型的對口型能力不再增加時,將所述初始損失函數(shù)替換為細節(jié)損失函數(shù)進行訓練,提升所述初始化的說話人臉圖像模型的生成人臉圖像質(zhì)量;當所述生成人臉圖像質(zhì)量不再增加或所述對口型能力下降時,結(jié)束訓練。

12、本發(fā)明還提供一種高保真高同步的說話人臉生成模型訓練系統(tǒng),包括如下模塊:獲取模塊,用于獲取待驅(qū)動音頻、位姿圖像以及參考圖像候選集;挖掘模塊,用于基于所述位姿圖像與所述圖像候選集進行難例挖掘,得到所述位姿圖像對應(yīng)的身份參考圖像,其中,所述身份參考圖像與所述位姿圖像之間的嘴部匹配度最低;輸入模塊,用于將所述身份參考圖像、所述位姿圖像以及所述待驅(qū)動音頻輸入至說話人臉生成模型,得到所述說話人臉生成模型輸出的生成說話人臉圖像,其中,所述說話人臉生成模型是基于生成對抗網(wǎng)絡(luò)模型的;監(jiān)督模塊,用于基于目標分辨率人臉圖像指導的損失函數(shù),對所述生成說話人臉圖像模型進行監(jiān)督,以訓練所述說話人臉生成模型,其中,所述目標分辨率人臉圖像的分辨率高于所述生成說話人臉圖像的分辨率。

13、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述高保真高同步的說話人臉生成模型訓練方法。

14、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述高保真高同步的說話人臉生成模型訓練方法。

15、本發(fā)明還提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述高保真高同步的說話人臉生成模型訓練方法。

16、本發(fā)明提供的高保真高同步的說話人臉生成模型訓練方法及系統(tǒng),通過獲取待驅(qū)動音頻、位姿圖像以及參考圖像候選集,確保了模型訓練數(shù)據(jù)的多樣性和豐富性;基于位姿圖像與圖像候選集進行難例挖掘,得到與位姿圖像嘴部匹配度最低的身份參考圖像,由此,通過選擇最難以匹配的圖像,增加了訓練難度,從而迫使模型學習更加精細的特征表示,提高了模型對于不同身份和表情的適應(yīng)能力和魯棒性;將身份參考圖像、位姿圖像以及待驅(qū)動音頻輸入至基于生成對抗網(wǎng)絡(luò)的說話人臉生成模型,能夠生成音頻同步的說話人臉圖像;基于目標分辨率人臉圖像指導的損失函數(shù)對生成說話人臉圖像模型進行監(jiān)督,確保了生成的說話人臉圖像在分辨率、細節(jié)和整體質(zhì)量上與目標高分辨率人臉圖像保持一致,從而提高了模型的生成質(zhì)量和保真度。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1