本公開涉及計(jì)算機(jī),尤其涉及圖像生成模型訓(xùn)練方法以及圖像生成方法。
背景技術(shù):
1、全身人像生成技術(shù)是人工智能在設(shè)計(jì)和創(chuàng)作領(lǐng)域中的重要應(yīng)用之一。隨著數(shù)字化和虛擬現(xiàn)實(shí)技術(shù)的發(fā)展,全身人像在諸多行業(yè)中扮演越來越重要的角色,其不僅能減少人力成本,還能助推高度個性化和定制化的內(nèi)容創(chuàng)作。但是,相關(guān)技術(shù)中全身人像的生成方法存在生成出的圖像質(zhì)量低并且質(zhì)量不穩(wěn)定的問題。
2、相關(guān)技術(shù)可以利用擴(kuò)散模型在圖像生成領(lǐng)域的優(yōu)勢來生成全身人像,但是目前尚不能直接基于擴(kuò)散模型生成全身人像,大多只能夠基于擴(kuò)散模型生成半身人像,然后通過擴(kuò)圖操作得到全身人像。但是,這一方法存在過程復(fù)雜、細(xì)節(jié)缺失、質(zhì)量不穩(wěn)定、姿態(tài)不可控等諸多弊端。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供圖像生成模型訓(xùn)練方法以及圖像生成方法,以至少解決相關(guān)技術(shù)中的至少一種問題。本公開的技術(shù)方案如下:
2、根據(jù)本公開實(shí)施例的第一方面,提供一種圖像生成模型訓(xùn)練方法,包括:
3、獲取控制模型,以及預(yù)訓(xùn)練的圖像生成器和文本編碼器;
4、獲取樣本文本和樣本參考圖像,所述樣本文本為用于描述待生成的圖像中的人像的文本內(nèi)容,所述樣本參考圖像指示待生成的圖像中的全身人像的形態(tài);
5、將所述樣本文本輸入所述文本編碼器進(jìn)行文本編碼,得到樣本文本特征;
6、基于所述控制模型對所述樣本參考圖像進(jìn)行特征處理,得到樣本圖像引導(dǎo)特征;
7、將所述樣本文本特征和所述樣本圖像引導(dǎo)特征輸入所述圖像生成器進(jìn)行圖像生成,得到生成出的預(yù)測圖像,所述預(yù)測圖像中的全身人像包括人臉;
8、基于所述預(yù)測圖像,調(diào)整所述控制模型的參數(shù);對調(diào)參后的控制模型、所述文本編碼器和所述圖像生成器進(jìn)行組合,得到圖像生成模型。
9、在一示例性的實(shí)施方式中,所述樣本參考圖像為所述待生成的圖像中的人像的全身姿態(tài)示意圖;所述控制模型為姿態(tài)控制模型。
10、在一示例性的實(shí)施方式中,所述樣本參考圖像為包括所述待生成的圖像中的人像的身高和體重的全身輪廓示意圖,所述樣本參考圖像指示所述身高、所述體重與所述全身輪廓的對應(yīng)關(guān)系;所述控制模型為輪廓控制模型。
11、在一示例性的實(shí)施方式中,所述獲取樣本文本和樣本參考圖像,包括:
12、對包括預(yù)設(shè)人像的二維圖像進(jìn)行關(guān)鍵點(diǎn)檢測,得到所述預(yù)設(shè)人像的關(guān)鍵點(diǎn)數(shù)據(jù);
13、獲取所述預(yù)設(shè)人像的身高和體重;
14、基于所述關(guān)鍵點(diǎn)數(shù)據(jù)、所述預(yù)設(shè)人像的身高和體重,構(gòu)建三維人體模型;
15、對所述三維人體模型進(jìn)行投影,得到所述樣本參考圖像。
16、在一示例性的實(shí)施方式中,所述控制模型包括特征提取器和融合控制模型,所述基于所述控制模型對所述樣本參考圖像進(jìn)行特征處理,得到樣本圖像引導(dǎo)特征,包括:
17、將所述樣本參考圖像輸入所述特征提取器進(jìn)行特征提取,得到樣本圖像特征;
18、將所述樣本圖像特征輸入所述融合控制模型進(jìn)行特征融合,得到所述樣本圖像引導(dǎo)特征。
19、在一示例性的實(shí)施方式中,所述特征提取器包括預(yù)訓(xùn)練的圖像編碼器和映射組件,所述映射組件用于將圖像特征空間的信息映射到文本特征空間;所述將所述樣本參考圖像輸入所述特征提取器進(jìn)行特征提取,得到樣本圖像特征,包括:
20、將所述樣本參考圖像輸入所述圖像編碼器進(jìn)行圖像編碼,得到樣本圖像編碼;
21、將所述樣本圖像編碼輸入所述映射組件進(jìn)行信息映射,得到所述樣本圖像特征;
22、所述基于所述預(yù)測圖像,調(diào)整所述控制模型的參數(shù),包括:
23、在凍結(jié)所述圖像編碼器的參數(shù)的情況下,基于所述預(yù)測圖像,調(diào)整所述映射組件和所述融合控制模型的參數(shù)。
24、在一示例性的實(shí)施方式中,所述將所述樣本圖像特征輸入所述融合控制模型進(jìn)行特征融合,得到所述樣本圖像引導(dǎo)特征,包括:
25、將所述樣本圖像特征輸入所述融合控制模型的至少一個網(wǎng)絡(luò)層進(jìn)行特征融合,得到每個所述網(wǎng)絡(luò)層輸出的單層引導(dǎo)特征,所述單層引導(dǎo)特征屬于所述樣本圖像引導(dǎo)特征;
26、所述將所述樣本文本特征和所述樣本圖像引導(dǎo)特征輸入所述圖像生成器進(jìn)行圖像生成,得到生成出的預(yù)測圖像,包括:
27、將每一所述單層引導(dǎo)特征輸入所述圖像生成器中對應(yīng)的網(wǎng)絡(luò)層,將所述樣本文本特征輸入所述圖像生成器中的至少一個網(wǎng)絡(luò)層,以使得所述圖像生成器通過融合所述樣本文本特征和所述樣本圖像引導(dǎo)特征生成所述預(yù)測圖像。
28、在一示例性的實(shí)施方式中,所述圖像生成器為擴(kuò)散模型,所述圖像生成器生成的預(yù)測圖像包括至少一個擴(kuò)散步數(shù)中每個擴(kuò)散步數(shù)對應(yīng)的圖像預(yù)測結(jié)果;所述基于所述預(yù)測圖像,調(diào)整所述控制模型的參數(shù),包括:
29、基于基礎(chǔ)圖像,確定所述至少一個擴(kuò)散步數(shù)中每個擴(kuò)散步數(shù)對應(yīng)的參考圖像,所述基礎(chǔ)圖像包括帶有人臉的人像,所述帶有人臉的人像符合所述樣本文本的描述,并且所述帶有人臉的人像的形態(tài)與所述樣本參考圖像一致;
30、針對所述至少一個擴(kuò)散步數(shù)中的任一擴(kuò)散步數(shù),基于所述擴(kuò)散步數(shù)對應(yīng)的參考圖像與對應(yīng)的圖像預(yù)測結(jié)果之間的差異,調(diào)整所述控制模型的參數(shù)。
31、在一示例性的實(shí)施方式中,所述將所述樣本文本特征和所述樣本圖像引導(dǎo)特征輸入所述圖像生成器進(jìn)行圖像生成,得到生成出的預(yù)測圖像,包括:
32、初始化當(dāng)前擴(kuò)散步數(shù);
33、基于預(yù)設(shè)噪聲和所述當(dāng)前擴(kuò)散步數(shù),通過融合所述樣本文本特征和所述樣本圖像引導(dǎo)特征進(jìn)行對所述預(yù)設(shè)噪聲的去噪處理,得到所述當(dāng)前擴(kuò)散步數(shù)對應(yīng)的圖像預(yù)測結(jié)果;
34、基于所述預(yù)設(shè)噪聲與所述當(dāng)前擴(kuò)散步數(shù)對應(yīng)的圖像預(yù)測結(jié)果之間的差值更新所述預(yù)設(shè)噪聲;
35、更新所述當(dāng)前擴(kuò)散步數(shù),在更新后的當(dāng)前擴(kuò)散步數(shù)小于擴(kuò)散步數(shù)閾值的情況下,重復(fù)執(zhí)行所述基于預(yù)設(shè)噪聲和所述當(dāng)前擴(kuò)散步數(shù),通過融合所述樣本文本特征和所述樣本圖像引導(dǎo)特征進(jìn)行對所述預(yù)設(shè)噪聲的去噪處理,得到所述當(dāng)前擴(kuò)散步數(shù)對應(yīng)的圖像預(yù)測結(jié)果的步驟。
36、在一示例性的實(shí)施方式中,所述融合控制模型與所述圖像生成器具備相同結(jié)構(gòu),并且所述融合控制模型的初始參數(shù)基于所述圖像生成器的參數(shù)確定。
37、根據(jù)本公開實(shí)施例的第二方面,提供一種圖像生成方法,所述方法包括:
38、獲取目標(biāo)文本和目標(biāo)參考圖像,所述目標(biāo)文本為用于描述待生成的圖像中的人像的文本內(nèi)容,所述目標(biāo)參考圖像指示待生成的圖像中的全身人像的形態(tài);
39、將所述目標(biāo)文本和所述目標(biāo)參考圖像輸入圖像生成模型,得到目標(biāo)圖像,所述目標(biāo)圖像中的全身人像包括人臉;
40、其中,所述圖像生成模型通過第一方面中任意一項(xiàng)所述的圖像生成模型訓(xùn)練方法訓(xùn)練得到。
41、根據(jù)本公開實(shí)施例的第三方面,提供一種圖像生成模型訓(xùn)練裝置,包括:
42、組件獲取模塊,被配置為執(zhí)行獲取控制模型,以及預(yù)訓(xùn)練的圖像生成器和文本編碼器;
43、樣本獲取模塊,被配置為執(zhí)行獲取樣本文本和樣本參考圖像,所述樣本文本為用于描述待生成的圖像中的人像的文本內(nèi)容,所述樣本參考圖像指示待生成的圖像中的全身人像的形態(tài);
44、訓(xùn)練模塊,被配置為執(zhí)行:
45、將所述樣本文本輸入所述文本編碼器進(jìn)行文本編碼,得到樣本文本特征;
46、基于所述控制模型對所述樣本參考圖像進(jìn)行特征處理,得到樣本圖像引導(dǎo)特征;
47、將所述樣本文本特征和所述樣本圖像引導(dǎo)特征輸入所述圖像生成器進(jìn)行圖像生成,得到生成出的預(yù)測圖像,所述預(yù)測圖像中的全身人像包括人臉;
48、基于所述預(yù)測圖像,調(diào)整所述控制模型的參數(shù);對調(diào)參后的控制模型、所述文本編碼器和所述圖像生成器進(jìn)行組合,得到圖像生成模型。
49、在一示例性的實(shí)施方式中,所述樣本參考圖像為所述待生成的圖像中的人像的全身姿態(tài)示意圖;所述控制模型為姿態(tài)控制模型。
50、在一示例性的實(shí)施方式中,所述樣本參考圖像為包括所述待生成的圖像中的人像的身高和體重的全身輪廓示意圖,所述樣本參考圖像指示所述身高、所述體重與所述全身輪廓的對應(yīng)關(guān)系;所述控制模型為輪廓控制模型。
51、在一示例性的實(shí)施方式中,所述樣本獲取模塊,被配置為執(zhí)行:
52、對包括預(yù)設(shè)人像的二維圖像進(jìn)行關(guān)鍵點(diǎn)檢測,得到所述預(yù)設(shè)人像的關(guān)鍵點(diǎn)數(shù)據(jù);
53、獲取所述預(yù)設(shè)人像的身高和體重;
54、基于所述關(guān)鍵點(diǎn)數(shù)據(jù)、所述預(yù)設(shè)人像的身高和體重,構(gòu)建三維人體模型;
55、對所述三維人體模型進(jìn)行投影,得到所述樣本參考圖像。
56、在一示例性的實(shí)施方式中,所述控制模型包括特征提取器和融合控制模型,所述訓(xùn)練模塊,被配置為執(zhí)行:
57、將所述樣本參考圖像輸入所述特征提取器進(jìn)行特征提取,得到樣本圖像特征;
58、將所述樣本圖像特征輸入所述融合控制模型進(jìn)行特征融合,得到所述樣本圖像引導(dǎo)特征。
59、在一示例性的實(shí)施方式中,所述特征提取器包括預(yù)訓(xùn)練的圖像編碼器和映射組件,所述映射組件用于將圖像特征空間的信息映射到文本特征空間;所述訓(xùn)練模塊,被配置為執(zhí)行:
60、將所述樣本參考圖像輸入所述圖像編碼器進(jìn)行圖像編碼,得到樣本圖像編碼;
61、將所述樣本圖像編碼輸入所述映射組件進(jìn)行信息映射,得到所述樣本圖像特征;
62、所述基于所述預(yù)測圖像,調(diào)整所述控制模型的參數(shù),包括:
63、在凍結(jié)所述圖像編碼器的參數(shù)的情況下,基于所述預(yù)測圖像,調(diào)整所述映射組件和所述融合控制模型的參數(shù)。
64、在一示例性的實(shí)施方式中,所述訓(xùn)練模塊,被配置為執(zhí)行:
65、將所述樣本圖像特征輸入所述融合控制模型的至少一個網(wǎng)絡(luò)層進(jìn)行特征融合,得到每個所述網(wǎng)絡(luò)層輸出的單層引導(dǎo)特征,所述單層引導(dǎo)特征屬于所述樣本圖像引導(dǎo)特征;
66、所述將所述樣本文本特征和所述樣本圖像引導(dǎo)特征輸入所述圖像生成器進(jìn)行圖像生成,得到生成出的預(yù)測圖像,包括:
67、將每一所述單層引導(dǎo)特征輸入所述圖像生成器中對應(yīng)的網(wǎng)絡(luò)層,將所述樣本文本特征輸入所述圖像生成器中的至少一個網(wǎng)絡(luò)層,以使得所述圖像生成器通過融合所述樣本文本特征和所述樣本圖像引導(dǎo)特征生成所述預(yù)測圖像。
68、在一示例性的實(shí)施方式中,所述圖像生成器為擴(kuò)散模型,所述圖像生成器生成的預(yù)測圖像包括至少一個擴(kuò)散步數(shù)中每個擴(kuò)散步數(shù)對應(yīng)的圖像預(yù)測結(jié)果;所述訓(xùn)練模塊,被配置為執(zhí)行:
69、基于基礎(chǔ)圖像,確定所述至少一個擴(kuò)散步數(shù)中每個擴(kuò)散步數(shù)對應(yīng)的參考圖像,所述基礎(chǔ)圖像包括帶有人臉的人像,所述帶有人臉的人像符合所述樣本文本的描述,并且所述帶有人臉的人像的形態(tài)與所述樣本參考圖像一致;
70、針對所述至少一個擴(kuò)散步數(shù)中的任一擴(kuò)散步數(shù),基于所述擴(kuò)散步數(shù)對應(yīng)的參考圖像與對應(yīng)的圖像預(yù)測結(jié)果之間的差異,調(diào)整所述控制模型的參數(shù)。
71、在一示例性的實(shí)施方式中,所述訓(xùn)練模塊,被配置為執(zhí)行:
72、初始化當(dāng)前擴(kuò)散步數(shù);
73、基于預(yù)設(shè)噪聲和所述當(dāng)前擴(kuò)散步數(shù),通過融合所述樣本文本特征和所述樣本圖像引導(dǎo)特征進(jìn)行對所述預(yù)設(shè)噪聲的去噪處理,得到所述當(dāng)前擴(kuò)散步數(shù)對應(yīng)的圖像預(yù)測結(jié)果;
74、基于所述預(yù)設(shè)噪聲與所述當(dāng)前擴(kuò)散步數(shù)對應(yīng)的圖像預(yù)測結(jié)果之間的差值更新所述預(yù)設(shè)噪聲;
75、更新所述當(dāng)前擴(kuò)散步數(shù),在更新后的當(dāng)前擴(kuò)散步數(shù)小于擴(kuò)散步數(shù)閾值的情況下,重復(fù)執(zhí)行所述基于預(yù)設(shè)噪聲和所述當(dāng)前擴(kuò)散步數(shù),通過融合所述樣本文本特征和所述樣本圖像引導(dǎo)特征進(jìn)行對所述預(yù)設(shè)噪聲的去噪處理,得到所述當(dāng)前擴(kuò)散步數(shù)對應(yīng)的圖像預(yù)測結(jié)果的步驟。
76、在一示例性的實(shí)施方式中,所述融合控制模型與所述圖像生成器具備相同結(jié)構(gòu),并且所述融合控制模型的初始參數(shù)基于所述圖像生成器的參數(shù)確定。
77、根據(jù)本公開實(shí)施例的第四方面,提供一種圖像生成裝置,包括:
78、目標(biāo)數(shù)據(jù)獲取模塊,被配置為執(zhí)行獲取目標(biāo)文本和目標(biāo)參考圖像,所述目標(biāo)文本為用于描述待生成的圖像中的人像的文本內(nèi)容,所述目標(biāo)參考圖像指示待生成的圖像中的全身人像的形態(tài);
79、圖像生成模塊,被配置為執(zhí)行將所述目標(biāo)文本和所述目標(biāo)參考圖像輸入圖像生成模型,得到目標(biāo)圖像,所述目標(biāo)圖像中的全身人像包括人臉;
80、其中,所述圖像生成模型通過第一方面任意一項(xiàng)所述的圖像生成模型訓(xùn)練方法訓(xùn)練得到。
81、根據(jù)本公開實(shí)施例的第五方面,提供一種電子設(shè)備,包括:
82、處理器;
83、用于存儲所述處理器可執(zhí)行指令的存儲器;
84、其中,所述處理器被配置為執(zhí)行所述指令,以實(shí)現(xiàn)如上述任一實(shí)施方式所述的圖像生成模型訓(xùn)練方法或圖像生成方法。
85、根據(jù)本公開實(shí)施例的第四方面,提供一種計(jì)算機(jī)存儲介質(zhì),當(dāng)所述計(jì)算機(jī)存儲介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時,使得所述電子設(shè)備執(zhí)行上述任一實(shí)施方式中所述的圖像生成模型訓(xùn)練方法或圖像生成方法。
86、根據(jù)本公開實(shí)施例的第六方面,提供一種計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)上述任一種實(shí)施方式中所述的圖像生成模型訓(xùn)練方法或圖像生成方法。
87、本公開的實(shí)施例提供的技術(shù)方案至少帶來以下有益效果:
88、本公開實(shí)施例可以使用預(yù)訓(xùn)練的圖像生成器和文本編碼器,構(gòu)成圖像生成模型的基礎(chǔ)骨架,通過額外訓(xùn)練圖像生成模型中的控制模型,使得訓(xùn)練得到的圖像生成模型具備根據(jù)用于描述待生成的圖像中的人像的文本內(nèi)容和用于描述待生成的圖像中的全身人像的形態(tài)的圖像即可直接生成帶有人臉的全身人像的圖像生成能力。
89、在訓(xùn)練階段,直接使用指示待生成的圖像中的全身人像的形態(tài)的樣本參考圖像引入全身人像形態(tài)控制信號,從而使得控制模型可以引導(dǎo)圖像生成器直接生成包括全身人像的圖像,而無需如相關(guān)技術(shù)一般只能生成半身人像再依賴擴(kuò)圖才能形成全身人像,提升全身人像的生成效率和生成質(zhì)量。使用樣本文本和樣本參考圖像可以為圖像生成器引入全身人像形態(tài)控制信號和用于描述人像的文本信號,使得圖像生成器生成出的帶有人臉的人像更為逼真,各個部位更加連貫,具備高質(zhì)量和形態(tài)可控的顯著優(yōu)勢,滿足用戶生成任意人像和人像形態(tài)任意設(shè)置的需求,并且生成的帶有人臉的全身人像逼真生動。
90、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。