本發(fā)明涉及機(jī)器學(xué)習(xí),尤其涉及一種針對(duì)大語(yǔ)言模型推薦系統(tǒng)場(chǎng)景的雙邊公平方法。
背景技術(shù):
1、近年來(lái),隨著互聯(lián)網(wǎng)迅速普及,數(shù)據(jù)量與日俱增。面對(duì)海量數(shù)據(jù)難以處理的情況下,推薦系統(tǒng)應(yīng)運(yùn)而生。推薦系統(tǒng)幾乎覆蓋我們生活的方方面面,從電子商務(wù)、多媒體到教育課程的選擇。推薦系統(tǒng)通過(guò)用戶的歷史交互信息估計(jì)用戶的興趣和偏好,為其提供個(gè)性化的推薦內(nèi)容,從而提高推薦的效率和準(zhǔn)確性。盡管推薦系統(tǒng)已經(jīng)是人工智能實(shí)踐最成功的案例之一,但有工作指出,推薦系統(tǒng)仍然存在不同類(lèi)型的公平問(wèn)題。一部分工作關(guān)注的是項(xiàng)目的不公平問(wèn)題,重點(diǎn)關(guān)注的是推薦中的流行度偏見(jiàn),即受歡迎的項(xiàng)目會(huì)比不太受歡迎的項(xiàng)目獲得更多的曝光機(jī)會(huì)。這一問(wèn)題主要來(lái)源于在模型訓(xùn)練時(shí),受歡迎的項(xiàng)目會(huì)因?yàn)楸炔惶軞g迎的項(xiàng)目具有更多的交互數(shù)據(jù)而獲得更多的關(guān)注,因此模型可能會(huì)更加傾向于推薦這些產(chǎn)品;另一部分工作比較關(guān)注的是用戶方的不公平問(wèn)題,這里按照用戶在系統(tǒng)中的活躍程度將用戶劃分為:活躍用戶組和不活躍用戶組。通常情況下,系統(tǒng)在活躍用戶上的效果要優(yōu)于不活躍用戶,這可能與訓(xùn)練模型時(shí),與平臺(tái)互動(dòng)更頻繁的用戶將比那些交互不頻繁的用戶產(chǎn)生更多的交互數(shù)據(jù),因此模型會(huì)更加關(guān)注且了解這部分用戶的偏好。這種因?yàn)閿?shù)據(jù)異構(gòu)造成的物品曝光差異和用戶性能差異等區(qū)別性待遇會(huì)產(chǎn)生個(gè)人經(jīng)濟(jì)差異,甚至放大模型中的固有偏見(jiàn)。
2、為了更好的區(qū)分這些不公平問(wèn)題,現(xiàn)有研究工作按研究對(duì)象將它們劃分為:用戶公平、項(xiàng)目公平和雙邊公平。其中,用戶公平分為個(gè)體公平和群體公平。前者強(qiáng)調(diào)模型平等地關(guān)注每個(gè)用戶個(gè)性化偏好,后者強(qiáng)調(diào)不同屬性用戶群體之間應(yīng)獲得模型同樣的對(duì)待?,F(xiàn)有工作大多采用添加正則項(xiàng)和約束優(yōu)化、平衡數(shù)據(jù)集等方法;項(xiàng)目公平同樣有個(gè)體公平和群體公平之分,通常反應(yīng)在個(gè)體和群體在推薦列表中的占比情況。大部分工作通過(guò)提出新的公平重排算法、強(qiáng)化學(xué)習(xí)來(lái)實(shí)現(xiàn);而雙邊公平指的是同時(shí)考慮用戶公平和項(xiàng)目公平,目前的工作采用添加正則化和約束項(xiàng)居多。
3、隨著大語(yǔ)言模型的迅速發(fā)展,越來(lái)越多的研究開(kāi)始探討其與推薦系統(tǒng)的結(jié)合,催生了大語(yǔ)言模型推薦系統(tǒng)的出現(xiàn)。這類(lèi)推薦系統(tǒng)具備更強(qiáng)的理解和生成能力,不僅能夠基于用戶的行為數(shù)據(jù)進(jìn)行推薦,還能通過(guò)自然語(yǔ)言處理和對(duì)話建模等技術(shù)深入挖掘用戶需求,從而生成更加個(gè)性化的推薦。然而,與傳統(tǒng)推薦系統(tǒng)相比,大語(yǔ)言模型推薦系統(tǒng)中的公平性問(wèn)題更加復(fù)雜。大語(yǔ)言模型能夠通過(guò)理解用戶的多輪對(duì)話、情感傾向、語(yǔ)言表達(dá)等信息來(lái)生成個(gè)性化推薦。這種靈活的建模方法為非活躍用戶提供了更多的推薦可能性,因?yàn)榧词谷狈ψ銐虻男袨閿?shù)據(jù),模型也能通過(guò)語(yǔ)言和上下文推斷用戶興趣。然而,由于大語(yǔ)言模型依賴于訓(xùn)練數(shù)據(jù),可能會(huì)導(dǎo)致某些用戶群體(如非活躍用戶或冷啟動(dòng)用戶)在推薦質(zhì)量上較差,或者某些用戶特征被過(guò)度擬合,從而引發(fā)不公平現(xiàn)象。此外,大語(yǔ)言模型通常能夠綜合分析用戶的歷史數(shù)據(jù)、當(dāng)前上下文以及項(xiàng)目的文本描述(例如商品信息、電影劇情等),為每個(gè)用戶生成個(gè)性化的推薦。然而,項(xiàng)目的曝光問(wèn)題仍然存在。由于受歡迎的項(xiàng)目通常擁有更多的交互數(shù)據(jù)和廣泛的受眾基礎(chǔ),它們往往會(huì)被優(yōu)先推薦,可能導(dǎo)致不受歡迎的項(xiàng)目無(wú)法獲得足夠的關(guān)注,從而限制了推薦系統(tǒng)的多樣性。
4、雖然已經(jīng)開(kāi)展了許多有關(guān)大語(yǔ)言模型推薦系統(tǒng)的研究,但是這些工作更加關(guān)注性能的提升,特別是在推薦準(zhǔn)確度、個(gè)性化推薦質(zhì)量以及系統(tǒng)的響應(yīng)速度方面。只有個(gè)別工作關(guān)注到大語(yǔ)言模型推薦系統(tǒng)中存在與傳統(tǒng)推薦系統(tǒng)一樣的公平問(wèn)題,而這些工作也僅僅只關(guān)注到用戶公平或項(xiàng)目公平中的一種,缺乏對(duì)雙邊公平問(wèn)題的研究。因此,如何設(shè)計(jì)一種可以同時(shí)緩解大語(yǔ)言模型推薦系統(tǒng)中用戶公平和項(xiàng)目公平問(wèn)題的雙邊公平方法,成為本領(lǐng)域亟待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題,本發(fā)明提出了一種針對(duì)大語(yǔ)言模型推薦系統(tǒng)場(chǎng)景的雙邊公平方法,能夠在保持大語(yǔ)言模型推薦系統(tǒng)整體性能的前提下,有效緩解推薦系統(tǒng)的雙邊公平問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種針對(duì)大語(yǔ)言模型推薦系統(tǒng)場(chǎng)景的雙邊公平方法,包括:
3、收集用戶行為數(shù)據(jù)與項(xiàng)目數(shù)據(jù),其中,所述用戶行為數(shù)據(jù)包括用戶對(duì)項(xiàng)目的交互信息,所述項(xiàng)目數(shù)據(jù)包括每個(gè)項(xiàng)目的詳細(xì)信息;
4、對(duì)所述用戶行為數(shù)據(jù)與項(xiàng)目數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,分別生成用戶的初步嵌入、項(xiàng)目的初步嵌入以及相似用戶嵌入;
5、利用大語(yǔ)言模型生成用戶的增強(qiáng)嵌入和項(xiàng)目的增強(qiáng)嵌入;
6、將所述用戶的初步嵌入、所述相似用戶嵌入與所述用戶的增強(qiáng)嵌入進(jìn)行融合,生成融合用戶嵌入,將所述項(xiàng)目的初步嵌入與所述項(xiàng)目的增強(qiáng)嵌入進(jìn)行融合,生成融合項(xiàng)目嵌入;
7、對(duì)所述融合用戶嵌入和所述融合項(xiàng)目嵌入進(jìn)行點(diǎn)積運(yùn)算,獲得推薦得分,引入交互次數(shù)懲罰因子對(duì)所述推薦得分進(jìn)行處理,獲得加權(quán)后的推薦得分;
8、通過(guò)雙邊公平性優(yōu)化策略對(duì)所述加權(quán)后的推薦得分進(jìn)行處理,生成最終的推薦列表。
9、優(yōu)選地,生成所述用戶的初步嵌入、所述項(xiàng)目的初步嵌入,包括:
10、使用協(xié)同過(guò)濾方法分別對(duì)每個(gè)用戶行為數(shù)據(jù)和項(xiàng)目數(shù)據(jù)進(jìn)行處理,獲得所述用戶的初步嵌入和項(xiàng)目的初步嵌入。
11、優(yōu)選地,生成所述相似用戶嵌入,包括:
12、通過(guò)計(jì)算所述用戶行為數(shù)據(jù)之間的相似度,生成所述相似用戶嵌入,具體為:
13、
14、式中,為相似用戶嵌入,ui表示用戶i,uj表示用戶j,sim(ui,uj)表示用戶ui與uj之間的相似度,為用戶uj的初步嵌入,top-k(ui)表示與用戶ui最相似的k個(gè)用戶。
15、優(yōu)選地,采用加權(quán)平均方法或拼接方法生成所述融合用戶嵌入、所述融合項(xiàng)目嵌入;
16、其中,所述加權(quán)平均方法為:
17、
18、式中,α,β,γ和α′,β′均為超參數(shù),為融合用戶嵌入,為用戶ui的初步嵌入,為相似用戶嵌入,為用戶ui的增強(qiáng)嵌入,為融合項(xiàng)目嵌入,為項(xiàng)目ij的初步嵌入,為項(xiàng)目ij的增強(qiáng)嵌入;
19、所述拼接方法為:
20、
21、式中,concat表示將多個(gè)嵌入向量拼接成一個(gè)更大的嵌入。
22、優(yōu)選地,所述交互次數(shù)懲罰因子為:
23、
24、式中,cj表示項(xiàng)目ij被所有用戶交互的次數(shù),cmin和cmax分別表示所有項(xiàng)目被交互次數(shù)的最小值和最大值,pj為交互次數(shù)懲罰因子,δ為縮放因子。
25、優(yōu)選地,獲得所述加權(quán)后的推薦得分,包括:
26、yi′j=y(tǒng)ij·pj;
27、式中,yij表示用戶ui對(duì)項(xiàng)目ij的原始推薦得分,yi′j為加權(quán)后的推薦得分。
28、優(yōu)選地,所述雙邊公平性優(yōu)化策略包括:
29、對(duì)用戶不公平指標(biāo)以及項(xiàng)目曝光不公平指標(biāo)進(jìn)行量化,綜合考慮推薦得分、用戶公平性和項(xiàng)目曝光公平性,獲得多目標(biāo)優(yōu)化函數(shù);
30、其中,所述多目標(biāo)優(yōu)化函數(shù)為:
31、
32、式中,λ1和λ2均為調(diào)節(jié)系數(shù),用于平衡得分最大化和公平性優(yōu)化之間的關(guān)系,為多目標(biāo)優(yōu)化函數(shù),δndcg為活躍用戶組和非活躍用戶組之間的性能指標(biāo)差異,δexposure為熱門(mén)項(xiàng)目和冷門(mén)項(xiàng)目在推薦列表中的曝光差異,yi′j為加權(quán)后的推薦得分,n為用戶數(shù)量,m為項(xiàng)目數(shù)量。
33、優(yōu)選地,對(duì)用戶不公平指標(biāo)進(jìn)行量化包括:
34、δndcg=|ndcg(uactive)-ndcg(uinactive)|;
35、式中,ndcg(uactive)和ndcg(uinactive)分別表示活躍用戶和非活躍用戶的ndcg值;
36、對(duì)項(xiàng)目曝光不公平指標(biāo)進(jìn)行量化包括:
37、δexposure=|exposurepopular-exposurecold|;
38、式中,exposurepopular和exposurecold分別表示熱門(mén)項(xiàng)目和冷門(mén)項(xiàng)目在推薦列表中的占比情況。
39、優(yōu)選地,所述最終的推薦列表為:
40、
41、式中,為用戶ui的最終推薦列表,包含了公平性優(yōu)化后的項(xiàng)目;rank()為排序函數(shù)。
42、與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn)和技術(shù)效果:
43、(1)本發(fā)明通過(guò)引入用戶公平性和項(xiàng)目公平性的雙邊優(yōu)化策略,有效緩解了推薦系統(tǒng)中的偏差問(wèn)題。相比傳統(tǒng)方法,本方法能夠精準(zhǔn)識(shí)別并調(diào)節(jié)不公平現(xiàn)象,確保不同用戶群體和項(xiàng)目類(lèi)別都能公平參與推薦過(guò)程。在多樣性與公平性之間實(shí)現(xiàn)了顯著的平衡,提高了用戶對(duì)系統(tǒng)的信任感與滿意度,有助于平臺(tái)的長(zhǎng)期健康發(fā)展;
44、(2)本發(fā)明結(jié)合協(xié)同過(guò)濾嵌入和大語(yǔ)言模型嵌入,提出了一種更具表達(dá)能力的嵌入生成方式,將用戶行為與項(xiàng)目文本信息有機(jī)融合。通過(guò)增加相似用戶嵌入,進(jìn)一步挖掘了用戶潛在偏好,使推薦結(jié)果更加多樣準(zhǔn)確。此外,在推薦列表生成過(guò)程中,設(shè)計(jì)了以交互次數(shù)為懲罰因子的重排算法,減少了熱門(mén)項(xiàng)目的過(guò)度偏向,從而提升了冷門(mén)項(xiàng)目曝光機(jī)會(huì),在保證推薦質(zhì)量的同時(shí)增強(qiáng)了推薦多樣性;
45、(3)本發(fā)明采用多目標(biāo)優(yōu)化方法,將推薦得分最大化與雙邊公平性優(yōu)化相結(jié)合,通過(guò)調(diào)節(jié)超參數(shù)權(quán)重靈活適配不同場(chǎng)景需求。該方法不僅能動(dòng)態(tài)權(quán)衡推薦質(zhì)量與公平性,還具備較強(qiáng)的可擴(kuò)展性,適用于各類(lèi)推薦系統(tǒng)的部署。通過(guò)這種優(yōu)化機(jī)制,平臺(tái)能夠在滿足用戶個(gè)性化需求的同時(shí),確保推薦系統(tǒng)具有更高的健壯性和公正性,從而提升整體用戶體驗(yàn)和生態(tài)系統(tǒng)活力。