成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

一種面向車載邊緣計算的分布式服務(wù)遷移方法

文檔序號:41843393發(fā)布日期:2025-05-09 18:02閱讀:5來源:國知局
一種面向車載邊緣計算的分布式服務(wù)遷移方法

本發(fā)明涉及車載邊緣計算,尤其涉及一種面向車載邊緣計算的分布式服務(wù)遷移方法。


背景技術(shù):

1、近年來,隨著5g網(wǎng)絡(luò)、自動駕駛和智能交通系統(tǒng)的發(fā)展,現(xiàn)代車輛配備了大量傳感器和電子設(shè)備,產(chǎn)生海量數(shù)據(jù)用于障礙物檢測、路徑規(guī)劃、駕駛輔助等實時應(yīng)用。然而,由于數(shù)據(jù)傳輸延遲等限制,傳統(tǒng)云計算架構(gòu)難以滿足車輛用戶對實時性的需求,因此車載邊緣計算(vehicle?edge?computing,vec)應(yīng)運而生。vec將計算資源和數(shù)據(jù)存儲下沉至靠近數(shù)據(jù)源的邊緣服務(wù)器,車輛用戶可將服務(wù)部署在邊緣節(jié)點上處理任務(wù)請求,從而降低服務(wù)響應(yīng)延遲。然而vec仍面臨著許多挑戰(zhàn)。其中一個比較關(guān)鍵的技術(shù)就是動態(tài)服務(wù)遷移。邊緣服務(wù)器的覆蓋范圍有限,車輛用戶的移動性導(dǎo)致車輛與服務(wù)所在的服務(wù)器距離逐漸增大,用戶和用戶服務(wù)之間的通信可能會經(jīng)過多跳,為了保證服務(wù)質(zhì)量,需要將服務(wù)動態(tài)遷移到更合適的邊緣服務(wù)器上,但是頻繁遷移服務(wù)可能會增加遷移成本??紤]到用戶的移動性和任務(wù)請求的動態(tài)性,在遷移成本和傳輸延遲之間進行權(quán)衡,做出最佳決策是一個挑戰(zhàn)。

2、早期的研究工作在將服務(wù)遷移決策建模為馬爾可夫決策過程,并采用基于深度強化學(xué)習(xí)的集中式算法求解。這些方案需要一個中心決策控制器(往往是云中心)獲取完整的系統(tǒng)級信息,然而車載邊緣計算是一個分布式環(huán)境,邊緣網(wǎng)絡(luò)的延遲、帶寬和可靠性條件難以滿足集中收集遷移算法所需整體信息的需求,在實際應(yīng)用中,每個服務(wù)器往往只能獲取當(dāng)前部分服務(wù)用戶的信息。近期研究開始利用多智能體深度強化學(xué)習(xí)進行分布式?jīng)Q策,但是由于環(huán)境信息部分可觀測性,決策智能體缺乏全局視圖,往往做出次優(yōu)決策,并且制定策略涉及的狀態(tài)信息包括多個維度和大量用戶,導(dǎo)致的狀態(tài)信息的高維性和復(fù)雜性會使算法難以提取關(guān)鍵特征。同時,在vec環(huán)境中每個基站的負(fù)載、所部署的用戶以及它所能提供的服務(wù)能力都不盡相同,然而在服務(wù)遷移問題中智能體往往共享相同的獎勵,導(dǎo)致所有基站的智能體可能會學(xué)習(xí)到類似的策略,導(dǎo)致遷移決策不合理,效率低下。由于存在這些問題,本發(fā)明提出了一種車載邊緣計算的分布式服務(wù)遷移方法,通過引入循環(huán)神經(jīng)網(wǎng)絡(luò)、多頭注意力機制和角色表示,優(yōu)化深度強化學(xué)習(xí)模型,提取關(guān)鍵狀態(tài)特征并解決智能體同質(zhì)化問題。


技術(shù)實現(xiàn)思路

1、本發(fā)明的主要內(nèi)容是提出一種面向車載邊緣計算的分布式服務(wù)遷移方法,適用于部分可觀測的車載邊緣計算環(huán)境下,基于注意力引導(dǎo)的對比角色表示方法,是一種面向車載邊緣計算、基于對比角色表示和多智能體深度強化學(xué)習(xí)的分布式服務(wù)遷移決策算法。

2、本發(fā)明的技術(shù)方案如下:一種面向車載邊緣計算的分布式服務(wù)遷移方法,建立三層異構(gòu)車載邊緣計算環(huán)境,在所述三層異構(gòu)車載邊緣計算環(huán)境下,通過基于改進的多智能體深度強化學(xué)習(xí)算法得到分布式服務(wù)遷移方案;

3、所述三層異構(gòu)車載邊緣計算環(huán)境的各實體分為云中心層、邊緣層和用戶層;用戶層負(fù)責(zé)生成任務(wù)并優(yōu)先將其卸載到附近的邊緣節(jié)點,降低延遲;邊緣節(jié)點層負(fù)責(zé)在本地處理任務(wù);云中心層提供全局優(yōu)化支持,確保整個系統(tǒng)的高效性和可靠性;

4、所述基于改進的多智能體深度強化學(xué)習(xí)算法,將優(yōu)化目標(biāo)建模為去中心化部分可觀測馬爾可夫決策過程;所述基于改進的多智能體深度強化學(xué)習(xí)算法為基于改進的qmix算法,構(gòu)造一種分布式服務(wù)遷移策略,使每個智能體基于局部信息和共享角色信息完成服務(wù)遷移決策;根據(jù)智能體歷史軌跡信息為局部q網(wǎng)絡(luò)和混合網(wǎng)絡(luò)構(gòu)建智能體行為狀態(tài)軌跡嵌入,捕捉時間相關(guān)的行為模式,解決部分可觀測性問題,進一步使用基于對比學(xué)習(xí)的角色編碼器提取不同智能體的獨特行為模式生成角色表示,以捕獲智能體行為的長期特征;在混合網(wǎng)絡(luò)中引入多頭注意力機制,動態(tài)分配注意力權(quán)重。

5、進一步地,所述基于改進的多智能體深度強化學(xué)習(xí)算法具體為:

6、(1)構(gòu)建決策變量和優(yōu)化目標(biāo)模型:采取分布式?jīng)Q策方式,將每個邊緣節(jié)點作為決策機構(gòu),在每個時隙為其承載的服務(wù)實例做出遷移決策,即遷移服務(wù)的目標(biāo)服務(wù)器,最大程度降低用戶服務(wù)響應(yīng)成本;

7、1)決策變量:定義變量αu(t)∈{0,…,|m|}表示用戶u的服務(wù)實例在時隙t遷移的目標(biāo)服務(wù)器;所有用戶t時刻的目標(biāo)服務(wù)器集合如下式所示;

8、α(t)={α1(t),…,α|u|(t)}????(1)

9、αu(t)=m∈m,表示時隙t時用戶u的服務(wù)實例遷移的目標(biāo)服務(wù)器為m,同時更新服務(wù)部署變量pu,m(t)=1;

10、2)優(yōu)化目標(biāo):針對三層異構(gòu)車載邊緣環(huán)境中的服務(wù)遷移問題,最終所需實現(xiàn)的目標(biāo)為最小化所有任務(wù)的時延和能耗的加權(quán)和,即成本和;優(yōu)化目標(biāo)函數(shù)定義如下式所示;

11、

12、公式(2)表示基于服務(wù)遷移決策最小化所有用戶的長期響應(yīng)成本,包括服務(wù)請求上傳的成本服務(wù)請求轉(zhuǎn)發(fā)的成本訪問請求計算的成本和服務(wù)遷移的成本α(t)是邊緣節(jié)點為所有車輛用戶在t時隙做出的遷移決策;每個用戶服務(wù)的遷移目標(biāo)只能是環(huán)境中的邊緣服務(wù)器;每個用戶在某一時隙只能連接一個基站,其服務(wù)實例也只能部署在一個邊緣服務(wù)器上;分配給用戶的計算資源不能超過服務(wù)器的總資源限度。

13、進一步地,所述改進的qmix算法中智能體為邊緣節(jié)點,觀測為智能體在每個時隙接收的所有任務(wù)信息、用戶當(dāng)前的位置、服務(wù)器承載的服務(wù)數(shù)量,狀態(tài)為全體智能體的聯(lián)合觀測狀態(tài),動作為邊緣節(jié)點每個時隙為用戶服務(wù)做出的遷移決策;對qmix算法中的局部q網(wǎng)絡(luò)和混合網(wǎng)絡(luò)進行以下改進,得到改進的局部q網(wǎng)絡(luò)和改進的混合網(wǎng)絡(luò)。

14、進一步地,所述改進的局部q網(wǎng)絡(luò)為通過構(gòu)建智能體行為軌跡嵌入模塊和智能體角色表示模塊重構(gòu)qmix算法的局部q網(wǎng)絡(luò);

15、在每個時隙t,每個智能體m將當(dāng)前觀測om(t)和上一時隙的動作am(t-1)輸入至一個全連接神經(jīng)網(wǎng)絡(luò)進行初步的特征提取,所提取的特征以及上一時隙的智能體行為軌跡嵌入em(t-1)輸入至智能體行為軌跡嵌入模塊,生成當(dāng)前時隙的智能體行為軌跡嵌入em(t);將所述智能體行為軌跡嵌入em(t)輸入至智能體角色表示模塊中,生成當(dāng)前智能體的角色表示zm(t);最后將該角色表示與之前生成的智能體行為軌跡嵌入em(t)輸入一個全連接層,得到該智能體局部q網(wǎng)絡(luò)基于當(dāng)前觀測的q值。

16、進一步地,所述智能體行為軌跡嵌入模塊具體為:在每個智能體m的局部q網(wǎng)絡(luò)中,基于門控循環(huán)單元gru對智能體行為軌跡{(o1,a0),…,(o|t|,a|t|-1)}進行編碼,得到智能體行為軌跡嵌入;智能體m在得到觀測和動作后,結(jié)合智能體行為軌跡嵌入模塊中g(shù)ru網(wǎng)絡(luò)生成的上一步的隱藏狀態(tài)em(t-1)生成當(dāng)前的隱藏狀態(tài)em(t);em(t)即智能體m的行為軌跡嵌入;em(t)的計算公式如下;

17、em(t)=fφ(om(t),am(t-1),em(t-1))????(3)

18、其中,φ表示智能體的共享gru編碼器,om(t)表示智能體m的當(dāng)前觀測,am(t-1)表示智能體m上一次的動作,em(t-1)是gru上一次的隱藏狀態(tài)。

19、進一步地,所述智能體角色表示模塊具體為:

20、a)角色表示定義方式:協(xié)作多智能體任務(wù)中,每個智能體m∈m都與一個角色rolem∈role相關(guān)聯(lián),所述角色用于描述智能體的行為模式;角色rolem的行為模式通過一個角色表示zm∈z來進行量化,表示通過訓(xùn)練一個角色編碼器f得到,如下式所示;

21、zm=f(ωm)????(4)

22、其中,ωm是智能體m的行為軌跡,即該智能體在整個時間段內(nèi)的觀測和動作序列;行為軌跡ωm包括智能體在不同狀態(tài)下的決策行為及其與環(huán)境的交互;由智能體行為軌跡嵌入模塊獲取的智能體行為軌跡嵌入之間的距離作為量化智能體角色表示的指標(biāo);通過智能體局部軌跡在引入角色表示z之后,進一步改進智能體m的個體策略如下式所示;

23、

24、其中,o表示智能體的觀測;a表示智能體的動作;z表示智能體的角色表示;在此背景下,個體策略不僅考慮智能體的當(dāng)前局部觀測和動作,還結(jié)合角色表示zm提供的行為模式信息;

25、b)角色表示判別方式:引入互信息最大化的機制用于形式化角色表示的學(xué)習(xí),通過infonce推導(dǎo)出一個對比學(xué)習(xí)目標(biāo);所述對比學(xué)習(xí)目標(biāo)以自監(jiān)督的方式優(yōu)化每個智能體的角色編碼器,所述角色編碼器將智能體行為軌跡嵌入{e1,…,em}編碼,最終得到每個智能體合適的角色表示{z1,…,zm};

26、具體做法為根據(jù)智能體行為軌跡嵌入將所有智能體定期劃分為k個簇,對于智能體m,通過一個角色編碼器θq生成其角色表示zm,并設(shè)為查詢向量q;通過一個動量編碼器θk生成其他智能體的角色表示,作為鍵與智能體m處于同一個簇的智能體角色表示被視為正鍵{k+},其他智能體角色表示被視為負(fù)鍵使用雙線性乘積構(gòu)造相似度得分函數(shù),查詢和鍵之間的相似度計算為其中w是一個可學(xué)習(xí)的參數(shù)矩陣,最終可得到infonce損失函數(shù)如下式所示,對比學(xué)習(xí)目標(biāo)為最小化該損失函數(shù);

27、

28、在訓(xùn)練時,角色編碼器通過反向傳播進行更新;動量編碼器由于需要生成穩(wěn)定的樣本,因此采用動量更新的方式進行更新,公式如下所示;

29、θk←βθk+(1-β)θq????(7)

30、其中,β∈[0,1)是動量系數(shù)。

31、進一步地,所述改進的混合網(wǎng)絡(luò)為通過構(gòu)建智能體狀態(tài)軌跡嵌入模塊和多頭注意力模塊重構(gòu)qmix算法的混合網(wǎng)絡(luò);在每個時隙t,將智能體全局狀態(tài)s(t)經(jīng)過一個全連接層處理后與上一時隙的智能體狀態(tài)軌跡嵌入τ(t-1)一同輸入至智能體狀態(tài)軌跡嵌入模塊,得到本時隙的狀態(tài)軌跡嵌入τ(t);將本時隙的狀態(tài)軌跡嵌入τ(t)和全體智能體當(dāng)前的角色表示z(t)輸入至多頭注意力模塊,得到多頭注意力模塊的混合輸出τmha(t);將輸出τmha(t)與全局狀態(tài)s(t)拼接,與全體智能體的局部q值一起輸入qmix原混合網(wǎng)絡(luò)的超網(wǎng)絡(luò)中,計算出一組動態(tài)權(quán)重,用于對每個智能體的局部q值進行加權(quán)求和,最終得到全局q值。

32、進一步地,所述智能體狀態(tài)軌跡嵌入模塊基于門控循環(huán)單元gru對包含所有智能體觀測的歷史全局狀態(tài){s0,…,st}進行編碼,得到智能體狀態(tài)軌跡嵌入;智能體狀態(tài)軌跡嵌入模塊在得到當(dāng)前時刻的全局狀態(tài)后,結(jié)合該模塊中g(shù)ru網(wǎng)絡(luò)生成的上一時刻的隱藏狀態(tài)τ(t-1)作為輸入,生成當(dāng)前時刻的隱藏狀態(tài)τ(t);τ(t)即智能體的狀態(tài)軌跡嵌入;τ(t)的計算公式如下;

33、τ(t)=fφ(s(t),τ(t-1))????(8)

34、其中,φ表示全局狀態(tài)的gru編碼器,s(t)表示所有智能體的當(dāng)前全局狀態(tài),τ(t-1)是gru上一次的隱藏狀態(tài)。

35、進一步地,所述多頭注意力模塊具體為:將狀態(tài)軌跡嵌入τ設(shè)置為多頭注意力機制的查詢,將角色表示z設(shè)置為多頭注意力機制的鍵和值,角色表示的加權(quán)組合τatten如下式所示;

36、

37、其中,μm是通過共享參數(shù)矩陣wv對zm的線性變換得到的;注意力權(quán)重計算狀態(tài)軌跡嵌入τ和第m個智能體的角色表示zm之間的相關(guān)性,應(yīng)用一個softmax函數(shù)來獲得權(quán)重如下式所示;

38、

39、其中,wq和wk是用于查詢-鍵對線性變換的共享參數(shù)矩陣,是縮放點積注意力的因子;使用多頭注意力來使混合網(wǎng)絡(luò)同時關(guān)注來自不同表示子空間的位置信息,并將聚合后的輸出表示如下;

40、

41、其中,是使用whq、whk和whv的投影計算出的注意力輸出,h∈h={1,…,|h}表示多頭注意力機制的頭數(shù),wo是結(jié)合所有頭輸出的參數(shù)矩陣;最后,多頭注意力輸出與全局狀態(tài)結(jié)合,生成混合網(wǎng)絡(luò)的權(quán)重。

42、本發(fā)明的有益效果:與現(xiàn)有車載邊緣計算系統(tǒng)中的分布式服務(wù)遷移算法相比,本發(fā)明將邊緣節(jié)點建模為智能體,并基于改進的qmix算法進行車輛用戶的服務(wù)遷移決策。為了提升決策質(zhì)量,本發(fā)明對qmix算法進行了改進:在局部q網(wǎng)絡(luò)中引入了智能體行為軌跡嵌入模塊和角色表示模塊,在混合網(wǎng)絡(luò)中則引入了智能體狀態(tài)軌跡嵌入模塊和多頭注意力機制。智能體行為軌跡嵌入模塊和智能體狀態(tài)軌跡嵌入模塊通過利用智能體的局部觀測和全局狀態(tài)的歷史信息,有效捕捉了服務(wù)遷移決策中的長期依賴性,緩解了因部分可觀測性導(dǎo)致的多智能體協(xié)作不足問題。角色表示模塊則通過學(xué)習(xí)智能體的緊湊角色表示,使得智能體能夠根據(jù)自身資源條件和歷史行為進行更加靈活的決策,從而避免了多智能體系統(tǒng)中的決策同質(zhì)化問題。此外,混合網(wǎng)絡(luò)中的多頭注意力機制能夠在面對高維復(fù)雜狀態(tài)空間時,篩選出最關(guān)鍵的信息,減少不相關(guān)信息的干擾,從而實現(xiàn)精準(zhǔn)的狀態(tài)空間壓縮。該機制有效融合了qmix中的全局和局部信息,進一步提升了多智能體系統(tǒng)的協(xié)作能力。經(jīng)過與基線算法的對比實驗,本算法在收斂性和獎勵表現(xiàn)上均優(yōu)于基線,并成功降低了用戶服務(wù)響應(yīng)成本。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1