本發(fā)明涉及強(qiáng)化學(xué)習(xí),具體而言,涉及一種基于注意力機(jī)制的深度強(qiáng)化學(xué)習(xí)集群對抗方法和系統(tǒng)。
背景技術(shù):
1、隨著人工智能技術(shù)的發(fā)展,多智能體系統(tǒng)(multi-agent?systems,?mas)在復(fù)雜環(huán)境下的應(yīng)用越來越廣泛。特別是在軍事模擬、網(wǎng)絡(luò)安全、機(jī)器人競賽等領(lǐng)域,多智能體系統(tǒng)需要處理大量的動態(tài)信息,進(jìn)行高效的協(xié)同作戰(zhàn)和任務(wù)分配。傳統(tǒng)的多智能體系統(tǒng)往往依賴于手工設(shè)計(jì)的規(guī)則和策略,難以適應(yīng)高度動態(tài)和不確定的環(huán)境。
2、近年來,深度強(qiáng)化學(xué)習(xí)(deep?reinforcement?learning,?drl)因其自學(xué)習(xí)能力和序列決策能力,在多智能體系統(tǒng)中得到了廣泛應(yīng)用。然而,標(biāo)準(zhǔn)的drl算法在處理大規(guī)模多智能體系統(tǒng)時(shí)面臨諸多挑戰(zhàn),主要包括狀態(tài)空間的指數(shù)級增長和智能體之間的協(xié)調(diào)難題。特別是在高動態(tài)的復(fù)雜對抗環(huán)境中,不同陣營和類型的多智能體與環(huán)境進(jìn)行交互,這些智能體具有不同的輸入維度和物理意義,進(jìn)一步增加了傳統(tǒng)drl算法的處理難度。為了解決這些問題,研究者們提出了多種改進(jìn)方法,其中引入注意力機(jī)制(attention?mechanism)成為提高模型適應(yīng)性和決策質(zhì)量的有效手段之一。
3、注意力機(jī)制通過動態(tài)調(diào)整智能體對環(huán)境信息的關(guān)注程度,能夠在復(fù)雜環(huán)境中快速識別和響應(yīng)關(guān)鍵事件,減少無效信息的干擾。該機(jī)制能夠有效處理不同智能體的動態(tài)輸入,提高模型的適應(yīng)性和決策質(zhì)量。然而,注意力機(jī)制對參數(shù)數(shù)量的需求較高,不適宜直接應(yīng)用于超大規(guī)模智能體的訓(xùn)練。因此,如何根據(jù)注意力機(jī)制的特點(diǎn)靈活設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),并使其適應(yīng)大規(guī)模智能體的對抗場景,成為一個(gè)重要的技術(shù)難題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例的目的在于提供一種基于注意力機(jī)制的深度強(qiáng)化學(xué)習(xí)集群對抗方法和系統(tǒng),用以實(shí)現(xiàn)智能體在動態(tài)復(fù)雜環(huán)境下的高效協(xié)同作戰(zhàn)能力。
2、第一方面,本發(fā)明提供一種基于注意力機(jī)制的深度強(qiáng)化學(xué)習(xí)集群對抗方法,所述方法包括:
3、構(gòu)建集群對抗模型,所述集群對抗模型包括智能體集群和對抗仿真場景,所述智能體集群包括多個(gè)不同陣營、不同類型的智能體,所述對抗仿真場景包括對抗仿真環(huán)境和保護(hù)點(diǎn);
4、選取所述集群對抗模型中的部分智能體及保護(hù)點(diǎn)對嵌入有注意力模塊的深度強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練;
5、基于所述智能體集群中的所有智能體進(jìn)行組別劃分,并在所有組別的各小組內(nèi)為各所述智能體選擇所屬同陣營的智能體以及所屬不同陣營的智能體,并確定各所述小組內(nèi)的保護(hù)點(diǎn);
6、將所有小組內(nèi)的智能體以及保護(hù)點(diǎn)輸入訓(xùn)練完成的深度強(qiáng)化學(xué)習(xí)模型中,輸出各所述智能體的動作信息;
7、以所述動作信息指導(dǎo)各所述智能體在所述對抗仿真環(huán)境內(nèi)進(jìn)行仿真對抗。
8、在可選的實(shí)施方式中,所述選取所述集群對抗模型中的部分智能體及保護(hù)點(diǎn)對嵌入有注意力模塊的深度強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練的步驟,包括:
9、針對所述集群對抗模型中部分智能體,基于embed函數(shù)構(gòu)建所述智能體的嵌入表示,將所述嵌入表示輸入深度強(qiáng)化學(xué)習(xí)模型的注意力模塊中;
10、基于所述注意力模塊輸出各所述智能體對應(yīng)的其他智能體的嵌入表示,并將所述智能體的嵌入表示與所述其他智能體的嵌入表示在全連接層進(jìn)行拼接并處理后得到?jīng)Q策信息;
11、基于為各所述智能體構(gòu)建的損失函數(shù)以及所述決策信息對所述深度強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,直至滿足預(yù)設(shè)停止條件時(shí)停止訓(xùn)練。
12、在可選的實(shí)施方式中,所述基于embed函數(shù)構(gòu)建所述智能體的嵌入表示的步驟,包括:
13、利用所述深度強(qiáng)化學(xué)習(xí)模型中的全連接層分別對所述智能體的觀測信息和動作信息進(jìn)行處理;
14、將所述觀測信息和動作信息的處理結(jié)果與所述智能體的所屬同陣營的智能體、所屬不同陣營的智能體以及所述保護(hù)點(diǎn)的注意力輸出結(jié)果進(jìn)行拼接;
15、利用全連接層對所述拼接結(jié)果進(jìn)行處理,得到所述智能體的嵌入表示。
16、在可選的實(shí)施方式中,所述基于所述注意力模塊輸出各所述智能體對應(yīng)的其他智能體的嵌入表示的步驟,包括:
17、針對各所述智能體,基于所述注意力模塊獲得所述智能體對應(yīng)的各其他智能體的嵌入表示;
18、基于評分函數(shù)獲得各所述其他智能體的注意力權(quán)重;
19、基于各所述其他智能體的注意力權(quán)重對所有其他智能體的嵌入表示進(jìn)行累加,得到所述智能體對應(yīng)的其他智能體的嵌入表示。
20、在可選的實(shí)施方式中,所述基于評分函數(shù)獲得各所述其他智能體的注意力權(quán)重的步驟,包括:
21、基于評分函數(shù)獲得所述智能體對各所述其他智能體的關(guān)注程度;
22、針對各所述其他智能體,根據(jù)所述智能體對該其他智能體的關(guān)注程度以及所述智能體對所有其他智能體的關(guān)注程度的累加值,得到該其他智能體的注意力權(quán)重。
23、在可選的實(shí)施方式中,所述智能體包括所屬不同陣營的紅方智能體和藍(lán)方智能體;
24、所述基于所述智能體集群中的所有智能體進(jìn)行組別劃分的步驟,包括:
25、獲得選取的所述智能體集群中的紅方智能體和藍(lán)方智能體的數(shù)量;
26、基于設(shè)置的組別內(nèi)智能體配比模式以及所述紅方智能體、藍(lán)方智能體的數(shù)量確定組別的數(shù)量以及各所述組別內(nèi)的小組的數(shù)量。
27、在可選的實(shí)施方式中,所述基于設(shè)置的組別內(nèi)智能體配比模式以及所述紅方智能體、藍(lán)方智能體的數(shù)量確定組別的數(shù)量以及各所述組別內(nèi)的小組的數(shù)量的步驟,包括:
28、基于設(shè)置的組別內(nèi)智能體配比模式確定組別的數(shù)量;
29、基于組別的數(shù)量、所述紅方智能體、藍(lán)方智能體的數(shù)量,對構(gòu)建的目標(biāo)函數(shù)進(jìn)行最小化求解,以確定各組別內(nèi)的小組的數(shù)量。
30、在可選的實(shí)施方式中,所述在所有組別的各小組內(nèi)為各所述智能體選擇所屬同陣營的智能體以及所屬不同陣營的智能體,并確定各所述小組內(nèi)的保護(hù)點(diǎn)的步驟,包括:
31、根據(jù)各所述紅方智能體的位置信息并按照組別劃分結(jié)果選擇同陣營的紅方智能體,組成多個(gè)小組;
32、基于各所述藍(lán)方智能體與各所述小組內(nèi)的紅方智能體的平均位置之間的距離確定加入各所述小組內(nèi)的藍(lán)方智能體;
33、針對各所述小組,基于所述小組內(nèi)的藍(lán)方智能體與各所述保護(hù)點(diǎn)之間的距離,確定加入各所述小組內(nèi)的保護(hù)點(diǎn)。
34、在可選的實(shí)施方式中,所述動作信息包括加速度信息;
35、所述以所述動作信息指導(dǎo)各所述智能體在所述對抗仿真環(huán)境內(nèi)進(jìn)行仿真對抗的步驟,包括:
36、在每次仿真對抗的每個(gè)時(shí)間步內(nèi),以所述時(shí)間步得到的加速度信息指導(dǎo)各所述智能體在所述對抗仿真環(huán)境內(nèi)運(yùn)動;
37、統(tǒng)計(jì)多次仿真對抗中不同陣營的智能體的對抗結(jié)果,并分析不同陣營的智能體的成功率和失敗率。
38、第二方面,本發(fā)明提供一種基于注意力機(jī)制的深度強(qiáng)化學(xué)習(xí)集群對抗系統(tǒng),所述系統(tǒng)包括:
39、構(gòu)建模塊,用于構(gòu)建集群對抗模型,所述集群對抗模型包括智能體集群和對抗仿真場景,所述智能體集群包括多個(gè)不同陣營、不同類型的智能體,所述對抗仿真場景包括對抗仿真環(huán)境和保護(hù)點(diǎn);
40、訓(xùn)練模塊,用于選取所述集群對抗模型中的部分智能體及保護(hù)點(diǎn)對嵌入有注意力模塊的深度強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練;
41、劃分模塊,用于基于所述智能體集群中的所有智能體進(jìn)行組別劃分,并在所有組別的各小組內(nèi)為各所述智能體選擇所屬同陣營的智能體以及所屬不同陣營的智能體,并確定各所述小組內(nèi)的保護(hù)點(diǎn);
42、處理模塊,用于將所有小組內(nèi)的智能體以及保護(hù)點(diǎn)輸入訓(xùn)練完成的深度強(qiáng)化學(xué)習(xí)模型中,輸出各所述智能體的動作信息;
43、仿真對抗模塊,用于以所述動作信息指導(dǎo)各所述智能體在所述對抗仿真環(huán)境內(nèi)進(jìn)行仿真對抗。