本發(fā)明屬于新能源發(fā)電,特別涉及一種源網(wǎng)荷儲(chǔ)協(xié)同分區(qū)協(xié)同優(yōu)化的方法及相關(guān)裝置。
背景技術(shù):
1、隨著全球?qū)沙掷m(xù)能源追求的不斷升溫,配電網(wǎng)中的新能源裝機(jī)量呈現(xiàn)出顯著增高的趨勢(shì)。在當(dāng)今能源轉(zhuǎn)型的大背景下,新能源如太陽能、風(fēng)能等以其清潔、可再生的特性,成為了滿足不斷增長的能源需求的重要選擇。隨著可再生能源在能源結(jié)構(gòu)中的占比日益增加,其波動(dòng)性、間歇性的特點(diǎn)給電網(wǎng)的穩(wěn)定運(yùn)行帶來了巨大挑戰(zhàn);同時(shí),電力負(fù)荷的峰谷差不斷擴(kuò)大以及用戶對(duì)供電可靠性、電能質(zhì)量要求的提高,使得源網(wǎng)荷儲(chǔ)之間的協(xié)同優(yōu)化成為必然。解釋性地,“源”主要是指各類發(fā)電電源,包括傳統(tǒng)的火力發(fā)電、水力發(fā)電,以及新能源發(fā)電(如光伏發(fā)電、風(fēng)力發(fā)電等);“網(wǎng)”代表輸配電網(wǎng),負(fù)責(zé)電能的傳輸與分配;“荷”即電力負(fù)荷,是指用戶端消耗電能的設(shè)備或系統(tǒng);“儲(chǔ)”則是儲(chǔ)能系統(tǒng),如電池儲(chǔ)能、蓄熱蓄冷等多種儲(chǔ)能方式。
2、電網(wǎng)的拓?fù)浣Y(jié)構(gòu)復(fù)雜,特別是在配電網(wǎng)層面,分布式電源和儲(chǔ)能系統(tǒng)的接入使得潮流分布更加復(fù)雜。有功功率的過量注入可能會(huì)導(dǎo)致電壓波動(dòng)超出電網(wǎng)標(biāo)準(zhǔn)閾值,可以通過利用光伏逆變器自身以及其他可控設(shè)備(示例性地,如靜止無功補(bǔ)償器(svc)和有載調(diào)壓變壓器(oltc))的控制靈活性來緩解電壓波動(dòng),但需要一個(gè)精心設(shè)計(jì)的方案來大規(guī)模協(xié)調(diào)這些設(shè)備,以便在局部信息有限的情況下對(duì)整個(gè)網(wǎng)絡(luò)的電壓進(jìn)行調(diào)節(jié)。然而,基于最優(yōu)潮流算法(opf)的計(jì)算時(shí)間成本很高,難以在較短時(shí)間內(nèi)對(duì)電壓波動(dòng)做出有效應(yīng)對(duì)。
3、目前,一些研究嘗試使用單智能體的深度強(qiáng)化學(xué)習(xí)(drl)模型,將配電網(wǎng)的無功優(yōu)化問題建模為一個(gè)馬爾科夫決策過程(markovian?decision?process,mdp),比如采用行動(dòng)者-評(píng)論家(actor-critic,ac)的算法將最小化網(wǎng)損和設(shè)備的動(dòng)作成本作為優(yōu)化目標(biāo),以離散無功調(diào)節(jié)設(shè)備的投切指令為控制變量進(jìn)行求解。另外,一些研究采用確定性策略梯度(dpg)算法,并將逆變器或靜止無功補(bǔ)償器的無功功率作為控制動(dòng)作。然而,上述現(xiàn)有的研究?jī)H將電網(wǎng)節(jié)點(diǎn)數(shù)據(jù)作為同一維度的特征進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,忽視了電網(wǎng)拓?fù)浣Y(jié)構(gòu)建模對(duì)模型的影響,以現(xiàn)有方法訓(xùn)練的強(qiáng)化學(xué)習(xí)模型難以達(dá)到很好的效果,也難以應(yīng)用到其他不同拓?fù)浣Y(jié)構(gòu)的電網(wǎng)場(chǎng)景下。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種源網(wǎng)荷儲(chǔ)協(xié)同分區(qū)協(xié)同優(yōu)化的方法及相關(guān)裝置,以解決上述存在的一個(gè)或多個(gè)技術(shù)問題。本發(fā)明提供的技術(shù)方案中,利用訓(xùn)練好的強(qiáng)化學(xué)習(xí)模型進(jìn)行預(yù)測(cè),獲得選定的配電網(wǎng)中調(diào)控裝置的調(diào)控策略預(yù)測(cè)結(jié)果;其中,強(qiáng)化學(xué)習(xí)模型的訓(xùn)練過程中,采用多智能體強(qiáng)化學(xué)習(xí)算法,相比單個(gè)智能體架構(gòu)的強(qiáng)化學(xué)習(xí),具有更好的效率和性能;另外,強(qiáng)化學(xué)習(xí)模型采用拓?fù)渥兓瘓D卷積網(wǎng)絡(luò)模型,訓(xùn)練好的強(qiáng)化學(xué)習(xí)模型可適用于不同的拓?fù)浣Y(jié)構(gòu),能夠降低模型移植所需的訓(xùn)練成本。
2、為達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案:
3、本發(fā)明第一方面,提供一種源網(wǎng)荷儲(chǔ)協(xié)同分區(qū)協(xié)同優(yōu)化的方法,包括以下步驟:
4、基于選定的配電網(wǎng),獲取電網(wǎng)負(fù)荷的歷史數(shù)據(jù);
5、基于獲取的電網(wǎng)負(fù)荷的歷史數(shù)據(jù),利用訓(xùn)練好的強(qiáng)化學(xué)習(xí)模型進(jìn)行預(yù)測(cè),獲得選定的配電網(wǎng)中調(diào)控裝置的調(diào)控策略預(yù)測(cè)結(jié)果;
6、其中,所述強(qiáng)化學(xué)習(xí)模型的訓(xùn)練步驟包括:基于配電網(wǎng)樣本,獲取配電網(wǎng)運(yùn)行數(shù)據(jù)和拓?fù)湫畔ⅲ?gòu)建配電網(wǎng)電壓無功優(yōu)化的數(shù)學(xué)模型;將構(gòu)建的數(shù)學(xué)模型轉(zhuǎn)換成基于多智能體的馬爾科夫決策過程模型;根據(jù)配電網(wǎng)運(yùn)行數(shù)據(jù)和拓?fù)湫畔?,?gòu)建拓?fù)渥兓瘓D卷積網(wǎng)絡(luò)模型;基于所述基于多智能體的馬爾科夫決策過程模型,采用多智能體強(qiáng)化學(xué)習(xí)算法訓(xùn)練所述拓?fù)渥兓瘓D卷積網(wǎng)絡(luò)模型,獲得能夠動(dòng)態(tài)適應(yīng)配電網(wǎng)拓?fù)渥兓⒉?yōu)化電壓無功控制的強(qiáng)化學(xué)習(xí)模型;使用基于配電網(wǎng)樣本實(shí)際獲取的電網(wǎng)數(shù)據(jù)對(duì)獲得的所述強(qiáng)化學(xué)習(xí)模型進(jìn)行離線訓(xùn)練和驗(yàn)證,獲得訓(xùn)練好的強(qiáng)化學(xué)習(xí)模型。
7、本發(fā)明的進(jìn)一步改進(jìn)在于,
8、所述拓?fù)渥兓瘓D卷積網(wǎng)絡(luò)模型包括:
9、輸入層,用于輸入配電網(wǎng)運(yùn)行數(shù)據(jù)和拓?fù)湫畔ⅲ?/p>
10、重復(fù)堆疊多次的帶有殘差圖的可學(xué)習(xí)的譜圖卷積模塊,用于對(duì)輸入的配電網(wǎng)運(yùn)行數(shù)據(jù)和拓?fù)湫畔⑦M(jìn)行特征提取,獲得配電網(wǎng)運(yùn)行數(shù)據(jù)和拓?fù)湫畔⒌母呔S特征;其中,每個(gè)帶有殘差圖的可學(xué)習(xí)的譜圖卷積模塊均包括帶有殘差圖的可學(xué)習(xí)的譜圖卷積層、第一歸一化層和池化層;
11、第二歸一化層,用于對(duì)獲得的高維特征進(jìn)行歸一化處理,獲得配電網(wǎng)優(yōu)化預(yù)測(cè)信息;
12、輸出層,用于將獲得的配電網(wǎng)優(yōu)化預(yù)測(cè)信息輸出。
13、本發(fā)明的進(jìn)一步改進(jìn)在于,
14、所述拓?fù)渥兓瘓D卷積網(wǎng)絡(luò)模型還包括:
15、雙邊濾波器層,所述雙邊濾波器層設(shè)置于重復(fù)堆疊多次的帶有殘差圖的可學(xué)習(xí)的譜圖卷積模塊與第二歸一化層之間,用于將獲得的配電網(wǎng)運(yùn)行數(shù)據(jù)和拓?fù)湫畔⒌母呔S特征進(jìn)行濾波處理,獲得濾波后的高維特征并輸入所述第二歸一化層。
16、本發(fā)明的進(jìn)一步改進(jìn)在于,
17、所述帶有殘差圖的可學(xué)習(xí)的譜圖卷積層表示為:
18、;
19、式中,為帶有殘差圖的可學(xué)習(xí)的譜圖卷積層的輸出;是激活函數(shù);是帶有殘差圖的可學(xué)習(xí)的譜卷積核,的運(yùn)算結(jié)果為帶有殘差圖的可學(xué)習(xí)的譜卷積矩陣;是圖上對(duì)應(yīng)于每個(gè)頂點(diǎn)的特征向量;為可訓(xùn)練的權(quán)重矩陣;為可訓(xùn)練的權(quán)重向量;
20、;
21、式中,是帶殘差的可學(xué)習(xí)的拉普拉斯矩陣;為關(guān)于的 k階多項(xiàng)式; k為求和函數(shù)遍歷序號(hào); k為圖中節(jié)點(diǎn)總數(shù);為中多項(xiàng)式的參數(shù);
22、;
23、;
24、;
25、式中, l為歸一化圖拉普拉斯矩陣;為給定的常數(shù)值;為單位矩陣;為采用廣義馬氏距離的距離度量矩陣; a為鄰接矩陣;、分別是隨機(jī)初始化的距離度量矩陣、鄰接矩陣;為距離度量和鄰接關(guān)系隨機(jī)初始化時(shí)訓(xùn)練得到的殘差拉普拉斯矩陣。
26、本發(fā)明的進(jìn)一步改進(jìn)在于,
27、采用廣義馬氏距離的距離度量矩陣的計(jì)算表達(dá)式為:
28、;
29、式中,是圖上對(duì)應(yīng)于頂點(diǎn)的特征向量;,為可訓(xùn)練權(quán)重。
30、本發(fā)明的進(jìn)一步改進(jìn)在于,
31、所述基于多智能體的馬爾科夫決策過程模型中,
32、將配電網(wǎng)中擁有獨(dú)立動(dòng)作空間的調(diào)控裝置定義為智能體;
33、狀態(tài)觀測(cè)空間定義為:;
34、式中,是一組有功和無功功率負(fù)荷;是由發(fā)電設(shè)備產(chǎn)生的一組有功功率;是由發(fā)電設(shè)備產(chǎn)生的一組無功功率;是一組電壓幅值和以弧度為單位的電壓相位;分別為負(fù)荷的有功功率、無功功率和相角;分別為發(fā)電設(shè)備產(chǎn)生的有功功率、無功功率;
35、智能體的動(dòng)作空間定義為:
36、對(duì)于連續(xù)調(diào)控設(shè)備,智能體配備一個(gè)連續(xù)的動(dòng)作集,表示為:
37、;
38、式中,為調(diào)控設(shè)備的輸出;分別表示連續(xù)調(diào)控設(shè)備的輸出下限、輸出上限;
39、對(duì)于離散調(diào)控設(shè)備,智能體配備一個(gè)離散的動(dòng)作集,表示為:
40、;
41、式中,為調(diào)控設(shè)備的輸出;表示設(shè)備能夠執(zhí)行的所有動(dòng)作;
42、獎(jiǎng)勵(lì)函數(shù)為:
43、;
44、式中,為網(wǎng)損懲罰項(xiàng);為電壓偏差懲罰項(xiàng);
45、;
46、式中,是正的權(quán)重系數(shù);表示網(wǎng)損;
47、;
48、式中,為配電網(wǎng)中節(jié)點(diǎn)數(shù)量;為正的權(quán)重系數(shù);表示節(jié)點(diǎn)的電壓幅值;表示節(jié)點(diǎn)的參考電壓幅值。
49、本發(fā)明的進(jìn)一步改進(jìn)在于,配電網(wǎng)中調(diào)控裝置包括開關(guān)、逆變器和儲(chǔ)能裝置。
50、本發(fā)明第二方面,提供一種源網(wǎng)荷儲(chǔ)協(xié)同分區(qū)協(xié)同優(yōu)化的系統(tǒng),包括:
51、數(shù)據(jù)獲取模塊,用于基于選定的配電網(wǎng),獲取電網(wǎng)負(fù)荷的歷史數(shù)據(jù);
52、預(yù)測(cè)模塊,用于基于獲取的電網(wǎng)負(fù)荷的歷史數(shù)據(jù),利用訓(xùn)練好的強(qiáng)化學(xué)習(xí)模型進(jìn)行預(yù)測(cè),獲得選定的配電網(wǎng)中調(diào)控裝置的調(diào)控策略預(yù)測(cè)結(jié)果;
53、其中,所述強(qiáng)化學(xué)習(xí)模型的訓(xùn)練步驟包括:基于配電網(wǎng)樣本,獲取配電網(wǎng)運(yùn)行數(shù)據(jù)和拓?fù)湫畔?,并?gòu)建配電網(wǎng)電壓無功優(yōu)化的數(shù)學(xué)模型;將構(gòu)建的數(shù)學(xué)模型轉(zhuǎn)換成基于多智能體的馬爾科夫決策過程模型;根據(jù)配電網(wǎng)運(yùn)行數(shù)據(jù)和拓?fù)湫畔?,?gòu)建拓?fù)渥兓瘓D卷積網(wǎng)絡(luò)模型;基于所述基于多智能體的馬爾科夫決策過程模型,采用多智能體強(qiáng)化學(xué)習(xí)算法訓(xùn)練所述拓?fù)渥兓瘓D卷積網(wǎng)絡(luò)模型,獲得能夠動(dòng)態(tài)適應(yīng)配電網(wǎng)拓?fù)渥兓?、并?yōu)化電壓無功控制的強(qiáng)化學(xué)習(xí)模型;使用基于配電網(wǎng)樣本實(shí)際獲取的電網(wǎng)數(shù)據(jù)對(duì)獲得的所述強(qiáng)化學(xué)習(xí)模型進(jìn)行離線訓(xùn)練和驗(yàn)證,獲得訓(xùn)練好的強(qiáng)化學(xué)習(xí)模型。
54、本發(fā)明的進(jìn)一步改進(jìn)在于,
55、所述拓?fù)渥兓瘓D卷積網(wǎng)絡(luò)模型包括:
56、輸入層,用于輸入配電網(wǎng)運(yùn)行數(shù)據(jù)和拓?fù)湫畔ⅲ?/p>
57、重復(fù)堆疊多次的帶有殘差圖的可學(xué)習(xí)的譜圖卷積模塊,用于對(duì)輸入的配電網(wǎng)運(yùn)行數(shù)據(jù)和拓?fù)湫畔⑦M(jìn)行特征提取,獲得配電網(wǎng)運(yùn)行數(shù)據(jù)和拓?fù)湫畔⒌母呔S特征;其中,每個(gè)帶有殘差圖的可學(xué)習(xí)的譜圖卷積模塊均包括帶有殘差圖的可學(xué)習(xí)的譜圖卷積層、第一歸一化層和池化層;
58、第二歸一化層,用于對(duì)獲得的高維特征進(jìn)行歸一化處理,獲得配電網(wǎng)優(yōu)化預(yù)測(cè)信息;
59、輸出層,用于將獲得的配電網(wǎng)優(yōu)化預(yù)測(cè)信息輸出。
60、本發(fā)明的進(jìn)一步改進(jìn)在于,
61、所述拓?fù)渥兓瘓D卷積網(wǎng)絡(luò)模型還包括:
62、雙邊濾波器層,所述雙邊濾波器層設(shè)置于重復(fù)堆疊多次的帶有殘差圖的可學(xué)習(xí)的譜圖卷積模塊與第二歸一化層之間,用于將獲得的配電網(wǎng)運(yùn)行數(shù)據(jù)和拓?fù)湫畔⒌母呔S特征進(jìn)行濾波處理,獲得濾波后的高維特征并輸入所述第二歸一化層。
63、本發(fā)明的進(jìn)一步改進(jìn)在于,
64、所述帶有殘差圖的可學(xué)習(xí)的譜圖卷積層表示為:
65、;
66、式中,為帶有殘差圖的可學(xué)習(xí)的譜圖卷積層的輸出;是激活函數(shù);是帶有殘差圖的可學(xué)習(xí)的譜卷積核,的運(yùn)算結(jié)果為帶有殘差圖的可學(xué)習(xí)的譜卷積矩陣;是圖上對(duì)應(yīng)于每個(gè)頂點(diǎn)的特征向量;為可訓(xùn)練的權(quán)重矩陣;為可訓(xùn)練的權(quán)重向量;
67、;
68、式中,是帶殘差的可學(xué)習(xí)的拉普拉斯矩陣;為關(guān)于的 k階多項(xiàng)式; k為求和函數(shù)遍歷序號(hào); k為圖中節(jié)點(diǎn)總數(shù);為中多項(xiàng)式的參數(shù);
69、;
70、;
71、;
72、式中, l為歸一化圖拉普拉斯矩陣;為給定的常數(shù)值;為單位矩陣;為采用廣義馬氏距離的距離度量矩陣; a為鄰接矩陣;、分別是隨機(jī)初始化的距離度量矩陣、鄰接矩陣;為距離度量和鄰接關(guān)系隨機(jī)初始化時(shí)訓(xùn)練得到的殘差拉普拉斯矩陣。
73、本發(fā)明的進(jìn)一步改進(jìn)在于,
74、采用廣義馬氏距離的距離度量矩陣的計(jì)算表達(dá)式為:
75、;
76、式中,是圖上對(duì)應(yīng)于頂點(diǎn)的特征向量;,為可訓(xùn)練權(quán)重。
77、本發(fā)明的進(jìn)一步改進(jìn)在于,
78、所述基于多智能體的馬爾科夫決策過程模型中,
79、將配電網(wǎng)中擁有獨(dú)立動(dòng)作空間的調(diào)控裝置定義為智能體;
80、狀態(tài)觀測(cè)空間定義為:;
81、式中,是一組有功和無功功率負(fù)荷;是由發(fā)電設(shè)備產(chǎn)生的一組有功功率;是由發(fā)電設(shè)備產(chǎn)生的一組無功功率;是一組電壓幅值和以弧度為單位的電壓相位;分別為負(fù)荷的有功功率、無功功率和相角;分別為發(fā)電設(shè)備產(chǎn)生的有功功率、無功功率;
82、智能體的動(dòng)作空間定義為:
83、對(duì)于連續(xù)調(diào)控設(shè)備,智能體配備一個(gè)連續(xù)的動(dòng)作集,表示為:
84、;
85、式中,為調(diào)控設(shè)備的輸出;分別表示連續(xù)調(diào)控設(shè)備的輸出下限、輸出上限;
86、對(duì)于離散調(diào)控設(shè)備,智能體配備一個(gè)離散的動(dòng)作集,表示為:
87、;
88、式中,為調(diào)控設(shè)備的輸出;表示設(shè)備能夠執(zhí)行的所有動(dòng)作;
89、獎(jiǎng)勵(lì)函數(shù)為:
90、;
91、式中,為網(wǎng)損懲罰項(xiàng);為電壓偏差懲罰項(xiàng);
92、;
93、式中,是正的權(quán)重系數(shù);表示網(wǎng)損;
94、;
95、式中,為配電網(wǎng)中節(jié)點(diǎn)數(shù)量;為正的權(quán)重系數(shù);表示節(jié)點(diǎn)的電壓幅值;表示節(jié)點(diǎn)的參考電壓幅值。
96、本發(fā)明的進(jìn)一步改進(jìn)在于,配電網(wǎng)中調(diào)控裝置包括開關(guān)、逆變器和儲(chǔ)能裝置。
97、本發(fā)明第三方面,提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如本發(fā)明第一方面中任一項(xiàng)所述的源網(wǎng)荷儲(chǔ)協(xié)同分區(qū)協(xié)同優(yōu)化的方法。
98、本發(fā)明第四方面,提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本發(fā)明第一方面中任一項(xiàng)所述的源網(wǎng)荷儲(chǔ)協(xié)同分區(qū)協(xié)同優(yōu)化的方法。
99、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
100、本發(fā)明提供了一種源網(wǎng)荷儲(chǔ)協(xié)同分區(qū)協(xié)同優(yōu)化的方法,其利用訓(xùn)練好的強(qiáng)化學(xué)習(xí)模型進(jìn)行預(yù)測(cè),獲得選定的配電網(wǎng)中調(diào)控裝置的調(diào)控策略預(yù)測(cè)結(jié)果;其中,強(qiáng)化學(xué)習(xí)模型的訓(xùn)練過程中,采用多智能體強(qiáng)化學(xué)習(xí)算法,相比單個(gè)智能體架構(gòu)的強(qiáng)化學(xué)習(xí),具有更好的效率和性能;另外,強(qiáng)化學(xué)習(xí)模型采用拓?fù)渥兓瘓D卷積網(wǎng)絡(luò)模型,訓(xùn)練好的強(qiáng)化學(xué)習(xí)模型可適用于不同的拓?fù)浣Y(jié)構(gòu),能夠降低模型移植所需的訓(xùn)練成本。進(jìn)一步解釋性地,多智能體強(qiáng)化學(xué)習(xí)算法(marl)在集中控制機(jī)制無法很好地預(yù)測(cè)每個(gè)個(gè)體下一步的行為時(shí)有非常好的表現(xiàn),配電網(wǎng)電力網(wǎng)絡(luò)中存在諸多涉及大量智能體協(xié)作或競(jìng)爭(zhēng)行為的問題,適合采用marl作為電力網(wǎng)絡(luò)優(yōu)化模型的訓(xùn)練框架。
101、本發(fā)明改進(jìn)強(qiáng)化學(xué)習(xí)模型中的譜卷積核,采用可學(xué)習(xí)的拉普拉斯矩陣,使譜卷積核能夠適用于具有多樣圖拓?fù)浣Y(jié)構(gòu)的數(shù)據(jù),提高網(wǎng)絡(luò)模型的拓?fù)浣Y(jié)構(gòu)泛化性,訓(xùn)練后的模型可以適用于不同的拓?fù)浣Y(jié)構(gòu),降低模型移植所需的訓(xùn)練成本。本發(fā)明提出殘差拉普拉斯矩陣,以無監(jiān)督方式創(chuàng)建圖結(jié)構(gòu),提高模型對(duì)圖中節(jié)點(diǎn)內(nèi)聯(lián)關(guān)系的感知,以適應(yīng)電網(wǎng)拓?fù)浣Y(jié)構(gòu)變化(如開關(guān)、負(fù)荷變化)做出動(dòng)態(tài)調(diào)整。
102、本發(fā)明提出的強(qiáng)化學(xué)習(xí)模型中,衡量節(jié)點(diǎn)間的關(guān)系時(shí),使用廣義馬氏距離而非歐式距離作為距離度量,廣義馬氏距離作為參數(shù)進(jìn)行訓(xùn)練,可以根據(jù)拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)間的關(guān)系進(jìn)行自適應(yīng),使構(gòu)建的拉普拉斯矩陣在拓?fù)浣Y(jié)構(gòu)變化的環(huán)境能更合理地預(yù)測(cè)損失。