在控制復雜的動態(tài)系統(tǒng)(諸如燃氣輪機、風力渦輪機或者其它的技術(shù)設(shè)施或者系統(tǒng))時,一般來說值得期望的是:關(guān)于預先給定的標準來優(yōu)化系統(tǒng)特性。這樣,例如在燃氣輪機的情況下,一般來說力求改進效率、效果和/或燃燒動力學,以及降低廢氣排放、燃燒室噪聲和/或磨損。
背景技術(shù):
復雜的動態(tài)系統(tǒng)通常具有多個相互作用的控制參數(shù)。因此,為了控制該動態(tài)系統(tǒng),影響系統(tǒng)特性的多個可能的控制行動供系統(tǒng)控制裝置支配。在此,不同的控制行動可以以非常復雜的方式、尤其是也相反地相互作用。這樣,對第一控制標準有積極效果的控制行動可能對第二控制標準有消極作用。此外,相同的控制行動根據(jù)系統(tǒng)狀態(tài)而可能積極地或者消極地起作用。
從現(xiàn)有技術(shù)中已知計算機輔助的控制裝置或者調(diào)節(jié)器,所述控制裝置或者調(diào)節(jié)器特定地適用于遵循或者優(yōu)化預先給定的控制標準。然而,這樣的控制標準一般來說根據(jù)動態(tài)系統(tǒng)的應(yīng)用情況而有區(qū)別。這樣,例如可以針對不同的國家中的發(fā)電廠規(guī)定廢氣排放的不同的極限值。在第一國家中,低的廢氣排放相對于其它的控制標準可能優(yōu)先,而在第二國家中,低的磨損和低的維護成本可能優(yōu)先。一般來說,多個相互影響的控制標準應(yīng)以適當?shù)姆绞絹頇?quán)衡,以便針對當前的情況實現(xiàn)最優(yōu)的控制。
為了優(yōu)化預先給定的控制標準,流行的控制通常使用機器學習的技術(shù)。這樣,例如可以針對如下方面訓練神經(jīng)網(wǎng)絡(luò):關(guān)于一個或多個預先給定的控制標準來優(yōu)化對動態(tài)系統(tǒng)的控制。然而,對神經(jīng)網(wǎng)絡(luò)的訓練一般來說是比較耗時的。如果改變控制標準,那么常常持續(xù)比較長時間直至進行學習的神經(jīng)網(wǎng)絡(luò)適應(yīng)于經(jīng)改變的控制標準。因而,對適用于所力求的目的或者新的情況的控制標準進行優(yōu)化常常是非常耗時的。
技術(shù)實現(xiàn)要素:
本發(fā)明的任務(wù)是提供一種用于對技術(shù)系統(tǒng)進行計算機輔助的控制優(yōu)化的設(shè)備和方法,所述設(shè)備和方法允許對控制標準進行更靈活的并且更快速的優(yōu)化。
該任務(wù)通過一種具有專利權(quán)利要求1的特征的交互式輔助系統(tǒng)、通過一種具有專利權(quán)利要求9的特征的方法以及通過具有專利權(quán)利要求13的特征的計算機程序產(chǎn)品來解決。
按照本發(fā)明,為了對技術(shù)系統(tǒng)進行計算機輔助的控制優(yōu)化,設(shè)置一種交互式輔助系統(tǒng)以及一種相對應(yīng)的方法。該技術(shù)系統(tǒng)例如可以是燃氣輪機、風力渦輪機、發(fā)電廠或者另一技術(shù)設(shè)施或者另一技術(shù)系統(tǒng)。輸入終端用于讀入說明了該技術(shù)系統(tǒng)的第一系統(tǒng)狀態(tài)的至少一個狀態(tài)參數(shù),以及用于讀入至少一個調(diào)整參數(shù),所述至少一個調(diào)整參數(shù)用于設(shè)立適用于訓練神經(jīng)網(wǎng)絡(luò)的報酬函數(shù)(Belohnungsfunktion)。這樣的報酬函數(shù)常常也被稱作Reward-Function。仿真模塊用于對在技術(shù)系統(tǒng)上執(zhí)行從第一系統(tǒng)狀態(tài)出發(fā)的行動序列進行仿真,以及用于預測技術(shù)系統(tǒng)的從中最終得到的后續(xù)狀態(tài)。此外,還設(shè)置有與輸入終端和仿真模塊耦合的優(yōu)化模塊。該優(yōu)化模塊用于依據(jù)調(diào)整參數(shù)設(shè)立報酬函數(shù)、用于生成多個針對第一系統(tǒng)狀態(tài)的行動序列、用于將所述行動序列傳送給仿真模塊以及用于接收從中最終得到的后續(xù)狀態(tài)。此外,該優(yōu)化模塊還用于借助于所設(shè)立的報酬函數(shù)來確定對于最終得到的后續(xù)狀態(tài)所要期望的報酬,以及用于確定進行報酬優(yōu)化的行動序列。為了輸出從進行報酬優(yōu)化的行動序列最終得到的系統(tǒng)狀態(tài)而設(shè)置有輸出終端。
為了分別預先給定的情況和/或為了分別力求的目的,本發(fā)明允許快速地交互式地優(yōu)化或改進針對技術(shù)系統(tǒng)的控制標準。通過適當?shù)卦O(shè)立適用于神經(jīng)網(wǎng)絡(luò)的訓練的報酬函數(shù),所述控制標準可以以靈活的方式由用戶在輸入終端上來修改。這些修改的作用可以通過用戶在輸出終端上直接檢測。據(jù)此,用戶接著可以進行報酬函數(shù)或控制標準的其它適配,而且這樣可以連續(xù)地(sukzessiv)交互式地優(yōu)化所述報酬函數(shù)或所述控制標準。將報酬函數(shù)用于優(yōu)化控制標準是有利的,因為報酬函數(shù)根據(jù)其交互式優(yōu)化而可以直接被用于訓練技術(shù)系統(tǒng)的基于神經(jīng)網(wǎng)絡(luò)的控制。
仿真模塊的應(yīng)用允許時間有利地并且成本有利地確定技術(shù)系統(tǒng)的由行動序列造成的后續(xù)狀態(tài)。這尤其是也適用于如下這種行動序列,所述行動序列在真正的技術(shù)系統(tǒng)上只能用高的耗費來執(zhí)行。此外,在足夠的計算能力的前提下,仿真模塊常??梢员日嬲募夹g(shù)系統(tǒng)更快地提供后續(xù)狀態(tài),而且這樣可以縮短優(yōu)化過程。
本發(fā)明的有利的實施方式和擴展方案在從屬權(quán)利要求中被說明。
根據(jù)本發(fā)明的一種有利的實施方式,所述仿真模塊可以被設(shè)立用于優(yōu)化包括連續(xù)的調(diào)節(jié)參量的行動序列。這種連續(xù)的調(diào)節(jié)參量(諸如在燃氣輪機中的氣體輸送)在很多技術(shù)系統(tǒng)中都是可控制的。
此外,在優(yōu)化模塊中可以實施隨機的和/或非凸的優(yōu)化方法來確定進行報酬優(yōu)化的行動序列。隨機的優(yōu)化方法也可以成功地被應(yīng)用到高維的和/或非線性的優(yōu)化問題上。如果不同的優(yōu)化參數(shù)彼此相關(guān),那么非凸的優(yōu)化方法是有利的。
優(yōu)選地,作為優(yōu)化方法可以實施粒子群優(yōu)化、遺傳優(yōu)化方法、模擬退火方法(Simulated-Annealing-Verfahren)和/或隨機梯度方法。
此外,該仿真模塊還可以被設(shè)立用于處理技術(shù)系統(tǒng)的傳感器數(shù)據(jù)。以這種方式被設(shè)立的仿真模塊也可以在真正的技術(shù)系統(tǒng)上用真正的傳感器數(shù)據(jù)來運行而且關(guān)于該仿真模塊的仿真忠實度(Simulationstreue)來優(yōu)化。
此外,在仿真模塊中可以實施神經(jīng)網(wǎng)絡(luò)、支持向量機(Support-Vector-Machine)、高斯過程模型和/或物理模型來仿真該技術(shù)系統(tǒng)。
根據(jù)一種有利的實施方式,神經(jīng)網(wǎng)絡(luò)可以被實施為遞歸神經(jīng)網(wǎng)絡(luò)。這種遞歸神經(jīng)網(wǎng)絡(luò)允許以高效的方式識別與時間相關(guān)的模式。
此外,該神經(jīng)網(wǎng)絡(luò)已經(jīng)可以針對該技術(shù)系統(tǒng)來預先訓練。
根據(jù)另一種實施方式,進行報酬優(yōu)化的行動序列可以在輸出終端上輸出。
優(yōu)選地,最終得到的系統(tǒng)狀態(tài)的、進行報酬優(yōu)化的行動序列的和/或報酬函數(shù)的返回值的時間變化過程可以被輸出在輸出終端上。這允許由用戶來迅速地判斷優(yōu)化結(jié)果。尤其是,用戶可以直接比較關(guān)于當前被調(diào)整的控制標準最優(yōu)的系統(tǒng)特性在何種程度上對應(yīng)于用戶所期望的系統(tǒng)特性。
此外,還可以通過輸出終端來輸出報酬函數(shù)和/或狀態(tài)參數(shù)的其它的變體來在輸入終端上進行在用戶側(cè)的選擇。尤其是可以輸出根據(jù)預先給定的標準來實現(xiàn)的從可能的報酬函數(shù)和/或狀態(tài)參數(shù)中的預先選擇。
附圖說明
隨后依據(jù)附圖來進一步解釋本發(fā)明的一個實施例。
附圖以示意圖示出按照本發(fā)明的交互式輔助系統(tǒng)。
具體實施方式
在該附圖中,示意性地示出了用于對于動態(tài)技術(shù)系統(tǒng)進行計算機輔助的控制優(yōu)化的交互式輔助系統(tǒng)。該技術(shù)系統(tǒng)例如可以是燃氣輪機、風力渦輪機、發(fā)電廠、生產(chǎn)設(shè)施或者另一技術(shù)設(shè)施或者另一動態(tài)系統(tǒng)。
該交互式輔助系統(tǒng)包括具有輸入終端IN(例如鍵盤)的以及具有輸出終端OUT(例如顯示屏)的終端T。
輸入終端IN用于讀入狀態(tài)參數(shù),該狀態(tài)參數(shù)描述了技術(shù)系統(tǒng)的第一系統(tǒng)狀態(tài)S0。第一系統(tǒng)狀態(tài)S0能夠交互式地由終端T的用戶來預先給定,而且描述如下初始狀態(tài),對技術(shù)系統(tǒng)的仿真從該初始狀態(tài)出發(fā)。第一系統(tǒng)狀態(tài)S0通過技術(shù)系統(tǒng)的狀態(tài)參數(shù)的向量、即所謂的狀態(tài)向量S0=((S0)1...(S0)N)來示出,其中N說明了技術(shù)系統(tǒng)的狀態(tài)參數(shù)的數(shù)目。狀態(tài)參數(shù)描述技術(shù)系統(tǒng)的在仿真開始時存在的狀態(tài)。尤其是,狀態(tài)參數(shù)可以是物理參量(如溫度、壓力或者電壓)或者例如在燃氣輪機的情況下描述燃燒室噪聲或者氮氧化物的排放。用戶可以在交互式輸入終端IN上明確地輸入不同的狀態(tài)參數(shù),或者也可以從在輸出終端OUT上所建議的狀態(tài)參數(shù)或者系統(tǒng)狀態(tài)中選擇。
描述第一系統(tǒng)狀態(tài)的狀態(tài)向量S0從輸入終端IN被傳送到用于仿真技術(shù)系統(tǒng)的動態(tài)特性的仿真模塊SIM。仿真模塊SIM從第一系統(tǒng)狀態(tài)S0出發(fā)仿真通過技術(shù)系統(tǒng)的動態(tài)特性從S0得出的狀態(tài)序列S、也就是說從S0最終得到的后續(xù)狀態(tài)。狀態(tài)序列S=(S1,...,ST)=: (Si)是技術(shù)系統(tǒng)的在時間上連續(xù)的系統(tǒng)狀態(tài)Si的序列,其中i=1,...,T表示不同的連續(xù)的時間步驟,而T是所考慮的時間步驟的數(shù)目。系統(tǒng)狀態(tài)Si分別通過技術(shù)系統(tǒng)的狀態(tài)向量、也就是說通過狀態(tài)參數(shù)的向量S0=((S0)1...(S0)N)來示出,該向量描述了技術(shù)系統(tǒng)在第i個時間步驟的狀態(tài)。概括來說,因此通過狀態(tài)向量S=(Si)n,i=1,...,T,n=1,...,N的序列來示出狀態(tài)序列S。
此外,輸入終端IN還用于交互式地讀入用于報酬函數(shù)RF的調(diào)整參數(shù)W。在本實施例中,用于技術(shù)系統(tǒng)的N個不同的狀態(tài)參數(shù)的具有權(quán)重Wi的長度N的向量W=(W1,...,WN)作為調(diào)整參數(shù)W被讀入。由用戶交互式地預先給定的調(diào)整參數(shù)W從輸入終端IN被傳送到優(yōu)化模塊OPT。該優(yōu)化模塊OPT實施報酬函數(shù)RF并且通過調(diào)整參數(shù)W將該報酬函數(shù)RF參數(shù)化。這樣的與優(yōu)化問題相關(guān)聯(lián)地被使用的報酬函數(shù)常常也被稱作Reward Function。這種報酬函數(shù)(Reward Function)RF尤其是也可以被用于訓練神經(jīng)網(wǎng)絡(luò)。按照由調(diào)整參數(shù)W所調(diào)整的優(yōu)化標準,報酬函數(shù)RF將所要期望的報酬分配給技術(shù)系統(tǒng)的相應(yīng)的狀態(tài)向量Si或者狀態(tài)向量S的序列。通過該報酬函數(shù)RF來映射針對該技術(shù)系統(tǒng)的特定的優(yōu)化標準或者優(yōu)化目標。因此,優(yōu)化模塊OPT的優(yōu)化目標是最大化優(yōu)選地通過多個時間步驟所累加的并且借助于報酬函數(shù)RF所確定的報酬。通過交互式地修改調(diào)整參數(shù)W,用戶可以改變報酬函數(shù)RF、優(yōu)化目標或控制標準,而且可以交互式地觀察和評價所述改變的作用。以這種方式,用戶可以快速地將優(yōu)化目標與新的情況或者與特定的目的進行適配。這允許對經(jīng)情況適應(yīng)的控制標準的快速的和靈活的優(yōu)化。
在本實施例中,通過用于技術(shù)系統(tǒng)的不同的狀態(tài)參數(shù)的具有權(quán)重的向量來示出調(diào)整參數(shù)W。借此,報酬函數(shù)RF例如可以被實施為RF=RF(Si,W)=W1·(Si)1+...+WN·(Si)N。這是在第i個時間步驟中的報酬。在這種情況下,(Si)1例如可以是描述燃燒室噪聲的狀態(tài)參數(shù),而(Si)2例如可以是描述氮氧化物的排放的狀態(tài)參數(shù)。替代地或者附加地,報酬函數(shù)RF也可以將不同的時間步驟的狀態(tài)參數(shù)進行關(guān)聯(lián)或者將整個狀態(tài)序列進行關(guān)聯(lián)。替代計算被加權(quán)的狀態(tài)參數(shù)的線性總和或者除了計算被加權(quán)的狀態(tài)參數(shù)的線性總和之外,報酬函數(shù)RF也可以非線性地通過特定的調(diào)整參數(shù)W來參數(shù)化。
仿真模塊SIM包括遞歸神經(jīng)網(wǎng)絡(luò),所述遞歸神經(jīng)網(wǎng)絡(luò)具有該技術(shù)系統(tǒng)的預先訓練的神經(jīng)模塊MTS。該神經(jīng)模塊MTS適用于處理該技術(shù)系統(tǒng)的傳感器數(shù)據(jù),而且這樣可以由現(xiàn)有的技術(shù)系統(tǒng)采用或者被進一步用于所述現(xiàn)有的技術(shù)系統(tǒng)。尤其是,描述第一系統(tǒng)狀態(tài)S0的狀態(tài)參數(shù)作為傳感器數(shù)據(jù)被傳送給仿真模塊SIM。替代遞歸神經(jīng)網(wǎng)絡(luò)地或者除了遞歸神經(jīng)網(wǎng)絡(luò)之外,在仿真模塊SIM中也可以實施支持向量機、高斯過程模型和/或物理模型來仿真該技術(shù)系統(tǒng)。
通過仿真模塊SIM來仿真對用于技術(shù)系統(tǒng)的從第一狀態(tài)S0出發(fā)的行動序列A的執(zhí)行。行動序列A包括在時間上連續(xù)的行動向量Ai, i=1,...,T、也就是說A=(A1,...,AT)的序列,其中T(如上)說明了所考慮的時間步驟的數(shù)目。行動向量Ai描述了在第i個時間步驟中在技術(shù)系統(tǒng)上進行的控制行動。對用于動態(tài)技術(shù)系統(tǒng)的調(diào)節(jié)參量的特定的調(diào)整被稱作控制行動、或者簡稱行動。例如對于燃氣輪機來說,氣體輸送、壓縮、冷卻或者其它的尤其是連續(xù)的物理調(diào)節(jié)參量被稱作針對這種調(diào)節(jié)參量的示例。
控制行動Ai使該技術(shù)系統(tǒng)從狀態(tài)Si-1變?yōu)闋顟B(tài)Si??刂菩袆覣i通過具有M個分量的向量來示出,其中M說明了該技術(shù)系統(tǒng)的調(diào)節(jié)參量的數(shù)目。因此,總體上,行動序列A通過A=(Ai)m, i=1,...,T,m=1,...,M來示出。
仿真模塊SIM借助于神經(jīng)模塊MTS來仿真該技術(shù)系統(tǒng)在行動序列A的影響下從第一系統(tǒng)狀態(tài)S0出發(fā)的動態(tài)特性。在這種情況下,預測、也就是說預告該技術(shù)系統(tǒng)的從A最終得到的后續(xù)狀態(tài)S(S0,A)=(S1,...,ST)。在這種情況下,仿真模塊SIM的遞歸神經(jīng)網(wǎng)絡(luò)優(yōu)選地只被用于仿真該技術(shù)系統(tǒng)的動態(tài)特性而且在仿真期間沒有被訓練。要執(zhí)行的行動序列A作為輸入?yún)⒘坑绕浔惠斔徒o通過仿真模塊SIM引起的遞歸神經(jīng)仿真,使得該仿真本身可以基本上與控制標準或與報酬函數(shù)RF無關(guān)地來實現(xiàn)。不同于神經(jīng)仿真,在訓練神經(jīng)控制時應(yīng)該通過該神經(jīng)控制本身來確定進行報酬優(yōu)化的行動序列。因此,神經(jīng)控制必須明確地考慮控制標準或報酬函數(shù)RF,而神經(jīng)仿真僅僅預測行動序列對系統(tǒng)特性的作用。因為對神經(jīng)網(wǎng)絡(luò)的訓練是相對耗時的,所以神經(jīng)控制只能緩慢地對報酬函數(shù)RF的改變做出反應(yīng)。不同于此,通過仿真模塊SIM來實現(xiàn)的神經(jīng)仿真本身基本上與報酬函數(shù)RF無關(guān),而且因此已經(jīng)可以例如依據(jù)真正的技術(shù)系統(tǒng)來預先訓練。
優(yōu)化模塊OPT與仿真模塊SIM耦合以及與終端T耦合。依據(jù)由終端T接收到的調(diào)整參數(shù)W,優(yōu)化模塊OPT將報酬函數(shù)RF按照RF=RF(S,W)設(shè)立為狀態(tài)序列S的函數(shù)。
優(yōu)化模塊OPT擁有行動生成器AGEN。該行動生成器AGEN在用于使累加的報酬最大化的優(yōu)化方法的范圍內(nèi)生成多個從第一系統(tǒng)狀態(tài)S0出發(fā)的行動序列A(S0),所述累加的報酬借助于所設(shè)立的報酬函數(shù)RF來確定。隨機的優(yōu)化方法和/或尤其是無梯度的優(yōu)化啟發(fā)方法(諸如粒子群優(yōu)化、遺傳優(yōu)化方法、模擬退火方法和/或隨機梯度方法)可以作為優(yōu)化方法被用于非凸的優(yōu)化問題。所生成的行動序列A(S0)中的每個都被傳送到仿真模塊SIM。在那里,從中分別最終得到的后續(xù)狀態(tài)S(S0,A)被預測而且被傳送到優(yōu)化模塊OPT。針對相應(yīng)的后續(xù)狀態(tài)S,按照當前所調(diào)整的優(yōu)化標準所要期望的報酬RF(S,W)被確定而且被傳送到行動生成器AGEN。按照所實施的優(yōu)化方法,根據(jù)所要期望的報酬來生成新的行動序列A(S0),所述新的行動序列A(S0)可期望更高的報酬。這些新的行動序列A(S0)重新被傳送到仿真模塊SIM,以便根據(jù)仿真結(jié)果重新確定為此所要期望的報酬。以這種方式,優(yōu)化模塊OPT基于仿真模塊SIM的仿真而優(yōu)化長度為T的從第一系統(tǒng)狀態(tài)S0出發(fā)的行動序列A。在這種情況下,相應(yīng)的被生成的行動序列代表如下提議:在接下來的T個時間步驟中控制該技術(shù)系統(tǒng)。一般來說,針對復雜的技術(shù)系統(tǒng)(諸如燃氣輪機),具有多個時間步驟的行動序列是必要的,以便也映射長期的動態(tài)效應(yīng)。這一般來說導致高維的優(yōu)化問題,尤其是上面所提到的隨機方法特別適用于所述高維的優(yōu)化問題。
在多次連續(xù)的優(yōu)化回合之后,在當前所調(diào)整的報酬函數(shù)RF的意義上進行報酬優(yōu)化的行動序列A'被確定。所述進行報酬優(yōu)化的行動序列A'包括(如其它的優(yōu)化序列A那樣)調(diào)節(jié)參量的向量的序列,也就是說A'=(A'i)m, i=1,...,T, m=1,...,M。所述進行報酬優(yōu)化的行動序列A'可以被理解為第一系統(tǒng)狀態(tài)S0與調(diào)整參數(shù)W的函數(shù)A'(S0,W)。因此,對第一系統(tǒng)狀態(tài)S0與調(diào)整參數(shù)W的不同的選擇允許通過優(yōu)化模塊OPT對進行報酬優(yōu)化的行動序列A'進行彼此無關(guān)的優(yōu)化。
從第一系統(tǒng)狀態(tài)S0出發(fā),通過仿真模塊SIM確定從所述進行報酬優(yōu)化的行動序列A'最終得到的狀態(tài)序列S'=(S'i)n, i=1,...,T且n=1,...,N。,最終得到的狀態(tài)序列S'對應(yīng)于由仿真模塊SIM預告的在所述進行報酬優(yōu)化的行動序列A'的作用下的系統(tǒng)特性。所述進行報酬優(yōu)化的行動序列A'(S0,W)以及所述從中最終得到的狀態(tài)序列S'(S0,W)緊接著從優(yōu)化模塊OPT被傳輸?shù)浇K端T。優(yōu)選地,也可以將報酬函數(shù)的返回值RF(S'i,W), i=1,...,T或者其它從A'和/或S'推導出的參量傳輸?shù)浇K端T。接著,通過輸出終端OUT可以以時間上的變化過程i=1,...,T來示出進行報酬優(yōu)化的行動向量A'i,最終得到的狀態(tài)向量S'i,和/或所屬的報酬值RF(S'i,W)。這允許由用戶來迅速地判斷優(yōu)化結(jié)果。據(jù)此,用戶接著可以交互式地在終端T上進行對報酬函數(shù)RF或控制標準以及初始狀態(tài)S0的進一步匹配。
由優(yōu)化模塊OPT使用的優(yōu)化方法一般來說比對神經(jīng)網(wǎng)絡(luò)的訓練顯著更快地收斂。如上面已經(jīng)提及的那樣,優(yōu)化模塊SIM的遞歸神經(jīng)網(wǎng)絡(luò)基本上與報酬函數(shù)RF無關(guān),而且不必在該報酬函數(shù)RF改變時被重新訓練。為了仿真該技術(shù)系統(tǒng),僅僅分析所述遞歸神經(jīng)網(wǎng)絡(luò)。這種分析常常也被稱作再呼叫(Recall)并且是很高效的和高性能的。因此,借助于遞歸神經(jīng)網(wǎng)絡(luò)來實施的仿真與基于快速的隨機的優(yōu)化方法的優(yōu)化的邏輯分離,允許特別高性能地和高效地確定針對被仿真的技術(shù)系統(tǒng)的進行報酬優(yōu)化的行動序列A'。
因此,對于用戶來說,在輸入新的第一系統(tǒng)狀態(tài)S0并且調(diào)整新的報酬函數(shù)RF之后,所述新的第一系統(tǒng)狀態(tài)S0和所述新的報酬函數(shù)RF的作用在短時間之后就可以被識別,使得可以由用戶交互式地在終端T上通過權(quán)衡不同的優(yōu)化目標來匹配或者優(yōu)化該報酬函數(shù)。以這種方式,交互式輔助系統(tǒng)允許關(guān)于所期望的系統(tǒng)特性快速地對報酬函數(shù)或控制標準進行交互式的優(yōu)化。
在此,該交互式輔助系統(tǒng)尤其是可以支持用戶以高效的方式在該技術(shù)系統(tǒng)的高維的行動空間內(nèi)找到最優(yōu)的工作點。在此,該用戶可以在短時間內(nèi)測試和比較不同的控制標準,而且這樣可以創(chuàng)建如下報酬函數(shù),該報酬函數(shù)在預先給定的情況下對于技術(shù)系統(tǒng)是最優(yōu)的。此外,該交互式輔助系統(tǒng)還可以被用于評估針對該技術(shù)系統(tǒng)的其它的控制,其方式是針對其它的控制的性能來提供一種參考。