本發(fā)明屬于數(shù)據(jù)處理,具體涉及一種模型引擎計算數(shù)據(jù)可信程度的計算方法及裝置。
背景技術(shù):
1、隨著大數(shù)據(jù)技術(shù)的發(fā)展,呈現(xiàn)出了數(shù)據(jù)多樣化,數(shù)據(jù)復雜化,數(shù)等復雜的場景。原有單一數(shù)據(jù)源得數(shù)據(jù)可信計算方式已經(jīng)不能滿足當前的業(yè)務需求。該可信模型算法可結(jié)局數(shù)據(jù)多樣性,影響因素多樣性得數(shù)據(jù)情況。
2、當前在構(gòu)建可信模型時,都傾向于單一因素可信分值計算。該可信計算可綜合多影響要素,放大各要素之前得區(qū)分度并以加權(quán)形式統(tǒng)一標準后計算,從而做到綜合多要素的形式計算可信分。
3、隨著數(shù)據(jù)情況越來越復雜,同時邏輯不斷變化,加大了數(shù)據(jù)區(qū)分及數(shù)據(jù)可信程度計算的難度,尤其在于使用時間維度的可信計算方法中,更多得以分段函數(shù)的形式計算,很難有效針對細小的時間差異做到實際的區(qū)分。
4、為此,一篇公開號為cn117763496a的發(fā)明專利公開一種多源數(shù)據(jù)融合屬性及關(guān)聯(lián)關(guān)系判斷方法及裝置,其包括數(shù)據(jù)采集模塊,用于由多數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)集融合形成實體對象數(shù)據(jù)集;所述實體對象數(shù)據(jù)集包括多個實體對象,每個實體對象對應的實體對象屬性、以及實體對象間關(guān)聯(lián)關(guān)系;權(quán)重特征確定模塊,用于確定用于評估觀測值可信度的權(quán)重特征,所述觀測值包括實體屬性、和/或?qū)嶓w對象間關(guān)聯(lián)關(guān)系;所述權(quán)重特征包括:基于數(shù)據(jù)源可信度的權(quán)重特征、基于觀測值出現(xiàn)頻次的權(quán)重特征、以及基于觀測值采集時間的權(quán)重特征;可信度確定模塊,用于根據(jù)所述權(quán)重特征確定所述觀測值的可信度??尚哦却_定模塊包括第一權(quán)重特征確定單元,用于基于貝葉斯模型的機器學習算法,確定觀測值對應的數(shù)據(jù)源的可信度;根據(jù)所述數(shù)據(jù)源的可信度確定所述觀測值基于數(shù)據(jù)源可信度的權(quán)重特征;第二權(quán)重特征確定單元,用于統(tǒng)計所述實體對象數(shù)據(jù)集中觀測值的出現(xiàn)頻次,并基于多數(shù)據(jù)源分組的四分位數(shù)法劃分權(quán)值區(qū)間;根據(jù)所述出現(xiàn)頻次所屬的權(quán)值區(qū)間確定基于觀測值出現(xiàn)頻次的權(quán)重特征;第三權(quán)重特征確定單元,用于通過時間衰減函數(shù),獲取基于觀測值采集時間的權(quán)重特征。
5、再例如,一篇公開號為cn111125071a的發(fā)明專利公開一種實時數(shù)據(jù)可信度的評估方法、裝置及存儲介質(zhì)與流程,通過預處理數(shù)據(jù)并輸入評估模型來輸出可信度評分。
6、再例如,李剛,李天琦,程曉榮等人發(fā)表的文章:大數(shù)據(jù)可信性度量方法([j].計算機工程與設計,2017.)提到了通過增加時間因子與懲罰因子等權(quán)重參數(shù)構(gòu)建層次化的動態(tài)大數(shù)據(jù)可信分析網(wǎng)絡模型,以計算數(shù)據(jù)的全局可信度。
7、再例如,馮焱玲等人發(fā)表的文章:基于多源異構(gòu)信息融合的數(shù)據(jù)可信度評估方法研究([d].電子科技大學,2022.)公開了一種基于多源異構(gòu)信息融合的數(shù)據(jù)可信度評估方法,通過標準化和相關(guān)性分析來評估數(shù)據(jù)的可信度。
8、上述方案中,數(shù)據(jù)可信度的評估非常依賴于初始數(shù)據(jù)質(zhì)量,如果預處理操作后的數(shù)據(jù)質(zhì)量不高,后續(xù)的可信度評估結(jié)果可能會受到很大影響,而目前的數(shù)據(jù)可信度的評估測試均基于理想狀態(tài)下的高數(shù)據(jù)質(zhì)量,現(xiàn)有技術(shù)方案在實際應用過程中其評估結(jié)果在不同的測算條件下差別很大,這給目前數(shù)據(jù)可信度評估方案的應用和推廣帶來很大困擾。
技術(shù)實現(xiàn)思路
1、在下文中給出了關(guān)于本發(fā)明實施例的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應當理解,以下概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
2、為解決上述技術(shù)問題,本發(fā)明提供一種新的可信計算方法及裝置,首先,通過改進預處理方案,使初始數(shù)據(jù)質(zhì)量得到很大的保證;其次,將時間衰減形式以更實際更合理得形式完善到模型計算中,同時可以實現(xiàn)將復雜且不易區(qū)分的數(shù)據(jù)從整體數(shù)據(jù)中分離出來,讓領(lǐng)域?qū)<覅⑴c到可信分值、可信維度定義中,達到業(yè)務規(guī)則與實際的情況一致。
3、根據(jù)本發(fā)明的一個方面,提供一種基于模型向量的可信計算方法,包括:
4、步驟1:對待處理的數(shù)據(jù)進行預處理操作,獲取帶有時間序列標簽的特征向量集;預處理操作包括異常數(shù)據(jù)清洗、異常值剔除、對數(shù)據(jù)進行輕度去重聚合、分類以及時間序列劃分;
5、步驟2:獲取經(jīng)過步驟1輸出的特征向量集的數(shù)據(jù)可信影響要素集合和數(shù)據(jù)時間維度集合,數(shù)據(jù)可信影響要素集合包括對數(shù)據(jù)可信情況具有影響的多維度的可信影響要素;所述數(shù)據(jù)時間維度集合包括與數(shù)據(jù)可信影響要素集合中的各可信影響要素對應的數(shù)據(jù)時間維度,數(shù)據(jù)時間維度用于對應可信影響要素的影響程度;
6、所述數(shù)據(jù)可信影響要素集合包括數(shù)據(jù)發(fā)現(xiàn)次數(shù)和數(shù)據(jù)發(fā)現(xiàn)頻率;
7、所述數(shù)據(jù)時間維度集合基于時間衰減函數(shù)評估時間因素,所述時間因素的評估方法包括:定義數(shù)據(jù)半衰的周期及衰減的程度作為時間衰減系數(shù);
8、其中,數(shù)據(jù)半衰的周期為m=1/2(t/t),m為最終的時間衰減系數(shù),t為時間差值,t為數(shù)據(jù)半衰周期,隨著時間差值的增加,數(shù)據(jù)的衰減程度會逐漸增大,當時間差值t為0時,表示數(shù)據(jù)沒有衰減;當時間差值t等于數(shù)據(jù)半衰周期t時,表示數(shù)據(jù)的價值或重要性降低了一半,時間衰減系數(shù)m的取值范圍為0-1,0為歷史無參考意義數(shù)據(jù),1為不受時間影響數(shù)據(jù)情況;該算法以時間衰減系數(shù)代替了常規(guī)得時間分段函數(shù)系數(shù),從而使得時間維度更具區(qū)分度,細小得時間變換可以在最終的分中體現(xiàn),極大程度上避免由于時間接近或在同一時間分值段中導致數(shù)據(jù)無法區(qū)分得情況。
9、數(shù)據(jù)可信影響要素集合為可信影響要素的結(jié)合,數(shù)據(jù)時間維度集合為時間維度的集合。其中可信影響要素為每個存在對可信度影響的單獨要素的集合,時間維度分別作用于每類單獨要素。
10、步驟3:對數(shù)據(jù)可信影響要素集合的每個可信影響要素賦予可信分值,該可信分值不小于0且不大于1;
11、對于數(shù)據(jù)時間維度集合中的每個時間維度,基于影響程度為對應可信影響要素賦予基礎(chǔ)分值作為要素分值,并計算衰減分值作為時間衰減維度,衰減分值通過下式來計算:衰減分值=時間衰減系數(shù)×要素分值。衰減分值為衰減后,每個影響可信度的因子的最終得分,作為最終進行離散計算的入?yún)⑹褂?。由于時間衰減系數(shù)的存在,會使每類資源即使在相同情況下,隨著發(fā)現(xiàn)時間不同,最終的時間衰減后的分值也存在差異,即數(shù)據(jù)越新,分值越高。
12、步驟4:對數(shù)據(jù)可信影響要素集合和數(shù)據(jù)時間維度集合中的各要素進行變異系數(shù)計算,變異系數(shù)計算即計算各要素在整體數(shù)據(jù)中的離散程度,變異系數(shù)=標準差/平均值。為放大每類可信影響要素要素對數(shù)據(jù)可信情況的影響,針對每類可信影響要素要素,計算出每類單一要素在整體數(shù)據(jù)中的離散程度,即變異系數(shù)(又稱離散系數(shù)),離散程度越高,系數(shù)越大,數(shù)據(jù)可信區(qū)分度越高,影響數(shù)據(jù)準確性越大。根據(jù)相同算法,計算出每一類可信影響要素要素的變異系數(shù)。
13、步驟5:變異比重計算:通過下式計算各要素分值可信比重,要素分值可信比重=各要素變異系數(shù)/各要素變異系數(shù)總和;計算出每一類可信影響要素的變異系數(shù);
14、步驟6:加權(quán)比重計算:基于步驟5計算出的各要素可信分值比重,計算出每類要素在最終可信分值下的占比(單一要素分值=要素分值可信比重×單一要素賦予分值),最終結(jié)果為各要素結(jié)果的加權(quán)分之和,即為最終可信得分,該最終可信得分以0-1分值形式直觀展示,即可清晰反映出數(shù)據(jù)的準確程度。最終可信分=各單一要素分值之和。
15、雖然現(xiàn)有技術(shù)同樣也對數(shù)據(jù)進行了預處理操作,但當前方法可能未能充分考慮數(shù)據(jù)清洗、缺失值處理和異常值檢測等關(guān)鍵步驟,這可能導致最終結(jié)果的準確性受到影響。且因可信計算方法非常依賴于初始數(shù)據(jù)質(zhì)量,因此對數(shù)據(jù)預處理的要求較高,為此,本發(fā)明特別設計了一種適用于可信度計算的神經(jīng)網(wǎng)絡模型,使用該神經(jīng)網(wǎng)絡模型進行預處理,輸出質(zhì)量高的數(shù)據(jù),來無限接近理論可信度評估結(jié)果。同時,現(xiàn)有技術(shù)雖然也有增加時間維度要素,但是現(xiàn)有技術(shù)具有如下缺陷:僅增加時間衰減函數(shù),無法全面反映數(shù)據(jù)隨時間變化的復雜性,特別是在數(shù)據(jù)時效性方面,未能充分考慮數(shù)據(jù)更新頻率和時效性對可信度的影響。
16、具體的,該神經(jīng)網(wǎng)絡模型包括離線使用的改進決策樹和實時檢測的第一卷積神經(jīng)網(wǎng)絡,改進決策樹為融合了第二卷積神經(jīng)網(wǎng)絡的決策樹;
17、其中,改進決策樹包括根節(jié)點和葉節(jié)點,每個節(jié)點包括一個第二卷積神經(jīng)網(wǎng)絡;根節(jié)點用于對待處理的數(shù)據(jù)進行大致分類,然后再傳入到下一層的葉節(jié)點,對大致分類后的待處理數(shù)據(jù)進一步識別,同時去除待處理數(shù)據(jù)冗余或無關(guān)的特征,最終在葉節(jié)點輸出異常數(shù)據(jù)清洗、異常值剔除、對數(shù)據(jù)進行輕度去重聚合后的待檢測數(shù)據(jù)集;第二卷積神經(jīng)網(wǎng)絡為現(xiàn)有的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu),其包括輸入層、卷積層、池化層、全連接層和輸出層,池化層采用最大池化方法,其他采用一般現(xiàn)有卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)實現(xiàn)。因神經(jīng)網(wǎng)絡模型在大量數(shù)據(jù)檢測時會存在檢測速度慢的缺陷,因此該改進決策樹可離線使用,每天新增的大量待檢測數(shù)據(jù)經(jīng)過改進決策樹進行定時處理,過濾大量的異常數(shù)據(jù),保留正常數(shù)據(jù)(疑似異常數(shù)據(jù)可視情況保留),因此,大大加快了整個模型的數(shù)據(jù)處理速度。同時,為避免大量待檢測數(shù)據(jù)導致決策樹的結(jié)構(gòu)發(fā)生大的改變,設置該決策樹的深度為3或4,并設置剪枝參數(shù)范圍為[0.009-0.011]來控制樹的生長。
18、其中第一卷積神經(jīng)網(wǎng)絡為二維卷積神經(jīng)網(wǎng)絡cnn,該第一卷積神經(jīng)網(wǎng)絡依次包括第一卷積層、第一批量歸一化層、第一最大池化層、第二卷積層、第二批量歸一化層、第二最大池化層、第三卷積層、第三批量歸一化層和隨機失活層,第一卷積層、第二卷積層和第三卷積層均為3×3卷積層,第一最大池化層和第二最大池化層為2×2最大池化層;待處理的數(shù)據(jù)經(jīng)過改進決策樹處理后輸出帶有標簽(判斷結(jié)果)的待檢測數(shù)據(jù)集,依次經(jīng)過第一卷積層、第一最大池化層、第二卷積層、第二最大池化層、第三卷積層和展平層,最后輸出帶有時間序列標簽的特征向量集。
19、訓練卷積神經(jīng)網(wǎng)絡cnn的過程為:將數(shù)據(jù)集輸入到第一個卷積層,第一個卷積層生成32張?zhí)卣鲌D,再經(jīng)過第一批量歸一化層處理后輸送至第一最大池化層處理,接著輸入第二卷積層從而生成64張?zhí)卣鲌D,然后經(jīng)過第二批量歸一化層和第二最大池化層處理,接著輸入第三卷積層從而生成128張?zhí)卣鲌D,經(jīng)過第三批量歸一化層、隨機失活層和扁平化層將特征圖展平為一維向量,生成分類以及時間序列劃分后(可設計為不同標簽)的特征向量集。該特征向量集帶有時間序列標簽,考慮了數(shù)據(jù)的更新頻率、時效性和歷史趨勢,以更準確地反映時間因素的影響;充分考慮了數(shù)據(jù)更新頻率和時效性對可信度的影響,該特征向量集的標簽包括時間維度標簽,捕獲時序依賴性,從而全面反映數(shù)據(jù)隨時間變化的復雜性。
20、第一卷積神經(jīng)網(wǎng)絡經(jīng)過改進,在每個卷積層后增加一批量歸一化層,并增加一個隨機失活層dropout,來減少過擬合;引入了兩個最大池化層,可以幫助模型捕捉更豐富的特征,并提高泛化能力。隨機失活層為一種正則化技術(shù),用于防止神經(jīng)網(wǎng)絡在訓練過程中出現(xiàn)過擬合。批量歸一化可以加速訓練過程,減少對初始化的依賴,同樣有助于減少過擬合。
21、這種神經(jīng)網(wǎng)絡模型結(jié)合了cnn強大的特征提取能力和決策樹的決策邏輯,使用時,新增的待檢測數(shù)據(jù)定時經(jīng)由神經(jīng)網(wǎng)絡模型的改進決策樹,得到待檢測數(shù)據(jù)集,再將待檢測數(shù)據(jù)集輸入第一卷積神經(jīng)網(wǎng)絡,從而獲得得到精準分類的特征向量集。
22、現(xiàn)有技術(shù)的可信計算方案一般僅適用于特定領(lǐng)域,本發(fā)明通過上述神經(jīng)網(wǎng)絡模型的數(shù)據(jù)預處理,可使其廣泛應用于各種領(lǐng)域的數(shù)據(jù)預測。同時,現(xiàn)有技術(shù)中的變異系數(shù)計算無法完全捕捉數(shù)據(jù)的離散程度和波動性,特別是在高維數(shù)據(jù)或復雜數(shù)據(jù)結(jié)構(gòu)中,可能導致評估結(jié)果的偏差,本發(fā)明通過上述神經(jīng)網(wǎng)絡模型的預處理,克服了該問題。此外,現(xiàn)有技術(shù)缺乏對模型決策過程的透明度和解釋能力,本發(fā)明通過上述神經(jīng)網(wǎng)絡模型中的決策樹,大大方便了用戶理解評估結(jié)果的來源和合理性。
23、根據(jù)本發(fā)明的另一方面,還提供一種基于模型向量的可信計算裝置,該裝置用于執(zhí)行上述可信計算方法,其包括:
24、預處理模塊:用于對待處理的數(shù)據(jù)進行預處理操作,獲取帶有時間序列標簽的特征向量集;預處理操作包括異常數(shù)據(jù)清洗、異常值剔除、對數(shù)據(jù)進行輕度去重聚合、分類以及時間序列劃分;
25、數(shù)據(jù)處理模塊:獲取經(jīng)過預處理模塊輸出的特征向量集的數(shù)據(jù)可信影響要素集合和數(shù)據(jù)時間維度集合,數(shù)據(jù)可信影響要素集合包括對數(shù)據(jù)可信情況具有影響的多維度的可信影響要素;所述數(shù)據(jù)時間維度集合包括與數(shù)據(jù)可信影響要素集合中的各可信影響要素對應的數(shù)據(jù)時間維度,數(shù)據(jù)時間維度用于對應可信影響要素的影響程度;
26、其中,數(shù)據(jù)半衰的周期為m=1/2^(t/t),m為最終的時間衰減系數(shù),t為時間差值,t為數(shù)據(jù)半衰周期;時間衰減系數(shù)m的取值范圍為0-1,0為歷史無參考意義數(shù)據(jù),1為不受時間影響數(shù)據(jù)情況;
27、可信分賦值模塊:對數(shù)據(jù)可信影響要素集合的每個可信影響要素賦予可信分值,該可信分值不小于0且不大于1;
28、衰減分值計算模塊:對于數(shù)據(jù)時間維度集合中的每個時間維度,基于影響程度為對應可信影響要素賦予基礎(chǔ)分值作為要素分值,并計算衰減分值作為時間衰減維度,衰減分值通過下式來計算:衰減分值=時間衰減系數(shù)×要素分值;
29、變異系數(shù)計算模塊:對數(shù)據(jù)可信影響要素集合和數(shù)據(jù)時間維度集合中的各要素進行變異系數(shù)計算,變異系數(shù)計算即計算各要素在整體數(shù)據(jù)中的離散程度,變異系數(shù)=標準差/平均值;
30、變異比重計算模塊:用于計算各要素分值可信比重,要素分值可信比重=各要素變異系數(shù)/各要素變異系數(shù)總和;
31、加權(quán)比重計算模塊:基于變異比重計算模塊計算出的各要素可信分值比重,計算出每類要素在最終可信分值下的占比,單一要素分值=要素分值可信比重×單一要素賦予分值,最終結(jié)果為各要素結(jié)果的加權(quán)分之和,即為最終可信得分;
32、該基于模型向量的可信計算裝置用于實現(xiàn)上述基于模型向量的可信計算方法。
33、本發(fā)明的可信計算方法利用數(shù)據(jù)統(tǒng)計學方法,時間半衰法,離散系數(shù)法及加權(quán)平均法。基于以上方法,可統(tǒng)一數(shù)據(jù)衡量對比維度,以及放大由于時間發(fā)展對數(shù)據(jù)本身的可信程度影響。同時能夠?qū)毿〉脮r間變化產(chǎn)生實質(zhì)上得分值區(qū)分。
34、同時,本發(fā)明提供了整體模型構(gòu)建框架,可自由靈活調(diào)整數(shù)據(jù)影響維度,時間衰減周期及可信分值影響比率,便于使用者在開發(fā)使用過程中的積累調(diào)整。
35、另外,本發(fā)明中,可信分值影響要素無要素數(shù)量限制,可自由增減。完善的區(qū)分維度有利于最終可信計算結(jié)果的準確性。維度可包含影響要素準確性的所有維度,例如時間,環(huán)境,對象特征,歷史計算因素等存在對最終結(jié)果相關(guān)的維度。
36、使用時,只要將數(shù)據(jù)可信影響要素基礎(chǔ)分值及影響條件賦予模型就可以實現(xiàn)最終可信分值的計算邏輯,最終結(jié)果以0-1分值形式直觀展示,清晰反映出數(shù)據(jù)的準確程度。因此,本發(fā)明具有很好的實用性。
37、與現(xiàn)有技術(shù)相比,本發(fā)明通過使用神經(jīng)網(wǎng)絡模型的改進預處理方案,獲得更高質(zhì)量的初始數(shù)據(jù)集合,大大增強了可信計算方法在實際應用過程中的評估結(jié)果;同時,還具有廣泛應用于各種領(lǐng)域的數(shù)據(jù)預測、增強了對模型決策過程的透明度和解釋能力等優(yōu)勢。其次,將時間衰減形式以更實際更合理得形式完善到模型計算中,同時可以實現(xiàn)將復雜且不易區(qū)分的數(shù)據(jù)從整體數(shù)據(jù)中分離出來,讓領(lǐng)域?qū)<覅⑴c到可信分值、可信維度定義中,達到業(yè)務規(guī)則與實際的情況一致。