本發(fā)明數(shù)據(jù)源同步涉及,具體地說,涉及基于異構(gòu)數(shù)據(jù)源同步的企業(yè)管理系統(tǒng)。
背景技術(shù):
1、企業(yè)內(nèi)部各部門有著不同的業(yè)務(wù)職能和工作流程,例如銷售部門需要專門的客戶關(guān)系管理系統(tǒng)(crm)來跟蹤客戶信息、記錄銷售訂單等,財務(wù)部門則依賴財務(wù)軟件來管理賬務(wù)、核算成本與利潤等,不同的業(yè)務(wù)系統(tǒng)都是基于各自特定的業(yè)務(wù)需求而獨立建設(shè)和選用的,所以數(shù)據(jù)會按照各自系統(tǒng)設(shè)定的存儲方式進行保存,形成多樣化且分散的存儲格局;
2、因企業(yè)領(lǐng)導需要從宏觀角度把握公司整體運營情況,如銷售數(shù)據(jù)反映市場需求和產(chǎn)品競爭力,現(xiàn)有的技術(shù)企業(yè)領(lǐng)導查看不同部門數(shù)據(jù)時,通常需要企業(yè)系統(tǒng)管理員通過各種連接方式將不同數(shù)據(jù)源連接,而后提取不同部門的數(shù)據(jù)供領(lǐng)導查看。
3、然而,由于各個區(qū)不同部門數(shù)據(jù)格式存在差異,在提取數(shù)據(jù)時,如果無法對數(shù)據(jù)開展標準化處理,將會使得企業(yè)領(lǐng)導或數(shù)據(jù)分析人員在查看和理解數(shù)據(jù)時,容易產(chǎn)生混淆,無法準確把握數(shù)據(jù)所代表的實際業(yè)務(wù)含義,例如,在銷售數(shù)據(jù)中,一個數(shù)據(jù)源可能將客戶購買的產(chǎn)品類別標記為“電子產(chǎn)品”“家居用品”,而另一個數(shù)據(jù)源可能細分為“智能手機”“電腦”“家具”“廚具”等更具體的類別;
4、數(shù)據(jù)之間的關(guān)聯(lián)承載著重要的業(yè)務(wù)邏輯和信息,例如在企業(yè)的銷售業(yè)務(wù)中,訂單數(shù)據(jù)與客戶數(shù)據(jù)存在關(guān)聯(lián),通過這種關(guān)聯(lián)能知曉每個訂單對應(yīng)的具體客戶信息、購買歷史等,如果在提取數(shù)據(jù)時未同步提取關(guān)聯(lián)性,那么在企業(yè)領(lǐng)導查看數(shù)據(jù)庫倉庫中數(shù)據(jù)時,由于數(shù)據(jù)分散和關(guān)聯(lián)性不明,獲取全面的決策所需數(shù)據(jù)會變得很繁瑣,需要從多個系統(tǒng)中收集和整合數(shù)據(jù),將會降低決策效率,鑒于此,我們提出基于異構(gòu)數(shù)據(jù)源同步的企業(yè)管理系統(tǒng)。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于解決問題不能將不同部門之間的數(shù)據(jù)進行標準化處理,且在對企業(yè)數(shù)據(jù)提取過程中,無法將企業(yè)數(shù)據(jù)中存在關(guān)聯(lián)性的數(shù)據(jù)同步提取。
2、為實現(xiàn)上述目的,本發(fā)明提供能夠在將企業(yè)不同數(shù)據(jù)源進行標準化處理,并將不同數(shù)據(jù)源中數(shù)據(jù)同步至數(shù)據(jù)倉庫的基于異構(gòu)數(shù)據(jù)源同步的企業(yè)管理系統(tǒng),包括異構(gòu)數(shù)據(jù)源提取模塊、表名相同關(guān)系建立模塊和數(shù)據(jù)整理同步模塊;
3、所述異構(gòu)數(shù)據(jù)源提取模塊通過api函數(shù)提取異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)、數(shù)據(jù)格式和表名,分別標準化處理異構(gòu)數(shù)據(jù)源中數(shù)據(jù)和數(shù)據(jù)格式;
4、所述表名相同關(guān)系建立模塊運用余弦相似度算法計算標準化后表名語義的余弦相似度,設(shè)定相似度區(qū)間閾值,異構(gòu)數(shù)據(jù)源中表名語義余弦相似度處于相似度區(qū)間閾值內(nèi)時,則將表名建立相同關(guān)系,通過計算余弦相似度并設(shè)定閾值來建立表名相同關(guān)系;
5、所述數(shù)據(jù)整理同步模塊用于根據(jù)所述表名相同關(guān)系建立模塊建立相同關(guān)系,將異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)集合整理,整理過程中若數(shù)據(jù)集合存在關(guān)聯(lián)性時,則將整理完成的數(shù)據(jù)集合與存在關(guān)聯(lián)性的數(shù)據(jù)集合同步更新至數(shù)據(jù)倉庫中,供企業(yè)領(lǐng)導查看。
6、所述異構(gòu)數(shù)據(jù)源提取模塊提取異構(gòu)數(shù)據(jù)源中數(shù)據(jù)的步驟如下:
7、調(diào)用與異構(gòu)數(shù)據(jù)源協(xié)議格式匹配的api函數(shù),將認證令牌發(fā)送至異構(gòu)數(shù)據(jù)源;
8、異構(gòu)數(shù)據(jù)源接收到認證令牌后,按照自身的驗證機制對認證令牌進行認證;
9、認證令牌符合異構(gòu)數(shù)據(jù)源的驗證機制時,異構(gòu)數(shù)據(jù)源向異構(gòu)數(shù)據(jù)源提取模塊發(fā)送連接成功的響應(yīng),則說明建立連接成功,反之,則說明建立連接失?。?/p>
10、連接成功時,通過建立的連接對異構(gòu)數(shù)據(jù)源中數(shù)據(jù)和數(shù)據(jù)格式分別提??;
11、調(diào)用與異構(gòu)數(shù)據(jù)源協(xié)議格式匹配的api函數(shù)時,異構(gòu)數(shù)據(jù)源的協(xié)議格式通過企業(yè)系統(tǒng)中管理員獲取。
12、所述異構(gòu)數(shù)據(jù)源提取模塊標準化處理異構(gòu)數(shù)據(jù)源中數(shù)據(jù)、數(shù)據(jù)格式和表名的步驟如下:
13、建立數(shù)據(jù)倉庫,并設(shè)定企業(yè)管理系統(tǒng)對應(yīng)的構(gòu)建規(guī)則;
14、構(gòu)建規(guī)則詳細規(guī)定異構(gòu)數(shù)據(jù)源中數(shù)據(jù)和數(shù)據(jù)格式需轉(zhuǎn)換的要求;
15、接收從異構(gòu)數(shù)據(jù)源中提取的數(shù)據(jù)和數(shù)據(jù)格式,并判斷數(shù)據(jù)類型;
16、數(shù)據(jù)類型≠構(gòu)建規(guī)則時,處理函數(shù)根據(jù)對比結(jié)果執(zhí)行相應(yīng)的轉(zhuǎn)換操作,將與構(gòu)建規(guī)則不同的數(shù)據(jù)類型轉(zhuǎn)換為符合構(gòu)建規(guī)則的格式;
17、處理函數(shù)通過異構(gòu)數(shù)據(jù)源協(xié)議格式確定。
18、所述異構(gòu)數(shù)據(jù)源提取模塊判斷異構(gòu)數(shù)據(jù)源中數(shù)據(jù)和數(shù)據(jù)格式對應(yīng)數(shù)據(jù)類型的步驟如下:
19、根據(jù)異構(gòu)數(shù)據(jù)源中數(shù)據(jù)和數(shù)據(jù)格式的外在表現(xiàn)形式判斷數(shù)據(jù)類型;
20、對于數(shù)字類型檢查是否只包含數(shù)字字符和數(shù)字相關(guān)符號,包含數(shù)字和小數(shù)點的字符串,且符合數(shù)字格式規(guī)范,則判斷為數(shù)值類型;
21、查找小數(shù)點的位置,計算小數(shù)點后的字符數(shù)量確定精度;
22、對于日期類型,則尋找具有日期特征的字符串,如包含數(shù)字組合以及常見的日期分隔符,“-”、“/”,且數(shù)字范圍符合日期范圍的字符串判斷為日期類型,根據(jù)常見的日期格式分析日期字符串中各部分的排列順序。
23、所述表名相同關(guān)系建立模塊運用余弦相似度算法計算表名語義余弦相似度的步驟如下:
24、接收所述異構(gòu)數(shù)據(jù)源提取模塊中標準化后的表名;
25、通過詞向量模型,將不同異構(gòu)數(shù)據(jù)源中的表名均轉(zhuǎn)換為向量表示:
26、依次計算表名的余弦相似度:
27、余弦相似度衡量的是兩個向量在向量空間中的夾角余弦值,其計算公式為:
28、
29、其中,是向量和的點積,計算公式為也就是將兩個向量對應(yīng)維度的值相乘后再求和;
30、和分別是向量和的模長,計算方式分別為和
31、所述表名相同關(guān)系建立模塊中通過詞向量模型,將不同異構(gòu)數(shù)據(jù)源中的表名均轉(zhuǎn)換為向量的步驟如下:
32、詞匯表生成:通過網(wǎng)絡(luò)爬蟲在網(wǎng)絡(luò)平臺中收集大量的文本數(shù)據(jù);
33、對收集文本數(shù)據(jù)中的單詞進行統(tǒng)計,構(gòu)建一個詞匯表;
34、共現(xiàn)矩陣構(gòu)建:創(chuàng)建一個矩陣,行和列都代表詞匯表中的單詞,矩陣中的元素用于記錄兩個單詞在給定的文本窗口內(nèi)共同出現(xiàn)的次數(shù);
35、對共現(xiàn)矩陣的行進行歸一化,使得每個單詞對應(yīng)的向量元素之和為1;
36、向量表示單詞與其他單詞共現(xiàn)的概率分布,反映單詞的語義信息。
37、所述表名相同關(guān)系建立模塊通過網(wǎng)絡(luò)爬蟲獲取大量文本數(shù)據(jù)的步驟如下:
38、網(wǎng)絡(luò)爬蟲使用http協(xié)議向存有文本數(shù)據(jù)的網(wǎng)站的網(wǎng)絡(luò)平臺發(fā)送獲取請求,告知不同的網(wǎng)絡(luò)平臺需要獲取文本數(shù)據(jù);
39、網(wǎng)絡(luò)平臺接收到請求后,返回請求成功和請求失敗的響應(yīng),請求失敗時,網(wǎng)絡(luò)爬蟲繼續(xù)向不同的網(wǎng)絡(luò)平臺發(fā)送請求,直至請求成功;
40、請求成功時,獲取文本數(shù)據(jù)。
41、所述表名相同關(guān)系建立模塊中設(shè)定相似度區(qū)間的步驟如下:
42、隨機設(shè)定符合初始[-1,1]的初始相似度區(qū)間閾值|x1,x2|,若x1<cos(θ)<x2,則說明表名語義相似,依次將異構(gòu)數(shù)據(jù)源中語義相似的表名建立相同關(guān)系;
43、其中,cos(θ)為表名語義的余弦相似度;
44、接收所述異構(gòu)數(shù)據(jù)源提取模塊中判斷的數(shù)據(jù)類型,調(diào)取表名相同關(guān)系建立模塊中具有相同關(guān)系的表名;
45、將具有相同關(guān)系表名對應(yīng)的數(shù)據(jù)類型對比,數(shù)據(jù)類型相同時,則認為它們在數(shù)據(jù)類型上匹配,記為1,否則記為0;
46、計算公式如下:
47、
48、其中,data1和data2是要進行比較的兩個數(shù)據(jù),type(data)表示數(shù)據(jù)data的類型;
49、存在數(shù)據(jù)類型不匹配的情況時,調(diào)出不匹配數(shù)據(jù)類型對應(yīng)表名語義的余弦相似度集合為cos(θ1),cos(θ2),…,cos(θi),且cos(θ1)<cos(θ2)<,…,<cos(θi);
50、cos(θi)<x1時,則調(diào)整初始相似度區(qū)間閾值為:|cos(θi),x2|,并重新建立語義相似表名的相同關(guān)系。
51、所述數(shù)據(jù)整理同步模塊對數(shù)據(jù)集合整理的步驟如下:
52、接收所述異構(gòu)數(shù)據(jù)源提取模塊中標準化后表名對應(yīng)的數(shù)據(jù)集合x=[x1,x2,…,xn]和y=[y1,y2,…,yn],且x和y已通過所述表名相同關(guān)系建立模塊建立相同關(guān)系;
53、調(diào)出x中的任意數(shù)據(jù)x1,循環(huán)遍歷y;
54、若x1=y(tǒng)1,則任意取x1和y1中的一個數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)存儲至所述異構(gòu)數(shù)據(jù)源提取模塊建立的數(shù)據(jù)倉庫中;
55、若數(shù)據(jù)x1≠y1時,則說明循環(huán)遍歷y,未找到與之相同的數(shù)據(jù)時,則將x1更新至所述異構(gòu)數(shù)據(jù)源提取模塊的數(shù)據(jù)倉庫中。
56、所述數(shù)據(jù)整理同步模塊轉(zhuǎn)移關(guān)聯(lián)性的步驟如下:
57、首先,分別數(shù)據(jù)集合x=[x1,x2,…,xn]和y=[y1,y2,…,yn]的均值:
58、
59、計算皮爾遜相關(guān)系數(shù):
60、
61、其中,表示x和y中每個數(shù)據(jù)點與各自均值偏離值的乘積之和,體現(xiàn)兩個變量協(xié)同變化的程度,是x和y標準差的乘積,用于標準化這個協(xié)同變化的程度;
62、皮爾遜相關(guān)系數(shù)r的取值范圍是[-1,1],判斷數(shù)據(jù)集合x和y是否存在關(guān)聯(lián)性的計算公式如下:
63、x和y的r=1時,說明x和y之間存在完全正相關(guān)關(guān)系,即一個集合中的數(shù)據(jù)增加時,另一個集合中的數(shù)據(jù)也會同向增加;
64、x和y的r=-1,說明x和y之間存在完全負相關(guān)關(guān)系,即一個集合中的數(shù)據(jù)增加時,另一個集合中的數(shù)據(jù)會反向減少;
65、x和y的r=0時,說明x和y之間不存在線性相關(guān)關(guān)系;
66、x和y存在關(guān)聯(lián)性時,將關(guān)聯(lián)性和對應(yīng)的數(shù)據(jù)集合同步更新至所述異構(gòu)數(shù)據(jù)源提取模塊的數(shù)據(jù)倉庫中。
67、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
68、1、該基于異構(gòu)數(shù)據(jù)源同步的企業(yè)管理系統(tǒng)中,本系統(tǒng)通過異構(gòu)數(shù)據(jù)源提取模塊提取異構(gòu)數(shù)據(jù)源中的數(shù)據(jù),并在提取的過程中標準化處理異構(gòu)數(shù)據(jù)源中數(shù)據(jù)和數(shù)據(jù)格式,表名相同關(guān)系建立模塊計算標準化后表名的余弦相似度,依據(jù)余弦相似度判斷表名語義是否相似,語義相同時建立表名的相同關(guān)系,且再次通過表名對應(yīng)標準化后數(shù)據(jù)驗證相同關(guān)系是否正確,在整合異構(gòu)數(shù)據(jù)源數(shù)據(jù)時,通過科學的計算和驗證建立表名的相同關(guān)系,然后基于這種表名關(guān)系再通過對應(yīng)標準化后的數(shù)據(jù)進一步驗證,環(huán)環(huán)相扣地去確認數(shù)據(jù)之間的正確關(guān)聯(lián),能夠更加準確地梳理出異構(gòu)數(shù)據(jù)源中數(shù)據(jù)集合之間的關(guān)聯(lián)關(guān)系,保證數(shù)據(jù)在整合過程中是按照真實的業(yè)務(wù)邏輯關(guān)聯(lián)。
69、2、該基于異構(gòu)數(shù)據(jù)源同步的企業(yè)管理系統(tǒng)中,數(shù)據(jù)整理同步模塊根據(jù)表名建立的相同關(guān)系,將表名對應(yīng)數(shù)據(jù)集合中重復(fù)的數(shù)據(jù)整理,并保存至數(shù)據(jù)倉庫中,且再分別計算相同關(guān)系表名對應(yīng)數(shù)據(jù)的皮爾遜相關(guān)系數(shù),確定不同表名之間的關(guān)聯(lián)性,同步更新至數(shù)據(jù)倉庫中,供企業(yè)領(lǐng)導查看,數(shù)據(jù)整理同步模塊相關(guān)操作從數(shù)據(jù)整合的細節(jié)到數(shù)據(jù)關(guān)系的深度挖掘以及數(shù)據(jù)倉庫的動態(tài)更新等多方面進行優(yōu)化,形成一個更加完善的數(shù)據(jù)管理和應(yīng)用流程,提升企業(yè)整體的數(shù)據(jù)管理水平,確保數(shù)據(jù)資產(chǎn)能夠高效轉(zhuǎn)化為有價值的決策信息,幫助企業(yè)管理者更好地應(yīng)對復(fù)雜多變的市場環(huán)境,做出精準、及時的決策,增強企業(yè)的競爭力和可持續(xù)發(fā)展能力。