本發(fā)明涉及網(wǎng)絡(luò)安全與信息,具體涉及一種網(wǎng)頁(yè)篡改的識(shí)別方法。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)技術(shù)的飛速進(jìn)步,人類(lèi)社會(huì)經(jīng)歷了前所未有的變革?;ヂ?lián)網(wǎng)不僅極大地改變了人們的學(xué)習(xí)、工作、生活方式和社會(huì)互動(dòng)模式,還對(duì)經(jīng)濟(jì)、政治、社會(huì)等多個(gè)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響,推動(dòng)了社會(huì)的全面發(fā)展。
2、作為互聯(lián)網(wǎng)信息傳遞和服務(wù)提供的核心載體,網(wǎng)站和網(wǎng)頁(yè)承載著人們?nèi)粘+@取資訊、進(jìn)行社交、購(gòu)物、學(xué)習(xí)、娛樂(lè)等多種需求。然而,互聯(lián)網(wǎng)的普及和便利也為不法分子提供了可乘之機(jī)。他們通過(guò)建立非法網(wǎng)站、發(fā)布違法信息和內(nèi)容,或從事非法物品的交易,以此規(guī)避傳統(tǒng)監(jiān)管機(jī)制,直接向廣大網(wǎng)民傳播不良信息,并從中牟取暴利。這種行為給人類(lèi)社會(huì)帶來(lái)了極大的負(fù)面影響。
3、網(wǎng)頁(yè)篡改作為一種典型的網(wǎng)絡(luò)犯罪行為,其手段多樣且隱蔽性強(qiáng)。不法分子通過(guò)利用網(wǎng)站的安全漏洞,篡改網(wǎng)頁(yè)內(nèi)容,植入色情、賭博、毒品、暴力、虛假?gòu)V告等惡意信息,以達(dá)到提升其非法網(wǎng)站的搜索引擎優(yōu)化(seo)排名,或通過(guò)提供鏈接支持其非法活動(dòng)的目的。這些篡改行為不僅直接損害了網(wǎng)站本身、企業(yè)和用戶(hù)的利益,還可能對(duì)社會(huì)穩(wěn)定、網(wǎng)絡(luò)環(huán)境,甚至國(guó)家安全、法律監(jiān)管等方面構(gòu)成嚴(yán)重威脅。
4、在網(wǎng)頁(yè)篡改的過(guò)程中,黑客和非法分子往往會(huì)利用ncr(numeric?characterreference,數(shù)字字符引用)轉(zhuǎn)義字符來(lái)隱藏篡改的內(nèi)容,避免被直接識(shí)別。ncr作為一種字符轉(zhuǎn)義表示方法,常用于html、xml等標(biāo)記語(yǔ)言中,通過(guò)字符的unicode碼點(diǎn)來(lái)表示目標(biāo)字符。通過(guò)在網(wǎng)頁(yè)中使用ncr轉(zhuǎn)義字符,不法分子可以將篡改的內(nèi)容隱藏起來(lái),提高攻擊的隱蔽性,從而增加了網(wǎng)頁(yè)篡改的識(shí)別難度。
5、網(wǎng)頁(yè)的tdk(title、description、keywords)作為網(wǎng)頁(yè)的核心元數(shù)據(jù),對(duì)網(wǎng)頁(yè)的seo、用戶(hù)體驗(yàn)以及社交媒體分享等方面都起著重要作用。因此,黑客在篡改網(wǎng)頁(yè)時(shí),更傾向于篡改網(wǎng)頁(yè)的tdk部分,以達(dá)到提升自己的網(wǎng)站排名、引導(dǎo)惡意流量、執(zhí)行社會(huì)工程學(xué)攻擊等目的。然而,除了tdk部分,黑客有時(shí)也會(huì)選擇對(duì)網(wǎng)頁(yè)中的其他部分進(jìn)行篡改,如修改或增加網(wǎng)頁(yè)中的鏈接(link)和文本(text)內(nèi)容,以達(dá)到其非法目的。
6、ncr(numeric?character?reference,數(shù)字字符引用)是一種字符轉(zhuǎn)義表示方法,常用于html、xml等標(biāo)記語(yǔ)言中。它通過(guò)使用字符的unicode碼點(diǎn)(unicode?code?point)來(lái)表示目標(biāo)字符,用于在網(wǎng)頁(yè)中表示特殊字符或非當(dāng)前網(wǎng)頁(yè)編碼集的字符。
7、ncr采用以下兩種形式之一表示:十進(jìn)制表示法:&#d;(其中d為字符的unicode碼點(diǎn)的十進(jìn)制值),十六進(jìn)制表示法:&#xh;(其中h為字符的unicode碼點(diǎn)的十六進(jìn)制值)。(例如“中國(guó)”的ncr表示,十進(jìn)制表示為:中;国;十六進(jìn)制表示為:中;国;)
8、當(dāng)瀏覽器解析網(wǎng)頁(yè)時(shí),如果遇到網(wǎng)頁(yè)中的ncr字符,瀏覽器能夠正確處理這些字符。具體來(lái)說(shuō),瀏覽器會(huì)將ncr解碼為相應(yīng)的字符,并正確地顯示網(wǎng)頁(yè)內(nèi)容。通過(guò)在網(wǎng)頁(yè)中使用ncr,可以保證那些特殊字符在瀏覽器中能夠正確顯示,而不會(huì)因字符沖突或編碼不一致而引發(fā)解析錯(cuò)誤。
9、網(wǎng)頁(yè)使用ncr轉(zhuǎn)義字符的方法,雖然有助于表示特殊字符和處理編碼問(wèn)題,但也被不法分子利用。攻擊者也可以通過(guò)該方法,將篡改的內(nèi)容轉(zhuǎn)義為ncr,再植入到篡改的頁(yè)面中,從而實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的篡改。經(jīng)過(guò)ncr轉(zhuǎn)義字符的網(wǎng)頁(yè)篡改,可以有效地隱藏惡意內(nèi)容,避免被直接識(shí)別,同時(shí)還保證瀏覽器和搜索引擎的解析結(jié)果不受影響。這種方法提升了攻擊的隱蔽性,增加了網(wǎng)頁(yè)篡改的識(shí)別難度。因而在網(wǎng)頁(yè)篡改中被廣泛使用。
10、為了應(yīng)對(duì)網(wǎng)頁(yè)篡改帶來(lái)的挑戰(zhàn),網(wǎng)頁(yè)篡改識(shí)別技術(shù)應(yīng)運(yùn)而生。該技術(shù)通過(guò)一系列技術(shù)手段,及時(shí)檢測(cè)和識(shí)別網(wǎng)頁(yè)內(nèi)容是否受到惡意篡改,以確保網(wǎng)頁(yè)內(nèi)容的完整性和正常性。隨著網(wǎng)絡(luò)安全威脅的不斷演進(jìn),網(wǎng)頁(yè)篡改的檢測(cè)技術(shù)也不斷發(fā)展和完善。然而,現(xiàn)有的網(wǎng)頁(yè)篡改識(shí)別技術(shù)在面對(duì)通過(guò)ncr轉(zhuǎn)義字符隱藏的篡改內(nèi)容時(shí),仍存在較大的識(shí)別難度。因此,需要一種更為全面、準(zhǔn)確的網(wǎng)頁(yè)篡改識(shí)別方法,以更有效地應(yīng)對(duì)網(wǎng)頁(yè)篡改帶來(lái)的威脅。
技術(shù)實(shí)現(xiàn)思路
1、鑒于以上所述,本發(fā)明提供一種網(wǎng)頁(yè)篡改的識(shí)別方法,以解決網(wǎng)頁(yè)中有ncr轉(zhuǎn)義字符時(shí),難以準(zhǔn)確判斷網(wǎng)頁(yè)是否被篡改的問(wèn)題,通過(guò)結(jié)合ncr字符轉(zhuǎn)義檢測(cè)與敏感詞檢測(cè),本發(fā)明能夠更為全面、準(zhǔn)確地判斷網(wǎng)頁(yè)是否被篡改,從而提高了網(wǎng)頁(yè)篡改識(shí)別的準(zhǔn)確性和可靠性。
2、本發(fā)明的技術(shù)方案:
3、本發(fā)明提供一種網(wǎng)頁(yè)篡改的識(shí)別方法,包括如下步驟:
4、s1、設(shè)置一個(gè)用于判定是否為篡改網(wǎng)頁(yè)的網(wǎng)頁(yè)篡改閾值;
5、s2、設(shè)置tdk篡改概率值、text篡改概率值及l(fā)ink篡改概率值;
6、s3、對(duì)網(wǎng)頁(yè)源碼進(jìn)行解析,檢查網(wǎng)頁(yè)源碼中的tdk部分是否有ncr轉(zhuǎn)義,并獲取ncr解碼后的tdk內(nèi)容;
7、s4、檢查網(wǎng)頁(yè)中的text文本部分是否有ncr轉(zhuǎn)義字符,并獲取ncr解碼后的文本;
8、s5、檢查網(wǎng)頁(yè)中的link鏈接部分是否有ncr轉(zhuǎn)義字符,并獲取ncr解碼后的鏈接;
9、s6、如果tdk部分、text文本部分及l(fā)ink鏈接部分都沒(méi)有ncr轉(zhuǎn)義字符存在,則網(wǎng)頁(yè)沒(méi)有篡改,檢測(cè)結(jié)束;
10、如果tdk部分、text文本部分及l(fā)ink鏈接部分中有ncr轉(zhuǎn)義字符,則進(jìn)行下面的檢測(cè);
11、s7、如果tdk部分有ncr轉(zhuǎn)義字符,則將解碼后的tdk內(nèi)容,進(jìn)行敏感詞的檢測(cè),并將敏感詞檢測(cè)返回的敏感詞概率值與tdk篡改概率值,分配權(quán)重綜合計(jì)算,得到tdk綜合篡改概率;
12、s8、如果text部分有ncr轉(zhuǎn)義字符,則將解碼后的內(nèi)容進(jìn)行敏感詞的檢測(cè),并結(jié)合敏感詞檢測(cè)返回的敏感詞概率值與text篡改概率值,分配權(quán)重綜合計(jì)算,得到text綜合篡改概率;
13、s9、如果link部分有ncr轉(zhuǎn)義字符,則將解碼后的內(nèi)容進(jìn)行敏感詞的檢測(cè),并將敏感詞檢測(cè)返回的敏感詞概率值與link篡改概率值,分配權(quán)重綜合計(jì)算,得到link綜合篡改概率;
14、s10、如果tdk綜合篡改概率大于設(shè)定的網(wǎng)頁(yè)篡改閾值,則認(rèn)定tdk部分有篡改,檢測(cè)結(jié)束;
15、s11、如果text綜合篡改概率大于設(shè)定的網(wǎng)頁(yè)篡改閾值,則認(rèn)定text部分有篡改,檢測(cè)結(jié)束;
16、s12、如果link綜合篡改概率大于設(shè)定的網(wǎng)頁(yè)篡改閾值,則認(rèn)定link部分有被篡改,檢測(cè)結(jié)束;
17、s13、如果步驟s10、s11及s12仍未能判定網(wǎng)頁(yè)是否被篡改,則將tdk綜合篡改概率、text綜合篡改概率及l(fā)ink綜合篡改概率,再分配權(quán)重綜合計(jì)算,得到本網(wǎng)頁(yè)的綜合篡改概率;
18、s14、如本網(wǎng)頁(yè)綜合篡改概率大于設(shè)定的網(wǎng)頁(yè)篡改閾值,則認(rèn)定網(wǎng)頁(yè)有篡改,如果小于設(shè)定的網(wǎng)頁(yè)篡改閾值,則網(wǎng)頁(yè)中沒(méi)有篡改。
19、進(jìn)一步地,在步驟s2中,tdk作為網(wǎng)頁(yè)中關(guān)鍵的元數(shù)據(jù)部分,更容易被篡改,影響也更大,因而所設(shè)置的tdk概率值最高,表示如果tdk部分有ncr轉(zhuǎn)義字符的,則網(wǎng)頁(yè)被篡改的可能性最大。
20、進(jìn)一步地,在步驟s3中,網(wǎng)頁(yè)源碼通過(guò)http/https方式獲取。
21、進(jìn)一步地,在步驟s1中,網(wǎng)頁(yè)篡改閾值,聲明為ttamp,設(shè)值0.8。
22、進(jìn)一步地,在步驟s2中,tdk篡改概率值、text篡改概率值、link篡改概率,分別為ptdk0、ptext0、plink0,其取值為0.3~0.7,且ptdk0取值要大于ptext0及plink0。
23、進(jìn)一步地,在步驟s7、s8、s9中,網(wǎng)頁(yè)中tdk部分、text部分及l(fā)ink部分的綜合篡改概率,采用如下公式計(jì)算:
24、ptamp=min(ptamp0+wsens*psens,1);
25、其中:
26、ptamp為綜合篡改概率;
27、ptamp0為有ncr轉(zhuǎn)義的篡改概率;
28、wsens為敏感詞返回的結(jié)果在綜合計(jì)算中的權(quán)重,設(shè)為0.5~0.7;
29、psens為通過(guò)敏感詞檢測(cè)返回的概率,通常為0<psens<1。
30、進(jìn)一步地,對(duì)于tdk部分的綜合篡改概率,則為:ptdk=min(ptdk0+wsens*ptdksens,1);
31、ptdk為計(jì)算后的tdk綜合篡改概率;
32、ptdk0為tdk有ncr轉(zhuǎn)義的篡改概率;
33、wsens為敏感詞返回的結(jié)果在綜合計(jì)算中的權(quán)重;
34、ptdksens為tdk部分的內(nèi)容,通過(guò)敏感詞檢測(cè)返回的概率。
35、進(jìn)一步地,在步驟s8中,對(duì)于text部分的綜合篡改概率,則為:ptext=min(ptext0+wsens*ptextsens,1);
36、ptext為計(jì)算后的text綜合篡改概率;
37、ptext0為text有ncr轉(zhuǎn)義的篡改概率;
38、wsens為敏感詞返回的結(jié)果在綜合計(jì)算中的權(quán)重;
39、ptextsens為text部分的內(nèi)容,通過(guò)敏感詞檢測(cè)返回的概率。
40、進(jìn)一步地,在步驟s9中,對(duì)于link部分的綜合篡改概率,則為:plink=min(plink0+wsens*plinksens,1);
41、plink為計(jì)算后的link綜合篡改概率;
42、plink0為link有ncr轉(zhuǎn)義的篡改概率;
43、wsens為敏感詞返回的結(jié)果在綜合計(jì)算中的權(quán)重;
44、plinksens為link部分的內(nèi)容,通過(guò)敏感詞檢測(cè)返回的概率。
45、進(jìn)一步地,,在步驟s13中,計(jì)算得到本網(wǎng)頁(yè)的綜合篡改概率,采用如下公式:
46、pweb=w1*ptdk+w2*ptext+w3*plink;
47、pweb為網(wǎng)頁(yè)的綜合篡改概率;
48、w1為tdk部分權(quán)重,設(shè)0.5~0.7;
49、w2為text部分權(quán)重,設(shè)0.3~0.5;
50、w3為link部分權(quán)重,設(shè)0.3~0.5;
51、ptdk,ptext,plink為前面計(jì)算出的相應(yīng)部分綜合篡改概率。
52、本發(fā)明提供的網(wǎng)頁(yè)篡改的識(shí)別方法具有如下有益效果:
53、一、多維度綜合評(píng)判使評(píng)判結(jié)果更準(zhǔn)確
54、ncr轉(zhuǎn)義字符通常用于隱藏惡意內(nèi)容或篡改頁(yè)面,識(shí)別ncr轉(zhuǎn)義字符,可以檢測(cè)到網(wǎng)頁(yè)中潛在的篡改痕跡。使用基于機(jī)器學(xué)習(xí)的敏感詞檢測(cè),可以檢測(cè)文本內(nèi)容篡改的情形。而將兩種不同檢測(cè)手段進(jìn)行綜合評(píng)定,更能有效提高檢測(cè)的準(zhǔn)確度,避免誤報(bào)或漏報(bào)。解決單一評(píng)定手段準(zhǔn)確性不高的問(wèn)題。
55、二、對(duì)網(wǎng)頁(yè)多個(gè)組成部分的檢測(cè),覆蓋面更全面
56、對(duì)網(wǎng)頁(yè)的多個(gè)組成部分(tdk、text、link)進(jìn)行檢測(cè),保證了不會(huì)遺漏任何潛在的篡改點(diǎn),檢測(cè)更全面。
57、關(guān)鍵內(nèi)容的tdk部分(如title、description、keywords)更容易被篡改,因而在檢查時(shí),將作為檢測(cè)關(guān)注重點(diǎn)。
58、在實(shí)際檢測(cè)處理中,通過(guò)對(duì)不同部分設(shè)置不同的篡改概率,而將tdk的篡改概率值設(shè)為最高,反應(yīng)了實(shí)際的網(wǎng)頁(yè)篡改情形,更符合網(wǎng)頁(yè)篡改的實(shí)際情況。
59、三、靈活的閾值控制
60、通過(guò)設(shè)定網(wǎng)頁(yè)篡改閾值,能夠靈活控制網(wǎng)頁(yè)是否被判定為篡改。閾值可以根據(jù)實(shí)際測(cè)試情況進(jìn)行調(diào)整,以平衡檢測(cè)的準(zhǔn)確率、誤報(bào)率和漏報(bào)率。這種可調(diào)節(jié)的策略使得檢測(cè)系統(tǒng)更加靈活便利。
61、四、多個(gè)檢測(cè)結(jié)果的進(jìn)一步融合
62、在分別完成tdk、text、link部分的檢測(cè)后,如仍未能判定網(wǎng)頁(yè)是否篡改,則進(jìn)一步融合三個(gè)部分的檢測(cè)結(jié)果再作一次判斷。這種綜合評(píng)估方法提高了判斷的準(zhǔn)確性,避免了只關(guān)注某一部分可能導(dǎo)致的誤判漏判問(wèn)題。
63、五、易于擴(kuò)展
64、目前針對(duì)的是通過(guò)ncr轉(zhuǎn)義字符的網(wǎng)頁(yè)篡改,對(duì)于通過(guò)其他編碼方式進(jìn)行篡改的情況,系統(tǒng)也很容易進(jìn)行擴(kuò)充,以支持新的篡改方式。
65、敏感詞檢測(cè)模塊是基于機(jī)器學(xué)習(xí)的,因此可以隨著新的敏感詞數(shù)據(jù)和模型的更新而不斷優(yōu)化。
66、網(wǎng)頁(yè)檢測(cè)的閾值設(shè)置和檢測(cè)區(qū)域的定義也可以根據(jù)實(shí)際需求進(jìn)行擴(kuò)展,具有良好的靈活性和可維護(hù)性。
67、本發(fā)明的優(yōu)選實(shí)施方案及其有益效果,將結(jié)合具體實(shí)施方式進(jìn)一步詳細(xì)說(shuō)明。