基于網(wǎng)絡(luò)事件模型的新聞事件監(jiān)測方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)挖掘領(lǐng)域,特別涉及一種基于網(wǎng)絡(luò)事件模型的新聞事件檢測 方法和裝置。
【背景技術(shù)】
[0002] 新聞事件檢測是網(wǎng)絡(luò)輿情分析處理的一個(gè)重要部分。新聞是指網(wǎng)絡(luò)上各個(gè)新聞門 戶給出的一篇新聞報(bào)道、分析、文章等,是網(wǎng)絡(luò)新聞輿情的一個(gè)重要的載體,而事件是指一 系列報(bào)道相同事物的新聞的集合。
[0003] 在對新聞事件檢測的數(shù)據(jù)挖掘任務(wù)中,常常采用無監(jiān)督學(xué)習(xí)的方法來確定一堆新 聞數(shù)據(jù)中的事件關(guān)系,即哪些新聞構(gòu)成一個(gè)事件集合。當(dāng)新聞能以事件的形式展現(xiàn)的時(shí)候, 使輿情監(jiān)測的任務(wù)得到極大的簡化,畢竟用戶是為了了解某一個(gè)事件的相關(guān)信息而查找和 閱讀相關(guān)的新聞報(bào)道。經(jīng)過新聞事件檢測分析之后,新聞以各個(gè)事件集合的形式呈現(xiàn)給用 戶,用戶只需要關(guān)注自己感興趣的事件,即可高效、聚焦、全面地獲取到自己希望獲得的信 息。
[0004] 其中,傳統(tǒng)的新聞事件檢測方法,是基于比較兩篇新聞文本相似度來實(shí)現(xiàn)的,然 而,在面對網(wǎng)絡(luò)上每天成千上萬的新聞流數(shù)據(jù),傳統(tǒng)方法的處理速度在新聞流數(shù)據(jù)流很大 時(shí)難以得到實(shí)時(shí)的分析結(jié)果,并且準(zhǔn)確性也不高,這兩點(diǎn)對于網(wǎng)絡(luò)輿情監(jiān)測來說是極大的 缺陷。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0006] 為此,本發(fā)明的一個(gè)目的在于提出一種基于網(wǎng)絡(luò)事件模型的新聞事件檢測方法, 該方法能夠?qū)崟r(shí)得到新聞分析結(jié)果,在保證實(shí)時(shí)、準(zhǔn)確的分析處理能力的同時(shí)還提高了檢 測新聞的效率,從而提升了網(wǎng)絡(luò)輿情分析處理的效果。
[0007] 本發(fā)明的第二目的在于提出一種基于網(wǎng)絡(luò)事件模型的新聞事件檢測裝置。
[0008] 為實(shí)現(xiàn)上述目的,本發(fā)明第一方面實(shí)施例提出了一種基于網(wǎng)絡(luò)事件模型的新聞事 件檢測方法,包括以下步驟:實(shí)時(shí)獲取L個(gè)媒體新聞門戶網(wǎng)站發(fā)布的Μ個(gè)新聞的網(wǎng)頁文本信 息,其中,所述網(wǎng)頁文本信息包括所述新聞的標(biāo)題信息和所述新聞的文本內(nèi)容信息,L、M均 為正整數(shù);對第i個(gè)新聞的網(wǎng)頁文本信息進(jìn)行分析,提取所述第i個(gè)新聞的第一特征信息,其 中,i為正整數(shù),且1 < i SM;根據(jù)所述第i個(gè)新聞的第一特征信息計(jì)算所述第i個(gè)新聞與N個(gè) 預(yù)先建立的事件簇的N個(gè)相似度值,其中,N為正整數(shù);以及根據(jù)所述N個(gè)相似度值檢測所述 第i個(gè)新聞是否屬于所述N個(gè)預(yù)先建立的事件簇。
[0009] 根據(jù)本發(fā)明實(shí)施例的基于網(wǎng)絡(luò)事件模型的新聞事件檢測方法,首先實(shí)時(shí)獲取L個(gè) 媒體新聞門戶網(wǎng)站發(fā)布的Μ個(gè)新聞的網(wǎng)頁文本信息,然后對第i個(gè)新聞的網(wǎng)頁文本信息進(jìn)行 分析,提取第i個(gè)新聞的第一特征信息,而后根據(jù)第i個(gè)新聞的第一特征信息計(jì)算第i個(gè)新聞 與N個(gè)預(yù)先建立的事件簇的N個(gè)相似度值,最后根據(jù)N個(gè)相似度值檢測第i個(gè)新聞是否屬于N 個(gè)預(yù)先建立的事件簇。因此,該方法能夠?qū)崟r(shí)得到新聞分析結(jié)果,在保證實(shí)時(shí)、準(zhǔn)確的分析 處理能力的同時(shí)還提高了檢測新聞的效率,從而提升了網(wǎng)絡(luò)輿情分析處理的效果。
[0010] 另外,根據(jù)本發(fā)明上述基于網(wǎng)絡(luò)事件模型的新聞事件檢測方法還可以具有如下附 加的技術(shù)特征:
[0011] 在本發(fā)明的一個(gè)實(shí)施例中,所述根據(jù)所述N個(gè)相似度值檢測所述第i個(gè)新聞是否屬 于所述N個(gè)預(yù)先建立的事件簇,包括:獲取所述N個(gè)相似度值中的最大相似度值;判斷所述最 大相似度值是否大于或等于第一預(yù)設(shè)閾值;如果所述最大相似度值大于或等于所述第一預(yù) 設(shè)閾值,則判斷所述第i個(gè)新聞屬于所述最大相似度值所對應(yīng)的預(yù)先建立的事件簇;如果所 述最大相似度值小于所述第一預(yù)設(shè)閾值,則判斷所述第i個(gè)新聞屬于新的事件。
[0012] 在本發(fā)明的一個(gè)實(shí)施例中,其中,第一特征信息包括時(shí)間信息、內(nèi)容信息、地點(diǎn)信 息和人物信息,所述對第i個(gè)新聞的網(wǎng)頁文本信息進(jìn)行分析,提取所述第i個(gè)新聞的第一特 征信息,包括:對所述第i個(gè)新聞的標(biāo)題和文本內(nèi)容信息進(jìn)行分詞處理,得到所述第i個(gè)新聞 的多個(gè)語素;對所述多個(gè)語素進(jìn)行識(shí)別以確定對應(yīng)的詞性,并根據(jù)所述詞性提取所述第i個(gè) 新聞的內(nèi)容信息、地點(diǎn)信息和人物信息;對所述第i個(gè)新聞的網(wǎng)頁文本信息進(jìn)行解析以得到 所述第i個(gè)新聞的發(fā)布時(shí)間戳,并將所述發(fā)布時(shí)間戳作為所述第i個(gè)新聞的時(shí)間信息。
[0013] 在本發(fā)明的一個(gè)實(shí)施例中,所述根據(jù)所述第i個(gè)新聞的第一特征信息計(jì)算所述第i 個(gè)新聞與N個(gè)預(yù)先建立的事件簇的N個(gè)相似度值,包括:針對每個(gè)預(yù)先建立的事件簇,將所述 每個(gè)預(yù)先建立的事件簇中的各個(gè)新聞的特征信息計(jì)算所述事件簇的總特征,以獲取所述每 個(gè)預(yù)先建立的事件簇的第二特征信息;基于所述第i個(gè)新聞的第一特征信息中的第j特征, 計(jì)算所述第j特征與所述第二特征信息中對應(yīng)的特征之間的第j相似度值,其中,j為正整 數(shù),且1 < j <所述第一特征信息所包含特征的個(gè)數(shù);基于所述所述第i個(gè)新聞的第一特征信 息以及所述第二特征信息,根據(jù)所述第j相似度值計(jì)算所述第i個(gè)新聞與所述每個(gè)預(yù)先建立 的事件簇的相似度值。
[0014] 在本發(fā)明的一個(gè)實(shí)施例中,所述根據(jù)所述第j相似度值計(jì)算所述第i個(gè)新聞與所述 每個(gè)預(yù)先建立的事件簇的相似度值,包括:判斷所述第j相似度值是否大于或等于對應(yīng)的第 二預(yù)設(shè)閾值;如果所述第j相似度值大于或等于所述對應(yīng)的第二預(yù)設(shè)閾值,則根據(jù)所述第j 相似度值計(jì)算所述第i個(gè)新聞與所述每個(gè)預(yù)先建立的事件簇的相似度值;如果所述第j相似 度值小于所述對應(yīng)的第二預(yù)設(shè)閾值,則計(jì)算所述第i個(gè)新聞與對應(yīng)的預(yù)先建立的事件簇的 相似度值為零。
[0015] 在本發(fā)明的一個(gè)實(shí)施例中,所述預(yù)先建立的事件簇通過以下步驟建立:實(shí)時(shí)獲取L 個(gè)媒體新聞門戶網(wǎng)站發(fā)布的多個(gè)新聞的網(wǎng)頁文本信息,其中,所述網(wǎng)頁文本信息包括所述 新聞的標(biāo)題信息和所述新聞的文本內(nèi)容信息,L為正整數(shù);對所述多個(gè)新聞的網(wǎng)頁文本信息 進(jìn)行分析,提取所述多個(gè)新聞的第一特征信息;根據(jù)所述多個(gè)新聞的第一特征信息計(jì)算兩 兩新聞之間的相似度值;當(dāng)判斷所述兩兩新聞之間的相似度值大于或等于第三預(yù)設(shè)閾值 時(shí),將所述兩兩新聞進(jìn)行組合,以建立對應(yīng)的事件簇。
[0016] 在本發(fā)明的一個(gè)實(shí)施例中,在判斷所述第i個(gè)新聞屬于所述最大相似度值所對應(yīng) 的預(yù)先建立的事件簇之后,還包括:將所述第i個(gè)新聞添加至所述最大相似度值所對應(yīng)的預(yù) 先建立的事件簇;根據(jù)所述第i個(gè)新聞的第一特征信息對所述最大相似度值所對應(yīng)的預(yù)先 建立的事件簇的第二特征信息進(jìn)行更新。
[0017] 在本發(fā)明的一個(gè)實(shí)施例中,上述基于網(wǎng)絡(luò)事件模型的新聞事件檢測方法還包括: 針對所述N個(gè)預(yù)先建立的事件簇,獲取第k預(yù)先建立的事件簇中所包含的新聞數(shù)目,其中,k 為正整數(shù),1 < k < N;判斷所述第k預(yù)先建立的事件簇中所包含的新聞數(shù)目是否大于或等于 第四預(yù)設(shè)閾值;如果大于或等于所述第四預(yù)設(shè)閾值,則計(jì)算所述第k預(yù)先建立的事件簇中所 包含的每個(gè)新聞與所述第k預(yù)先建立的事件簇之間的相似度值;判斷所述第k預(yù)先建立的事 件簇中所包含的每個(gè)新聞與所述第k預(yù)先建立的事件簇之間的相似度值是否小于第五預(yù)設(shè) 閾值;如果小于所述第五預(yù)設(shè)閾值,則將小于所述第五預(yù)設(shè)閾值對應(yīng)的新聞從所述第k預(yù)先 建立的事件簇中進(jìn)行移除;如果所述第k預(yù)先建立的事件簇中所包含的新聞數(shù)目小于所述 第四預(yù)設(shè)閾值,和/或,所述第k預(yù)先建立的事件簇中所包含的每個(gè)新聞與所述第k預(yù)先建立 的事件簇之間的相似度值大于或等于所述第五預(yù)設(shè)閾值,則計(jì)算所述第k預(yù)先建立的事件 簇與第g預(yù)先建立的事件簇之間的相似度值,其中,g為正整數(shù),1 < g < N,且g矣k;判斷所述 第k預(yù)先建立的事件簇與第g預(yù)先建立的事件簇之間的相似度值是否大于或等于第六預(yù)設(shè) 閾值;如果大于或等于所述第六預(yù)設(shè)閾值,則將所述第k預(yù)先建立的事件簇與第g預(yù)先建立 的事件簇進(jìn)行合并。
[0018] 為實(shí)現(xiàn)上述目的,本發(fā)明第二方面實(shí)施例提出了一種基于網(wǎng)絡(luò)事件模型的新聞事 件檢測裝置,包括:第一獲取模塊,用于實(shí)時(shí)獲取L個(gè)媒體新聞門戶網(wǎng)站發(fā)布的Μ個(gè)新聞的網(wǎng) 頁文本信息,其中,所述網(wǎng)頁文本信息包括所述新聞的標(biāo)題信息和所述新聞的文本內(nèi)容信 息,L、M均為正整數(shù);提取模塊,用于對第i個(gè)新聞的網(wǎng)頁文本信息進(jìn)行分析,提取所述第i個(gè) 新聞的第一特征信息,其中,i為正整數(shù),且1 < i SM;第一計(jì)算模塊,用于根據(jù)所述第i個(gè)新 聞的第一特征信息計(jì)算所述第i個(gè)新聞與N個(gè)預(yù)先建立的事件簇的N個(gè)相似度值,其中,N為 正整數(shù);以及檢測模塊,用于根據(jù)所述N個(gè)相似度值檢測所述第i個(gè)新聞是否屬于所述N個(gè)預(yù) 先建立的事件簇。
[0019] 根據(jù)本發(fā)明實(shí)施例的基于網(wǎng)絡(luò)事件模型的新聞事件檢測裝置,首先通過第一獲取 模塊實(shí)時(shí)獲取L個(gè)媒體新聞門戶網(wǎng)站發(fā)布的Μ個(gè)新聞的網(wǎng)頁文本信息,然后通過提取模塊對 第i個(gè)新聞的網(wǎng)頁文本信息進(jìn)行分析,提取第i個(gè)新聞的第一特征信息,而后第一計(jì)算模塊 根據(jù)第i個(gè)新聞的第一特征信息計(jì)算第i個(gè)新聞與N個(gè)預(yù)先建立的事件簇的N個(gè)相似度值,最 后檢測模塊根據(jù)N個(gè)相似度值檢測第i個(gè)新聞是否屬于N個(gè)預(yù)先建立的事件簇。因此,該裝置 能夠?qū)崟r(shí)得到新聞分析結(jié)果,在保證實(shí)時(shí)、準(zhǔn)確的分析處理能力的同時(shí)還提高了檢測新聞 的效率,從而提升了網(wǎng)絡(luò)輿情分析處理的效果。
[0020] 上述基于網(wǎng)絡(luò)事件模型的新聞事件檢測裝置還可以具有如下附加的技術(shù)特征:
[0021] 在本發(fā)明的一個(gè)實(shí)施例中,所述檢測模塊,具體用于:獲取所述N個(gè)相似度值中的 最大相似度值;判斷所述最大相似度值是否大于或等于第一預(yù)設(shè)閾值;如果所述最大相似 度值大于或等于所述第一預(yù)設(shè)閾值,則判斷所述第i個(gè)新聞屬于所述最大相似度值所對應(yīng) 的預(yù)先建立的事件簇;如果所述最大相似度值小于所述第一預(yù)設(shè)閾值,則判斷所述第i個(gè)新 聞屬于新的事件。
[0022] 在本發(fā)明的一個(gè)實(shí)施例中,其中,第一特征信息包括時(shí)間信息、內(nèi)容信息、地點(diǎn)信 息和人物信息,所述提取模塊,具體用于:對所述第i個(gè)新聞的標(biāo)題和文本內(nèi)容信息進(jìn)行分 詞處理,得到所述第i個(gè)新聞的多個(gè)語素;對所述多個(gè)語素進(jìn)行識(shí)別以確定對應(yīng)的詞性,并 根據(jù)所述詞性提取所述第i個(gè)新聞的內(nèi)容信息、地點(diǎn)信息和人物信息;對所述第i個(gè)新聞的 網(wǎng)頁文本信息進(jìn)行解析以得到所述第i個(gè)新聞的發(fā)布時(shí)間戳,并將所述發(fā)布時(shí)間戳作為所 述第i個(gè)新聞的時(shí)間信息。
[0023] 在本發(fā)明的一個(gè)實(shí)施例中,所述第一計(jì)算模塊,具體用于:針對每個(gè)預(yù)先建立的事 件