基于協(xié)同自擴(kuò)展的命名實(shí)體集合擴(kuò)展方法及查詢推薦方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種命名實(shí)體集合擴(kuò)展方法,特別是涉及一種基于協(xié)同自擴(kuò)展的命名 實(shí)體集合擴(kuò)展方法及查詢推薦方法,屬于自然語(yǔ)言處理技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著Web2. 0的高速發(fā)展,互聯(lián)網(wǎng)上的信息越來(lái)越豐富,其中大部分內(nèi)容是由海量 用戶依照個(gè)人習(xí)慣和興趣發(fā)布的,比如私人博客、主題論壇、網(wǎng)絡(luò)百科全書等。如何從這些 海量信息中抽取出有效信息并進(jìn)行組織和利用成為大數(shù)據(jù)時(shí)代的一個(gè)挑戰(zhàn)。通過(guò)抽取固定 類別下的命名實(shí)體列表,多源、異構(gòu)的互聯(lián)網(wǎng)信息得到了有效地抽取、組織和利用。命名實(shí) 體集合擴(kuò)展是實(shí)現(xiàn)上述目標(biāo)的關(guān)鍵技術(shù)之一。
[0003] 另一方面,命名實(shí)體是文本中承載信息的重要語(yǔ)言單位,抽取出的命名實(shí)體列表 可以應(yīng)用于知識(shí)庫(kù)構(gòu)建,查詢推薦等。因此,抽取出文本中的命名實(shí)體對(duì)理解文本內(nèi)容有重 要意義。然而,現(xiàn)今的互聯(lián)網(wǎng)信息具有多源、異構(gòu)、海量等特點(diǎn),這些特點(diǎn)對(duì)信息抽取技術(shù)提 出了新的要求。在這種情況下,傳統(tǒng)命名實(shí)體抽取僅僅依靠原有的基于規(guī)則和統(tǒng)計(jì)的抽取 技術(shù)已經(jīng)無(wú)法應(yīng)對(duì)新的挑戰(zhàn)。為此,如何利用命名實(shí)體集合擴(kuò)展技術(shù)獲取命名實(shí)體列表是 自然語(yǔ)言處理技術(shù)實(shí)用化的重要因素之一。
[0004] 綜上,構(gòu)建智能信息服務(wù)的核心之一是知識(shí)獲取和自然語(yǔ)言理解,而能夠識(shí)別實(shí) 體并構(gòu)建命名實(shí)體列表的命名實(shí)體集合擴(kuò)展是提供自然語(yǔ)言理解基礎(chǔ)知識(shí)的一項(xiàng)關(guān)鍵技 術(shù)。
[0005] 由于半監(jiān)督學(xué)習(xí)只需要很少的訓(xùn)練語(yǔ)料就能獲得較高的準(zhǔn)確率,目前命名實(shí)體集 合擴(kuò)展的方法主要是采用基于自擴(kuò)展的半監(jiān)督學(xué)習(xí)方法。該方法主要有三個(gè)步驟:1)通過(guò) 輸入目標(biāo)語(yǔ)義類別中的種子實(shí)體,抽取包圍種子實(shí)體的模板。2)使用抽取的模板對(duì)整個(gè)文 檔集合進(jìn)行實(shí)體抽取。3)對(duì)抽取出的候選實(shí)體進(jìn)行篩選,將篩選出的實(shí)體輸出,并加入種子 實(shí)體集合。自擴(kuò)展算法會(huì)持續(xù)對(duì)這三步進(jìn)行迭代,直至輸出實(shí)體的數(shù)目達(dá)到預(yù)定義的閾值。
[0006] 但是通常的自擴(kuò)展方法往往有下面兩個(gè)問(wèn)題:
[0007] 1)初始種子描述能力不足。該問(wèn)題是指僅僅使用正實(shí)例不能準(zhǔn)確地定義被抽取 的語(yǔ)義類別。比如針對(duì)已有的實(shí)體集合擴(kuò)展系統(tǒng),當(dāng)用戶輸入種子{ "北京","東京","倫 敦" }時(shí),系統(tǒng)并不知道目標(biāo)實(shí)體的語(yǔ)義類別究竟是首都,還是普通城市,甚至是一般地點(diǎn)。 因此,系統(tǒng)返回的結(jié)果可能會(huì)包含城市,也可能會(huì)包含其他任意的地點(diǎn)名稱。這主要因?yàn)槌?始種子集合{ "北京","東京","倫敦"}沒(méi)有足夠的描述能力來(lái)確定目標(biāo)實(shí)體的語(yǔ)義類別。
[0008] 2)語(yǔ)義漂移。該問(wèn)題是指在使用自擴(kuò)展算法進(jìn)行迭代抽取的過(guò)程中,被抽取的目 標(biāo)實(shí)體的語(yǔ)義類別會(huì)發(fā)生語(yǔ)義漂移現(xiàn)象。這是因?yàn)樵诔槿∵^(guò)程中,被抽取出的候選實(shí)體會(huì) 包含噪聲。比如,在抽取IT Company這個(gè)類別時(shí),"Apple"被抽取出加入到種子實(shí)體集合 中。然而由于歧義,關(guān)于水果的模板在后續(xù)步驟中也會(huì)被抽取出來(lái),從而抽取出其他具有水 果語(yǔ)義的實(shí)體和模板。隨著迭代過(guò)程的進(jìn)行,這將造成被抽取的類別由IT Company向Fruit 漂移,最終造成抽取性能大幅下降。
【發(fā)明內(nèi)容】
[0009] 針對(duì)命名實(shí)體集合擴(kuò)展中存在的初始種子描述能力不足和語(yǔ)義漂移,本發(fā)明提供 了一種基于協(xié)同自擴(kuò)展的命名實(shí)體集合擴(kuò)展方法,通過(guò)引入負(fù)實(shí)例來(lái)表示擴(kuò)展邊界,增強(qiáng) 種子的描述能力,并自擴(kuò)展的過(guò)程中自動(dòng)產(chǎn)生能夠持續(xù)擴(kuò)展的正實(shí)例和負(fù)實(shí)例。本發(fā)明有 效地維護(hù)了目標(biāo)實(shí)體的語(yǔ)義邊界,較好地解決了語(yǔ)義漂移問(wèn)題。
[0010] 本發(fā)明所采用的技術(shù)方案如下:
[0011] -種基于協(xié)同自擴(kuò)展的命名實(shí)體集合擴(kuò)展方法,其步驟包括:
[0012] 1)根據(jù)輸入的種子集合(一般包含3~4個(gè)種子),對(duì)每一種子生成一個(gè)模板,并 對(duì)每個(gè)模板的質(zhì)量進(jìn)行評(píng)估。本發(fā)明同時(shí)使用了正實(shí)例和負(fù)實(shí)例來(lái)生成和評(píng)估模板。為了 衡量模板的質(zhì)量,本發(fā)明定義了三個(gè)指標(biāo)包括普適性,抽取準(zhǔn)確率和未抽取準(zhǔn)確率。通過(guò)評(píng) 估所有模板的質(zhì)量,在后續(xù)步驟中本發(fā)明利用這三個(gè)指標(biāo)計(jì)算被該模板抽取出的實(shí)例是正 實(shí)例的概率。
[0013] 2)根據(jù)生成的全部模板進(jìn)行命名實(shí)體協(xié)同抽取。當(dāng)每個(gè)模板的質(zhì)量被評(píng)估后,本 發(fā)明使用這些生成的模板同時(shí)抽取正實(shí)例和負(fù)實(shí)例。同時(shí),本發(fā)明提出了一種算法根據(jù)模 板的質(zhì)量和數(shù)量來(lái)預(yù)測(cè)被抽取實(shí)體的極性。實(shí)體的極性是指一個(gè)實(shí)體是正實(shí)例還是負(fù)實(shí) 例。如果這個(gè)實(shí)體是正實(shí)例,那么實(shí)體的極性是正的,反之,這個(gè)實(shí)體的極性是負(fù)的。
[0014] 3)種子評(píng)估和種子選擇。最后,本發(fā)明計(jì)算被抽取的實(shí)例是正實(shí)例的概率。為了 動(dòng)態(tài)地修正和維護(hù)擴(kuò)展邊界,本發(fā)明選取排名較高的正實(shí)例和具有區(qū)分能力的負(fù)實(shí)例加入 到所有模板對(duì)應(yīng)的種子集合中,將從而進(jìn)行下一輪迭代。同時(shí),輸出迭代產(chǎn)生的正實(shí)例。
[0015] 上述三步將會(huì)持續(xù)迭代,直至所有模板抽取的正實(shí)例的總數(shù)目達(dá)到預(yù)設(shè)的閾值 后,協(xié)同自擴(kuò)展算法才會(huì)中止。當(dāng)基于協(xié)同自擴(kuò)展的命名實(shí)體集合擴(kuò)展終止時(shí),其正實(shí)例集 合為我們所期望得到的命名實(shí)體集合。該集合中包含了和輸入的種子實(shí)體屬于相同語(yǔ)義類 別的其他實(shí)體。
[0016] 進(jìn)一步地,步驟1)使用種子和待擴(kuò)展語(yǔ)料中的句子進(jìn)行字符串匹配,得到句子中 匹配的上下文,從而得到候選模板。
[0017] 進(jìn)一步地,步驟1)使用普適性(Generality,縮寫為GE),抽取準(zhǔn)確率(Precision ofExtractedInstance,縮寫為PE)和未抽取準(zhǔn)確率(PrecisionofNotExtracted Instance,縮寫為PNE)這三個(gè)度量標(biāo)準(zhǔn)來(lái)評(píng)估模板的質(zhì)量。
[0018] 為了定義這三個(gè)變量,給定一個(gè)模板后,本發(fā)明根據(jù)這個(gè)模板的抽取情況和實(shí)例 的極性將所有模板已抽取出的實(shí)體集合分成四類。這四類主要包括:被抽取的正實(shí)例(縮 寫為ep),被抽取的負(fù)實(shí)例(縮寫為en),沒(méi)有被抽取的正實(shí)例(縮寫為n?。┖蜎](méi)有被抽取 的負(fù)實(shí)例(縮寫為nen)。
[0019] 普適性(GE)。GE度量這個(gè)模板抽取了多少實(shí)體,可以被計(jì)算為:
[0020]
[0021] 抽取準(zhǔn)確率(PE)。PE度量了如果一個(gè)實(shí)體被這個(gè)模板抽取,那么實(shí)體將會(huì)有多大 的可能是正實(shí)例,可以被計(jì)算為:
[0022]
[0023] 未抽取準(zhǔn)確率(PNE)。PNE度量了一個(gè)沒(méi)有被該模板抽取的實(shí)體是正實(shí)例的可能 性。可以被計(jì)算為:
[0024]
[0025] 進(jìn)一步地,步驟2)中,一個(gè)實(shí)體是正實(shí)例的概率稱為實(shí)體的正概率,標(biāo)記為P+"P+ 計(jì)算過(guò)程如下:
[0026] 給定所有的模板-實(shí)例關(guān)系(某個(gè)實(shí)體e是否被某個(gè)模板p所抽取),實(shí)體e是正 實(shí)例的似然可以被計(jì)算為:
[0027]
[0028] 在上式中,R+是所有抽取出實(shí)體e的模板所構(gòu)成的集合,R是所有沒(méi)有抽取出實(shí) 體e的模板所構(gòu)成的集合。r是所有正實(shí)例構(gòu)成的集合。
[0029] P(p-e,ee1+)是事件"模板p抽取實(shí)體e且e是正實(shí)例"的概率。使用貝葉斯 規(guī)則,該概率可以被計(jì)算為:
[0030]P(p-e,eeI+) =P(p-e)P(ee1+1p-e)
[0031]P(p-e)是事件"模板p抽取實(shí)體e"的概率。該概率為GE(p)。P(eeI+1p-e) 是在條件"模板P抽取實(shí)體e"下,"e是正實(shí)例"的條件概率,該概率的值為PE(p)。 P(p-e,ee1+)可以計(jì)算成:
[0032]P(p-e,eeI+) =GE(p)PE(p)
[0033] 廣>是事件"模板p沒(méi)有抽取實(shí)體e且e是正實(shí)例"的概率。它可以 被計(jì)算成:
[0034]
[0035] M/me)是模板p沒(méi)有抽取出實(shí)體的概率,它的值為1-GE(p)。/1VG廠丨 是在條件"模板P沒(méi)有抽取出實(shí)體e"下,"e是正實(shí)例"的條件概率,該概率的值為PNE(p)。 那么,/_如―心托D最后可以計(jì)算為:
[0036]
[0037] 事件"一個(gè)實(shí)體是負(fù)實(shí)例"的似然可以計(jì)算為:
[0038]
[0039] 八/:; - ^?廣)是指事件"模板P抽取e且e是負(fù)實(shí)例"的概率,該概率可以計(jì)算 為:
[0040]
[0041] /)(/,-廣)是指事件"p未抽取e且e是負(fù)實(shí)例"發(fā)生的概率,貝丨J該概率可以 計(jì)算為:
[0042]
[0043] 最后,實(shí)體的正概率,P+,被計(jì)算為:
[0044