成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

一種基于卷積神經(jīng)網(wǎng)絡(luò)的企業(yè)實(shí)體關(guān)系抽取的方法與流程

文檔序號:11199192閱讀:1722來源:國知局
一種基于卷積神經(jīng)網(wǎng)絡(luò)的企業(yè)實(shí)體關(guān)系抽取的方法與流程

本發(fā)明涉及深度學(xué)習(xí)與自然語言處理技術(shù),具體涉及一種基于卷及神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系抽取的方法。



背景技術(shù):

隨著互聯(lián)網(wǎng)的普及和發(fā)展,信息量正以指數(shù)規(guī)律飛速地增長,每天數(shù)以億計(jì)的文本數(shù)據(jù)在互聯(lián)網(wǎng)上不斷更新,這其中包括新聞、社交、政府網(wǎng)站數(shù)據(jù)。在這些數(shù)據(jù)當(dāng)中蘊(yùn)含著許多對人們有價(jià)值的信息,這些信息對人們的生產(chǎn)生活起著至關(guān)重要的作用。然而面對這些海量的互聯(lián)網(wǎng)數(shù)據(jù),單憑人力很難快速地從中獲取自己所需要的信息。為了應(yīng)對信息過載帶來的挑戰(zhàn),迫切需要一些自動化的方法幫助人們從中迅速找到真正有用的信息。

實(shí)體關(guān)系抽取研究正是在這種背景下產(chǎn)生的。實(shí)體關(guān)系抽取作為自然語言處理的一項(xiàng)經(jīng)典任務(wù),其主要任務(wù)是識別出文本中的實(shí)體并抽取實(shí)體之間的語義關(guān)系。實(shí)體關(guān)系抽取可以將無結(jié)構(gòu)化的文本信息轉(zhuǎn)化為結(jié)構(gòu)化或半結(jié)構(gòu)化的信息,并以數(shù)據(jù)庫的形式存儲,一方面可以用于對文本的快速閱讀和理解,幫助人們更方便的獲取所需要的信息,另一方面可以用于深入地挖掘分析,對知識庫構(gòu)建、垂直搜索、自動問答等自然語言處理相關(guān)領(lǐng)域起著非常重要的作用。其中,針對互聯(lián)網(wǎng)新聞中存在的企業(yè)實(shí)體關(guān)系的抽取是一項(xiàng)比較典型的實(shí)體關(guān)系抽取任務(wù),它對金融輿情、企業(yè)投資等方面具有重要作用。

目前,大多數(shù)實(shí)體關(guān)系抽取的方法是基于監(jiān)督學(xué)習(xí)的方法,通常需要大量人工標(biāo)注的訓(xùn)練數(shù)據(jù),選取合適的特征后從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)關(guān)系對應(yīng)的抽取模式。該方法的缺點(diǎn)也很明顯,一是需要人工標(biāo)注訓(xùn)練數(shù)據(jù)集,十分的耗時(shí)耗力;二是依賴一些自然語言處理工具來提取特征,而這些工具往往存在大量錯誤,這些錯誤將會在關(guān)系抽取系統(tǒng)中不斷傳播放大,最終影響關(guān)系抽取的效果。



技術(shù)實(shí)現(xiàn)要素:

借助于詞向量和深層的神經(jīng)網(wǎng)絡(luò),可以學(xué)習(xí)得到句子的分布式向量表示,該向量包含了文本的語義信息,可以作為關(guān)系抽取分類模型的輸入。為解決上述問題,本發(fā)明提供一種基于卷積神經(jīng)網(wǎng)絡(luò)的企業(yè)實(shí)體關(guān)系抽取的方法,首先利用bootstrapping技術(shù)構(gòu)建企業(yè)關(guān)系語料庫,接著基于卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)建句子的分布式表示,最后構(gòu)建關(guān)系分類模型并對網(wǎng)頁中存在的企業(yè)關(guān)系進(jìn)行抽取。具體技術(shù)方案如下:

一種基于卷積神經(jīng)網(wǎng)絡(luò)的企業(yè)實(shí)體關(guān)系抽取的方法,包括構(gòu)建關(guān)系語料庫階段、關(guān)系分類模型訓(xùn)練階段和網(wǎng)頁中企業(yè)實(shí)體關(guān)系抽取階段,其中,構(gòu)建關(guān)系語料庫階段,采用人工構(gòu)建初始種子關(guān)系對集合,然后借助于互聯(lián)網(wǎng)搜索引擎并利用bootstrapping技術(shù)迭代生成關(guān)系語料,最終形成關(guān)系語料庫;關(guān)系分類模型訓(xùn)練階段,結(jié)合詞向量與位置嵌入構(gòu)建句子的向量矩陣表示作為網(wǎng)絡(luò)的輸入,然后搭建卷積神經(jīng)網(wǎng)絡(luò)并利用反向傳播算法訓(xùn)練網(wǎng)絡(luò)得到關(guān)系分類模型;網(wǎng)頁中企業(yè)實(shí)體關(guān)系抽取階段,結(jié)合網(wǎng)頁正文提取和命名實(shí)體識別技術(shù)對網(wǎng)頁進(jìn)行預(yù)處理,然后對預(yù)處理過后的網(wǎng)頁進(jìn)行企業(yè)實(shí)體關(guān)系抽取。

進(jìn)一步的,人工構(gòu)建初始種子關(guān)系對包括如下步驟:

s1、定義關(guān)系類型及整理對應(yīng)的關(guān)鍵詞列表;

s2、選取初始種子企業(yè);

s3、將關(guān)鍵詞列表和初始種子企業(yè)兩兩組合得到初始種子關(guān)系對,并形成初始種子關(guān)系對集。

進(jìn)一步的,選取若干上市企業(yè)名單作為初始種子企業(yè)。

進(jìn)一步的,所述的借助于互聯(lián)網(wǎng)搜索引擎并利用bootstrapping技術(shù)迭代生成關(guān)系語料包括如下步驟:

s1、將得到的初始種子關(guān)系對集合中的企業(yè)名和關(guān)系關(guān)鍵詞作為檢索關(guān)鍵詞

keyw與keyw送入搜索引擎爬蟲;

s2、持久化同時(shí)包含keyword1與keyword2的所有網(wǎng)頁;

s3、對s2中所得到的網(wǎng)頁進(jìn)行預(yù)處理;

s4、篩選并保留同時(shí)包含keyword1與keyword2的句子作為初始關(guān)系語料s;

s5、根據(jù)集合s計(jì)算每一類關(guān)系的中心點(diǎn)ci;

s6、對于集合s當(dāng)中的每個(gè)句子,逐個(gè)進(jìn)行命名實(shí)體識別,找出其中出現(xiàn)的另一個(gè)公司名,得到實(shí)體對<entity1,entity2>,并將entity2加入到種子企業(yè)中;

s7、將s6得到的實(shí)體對送入搜索引擎爬蟲,得到候選語料集c;

s8、針對候選語料c中的每一句子sc,計(jì)算其與每個(gè)類別中心點(diǎn)的距離di,將距離最近的中心點(diǎn)的類標(biāo)y作為句子sc的類別,并加入語料庫s中,更新ci;

s9、判斷語料庫數(shù)量是否達(dá)到閾值,若是則結(jié)束,否則轉(zhuǎn)入s1。

進(jìn)一步的,預(yù)處理包括正文提取和分句操作,其中,正文提取是指提取網(wǎng)頁的正文,去除網(wǎng)頁中其他不相關(guān)的部分;分句操作是指將網(wǎng)頁正文拆分成一個(gè)一個(gè)句子。

進(jìn)一步的,結(jié)合詞向量與位置嵌入構(gòu)建句子的向量矩陣包括如下步驟:

s1、利用word2vec訓(xùn)練得到每個(gè)詞的詞向量表示ai;

s2、對于句子當(dāng)中的每個(gè)詞wi,計(jì)算其與兩個(gè)實(shí)體的相對距離di1,di2;

s3、結(jié)合s1和s2中得到每個(gè)詞wi的語義信息與位置信息的組合表示xi={ai,di1,di2};

s4、則一個(gè)長度為n的句子則可以表示為:表示連接操作符,從而構(gòu)成由詞向量和位置嵌入構(gòu)成的句子向量矩陣n*(k+2),k為詞向量的維度,是固定值。

進(jìn)一步的,搭建卷積神經(jīng)網(wǎng)絡(luò)并利用反向傳播算法訓(xùn)練網(wǎng)絡(luò)包括如下步驟:

s1、將得到的句子向量矩陣作為輸入送入卷積神經(jīng)網(wǎng)絡(luò)中;

s2、用一個(gè)濾波器進(jìn)行卷積操作,該濾波器將與一個(gè)窗口大小為h詞向量矩陣產(chǎn)生一個(gè)特征圖譜,其中,w表示濾波器,h*(k+2)表示濾波器的大小;

s3、對特征圖譜使用max-overtime的池化操作,即取作為此濾波器下得到的特征;

s4、使用多個(gè)濾波器來獲取多個(gè)不同的特征圖譜并做池化操作以得到相關(guān)特征;

s5、對于給定一個(gè)樣本x,輸入到網(wǎng)絡(luò)中,與訓(xùn)練參數(shù)θ運(yùn)算將輸出一個(gè)向量o,它的第i維oi表示該句子屬于第i類的一個(gè)概率評分,其中,訓(xùn)練參數(shù)θ表示卷積神經(jīng)網(wǎng)絡(luò)中每一層的權(quán)重與偏置參數(shù);

s6、為了獲得條件概率p(i|x,θ),我們在關(guān)系類別之上做一個(gè)softmax操作:其中,x表示輸入樣本,m表示總的關(guān)系類別數(shù);

s7、對于所有的訓(xùn)練樣本t:(xi,yi)得到訓(xùn)練參數(shù)θ的對數(shù)似然函數(shù)值:其中,t表示樣本總數(shù)也就是訓(xùn)練語料庫的大小,x表示輸入樣本,y表示輸入樣本x對應(yīng)的類標(biāo);

s8、通過反向傳播算法來迭代更新θ:并最終得到關(guān)系分類模型。

進(jìn)一步的,多個(gè)濾波器的窗口大小不完全一致。

進(jìn)一步的,使用開源工具webcollector對網(wǎng)頁進(jìn)行正文提取,使用開源工具h(yuǎn)anlp對網(wǎng)頁中的句子進(jìn)行命名實(shí)體識別。

進(jìn)一步的,所述的對預(yù)處理過后的網(wǎng)頁進(jìn)行企業(yè)實(shí)體關(guān)系抽取的具體過程如下:

s1、將網(wǎng)頁正文分句,以句號和分號作為分隔符;

s2、篩選出包含兩個(gè)或兩個(gè)以上企業(yè)實(shí)體的句子集合q;

s3、將q中的句子逐個(gè)送入關(guān)系分類模型中,得到該句子所包含的實(shí)體關(guān)系。

有益效果:

本發(fā)明使用了卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)實(shí)體關(guān)系的抽取,避免了過多依賴于人工選取特征,不僅可以避免人工特征的方法的不足(一般會存在兩點(diǎn)不足:一是所提特征需要借助一些自然語言處理工具,這些工具難免會存在誤差;二是難以選取合適的特征子集),還可以更加準(zhǔn)確更高效地從網(wǎng)頁中抽取出企業(yè)實(shí)體關(guān)系。

此外,本發(fā)明還借助了bootstarpping思想以及搜索引擎來自動構(gòu)建關(guān)系語料庫,避免了純手工標(biāo)注費(fèi)時(shí)費(fèi)力的缺點(diǎn)。

本發(fā)明是一種基于深度學(xué)習(xí)技術(shù)的關(guān)系抽取方法,可取得state-of-the-art(現(xiàn)有的最高水平)的效果。

附圖說明

圖1為基于卷積神經(jīng)網(wǎng)絡(luò)的企業(yè)實(shí)體關(guān)系抽取的方法的流程圖;

圖2為基于bootstrapping技術(shù)的構(gòu)建關(guān)系語料庫的流程圖;

圖3為關(guān)系類型及對應(yīng)關(guān)鍵詞列表;

圖4為構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系分類模型的示意圖;

圖5為對網(wǎng)頁進(jìn)行企業(yè)實(shí)體關(guān)系進(jìn)行抽取的流程圖。

具體實(shí)施方式

為了更了解本發(fā)明的技術(shù)內(nèi)容,特舉具體實(shí)施例并配合所附圖式說明如下。

圖1為實(shí)施例中基于卷積神經(jīng)網(wǎng)絡(luò)的企業(yè)實(shí)體關(guān)系抽取的方法的流程圖,如圖所示,該方法主要包括三個(gè)階段,分別是:基于bootstrapping技術(shù)構(gòu)建語料庫階段;基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建關(guān)系分類模型階段;針對網(wǎng)頁進(jìn)行企業(yè)實(shí)體關(guān)系抽取階段。

結(jié)合圖2所示,實(shí)施例中基于bootstrapping技術(shù)構(gòu)建語料庫的實(shí)施步驟如下:

步驟0為基于bootstrapping技術(shù)構(gòu)建語料庫的起始狀態(tài);

步驟1定義關(guān)系類型及整理定義關(guān)系類型所對應(yīng)的關(guān)鍵詞列表,其中,關(guān)系類型是指兩個(gè)實(shí)體之間存在的某一種關(guān)系的類型,如圖3所示,實(shí)施例中考慮的關(guān)系類型主要有4種:合作、投資、收購、競爭;

步驟2選取若干上市企業(yè)名單作為初始種子企業(yè),當(dāng)然也可以選擇其它類別的企業(yè)作為初始種子企業(yè),實(shí)施例中取上市公司主要考慮上市公司比一般小公司的曝光度要高,更容易從互聯(lián)網(wǎng)中搜索到相關(guān)語料;

步驟3將關(guān)系類型對應(yīng)的關(guān)鍵詞與種子企業(yè)名單進(jìn)行兩兩組合得到初始種子關(guān)系集s<e,r>={<entity,relation>},其中,entity和relation分別表示企業(yè)名和關(guān)系關(guān)鍵詞,例如<阿里巴巴,投資>;

步驟4將初始種子關(guān)系集s<e,r>中企業(yè)名和關(guān)系關(guān)鍵詞作為檢索關(guān)鍵詞keyword1與keyword2送入搜索引擎爬蟲;

步驟5持久化同時(shí)包含keyword1與keyword2的所有網(wǎng)頁;

步驟6對步驟5所得到的網(wǎng)頁進(jìn)行正文提取、分句等預(yù)處理操作,預(yù)處理的主要目的有兩個(gè):一是提取網(wǎng)頁的正文,去除網(wǎng)頁中其他不相關(guān)的部分,例如廣告欄、標(biāo)題欄等;第二個(gè)目的分句是為了將網(wǎng)頁正文拆分成一個(gè)一個(gè)句子,因?yàn)楸疚乃鶎?shí)現(xiàn)的關(guān)系抽取是句子級別的,不是段落或者文檔級別;

步驟7為篩選并保留同時(shí)包含keyword1與keyword2的句子作為初始關(guān)系語料集s;

步驟8根據(jù)初始關(guān)系語料集s計(jì)算每一類關(guān)系的中心點(diǎn)ci;

步驟9對于初始關(guān)系語料集s當(dāng)中的每個(gè)句子,逐個(gè)進(jìn)行命名實(shí)體識別,找出其中出現(xiàn)的另一個(gè)公司名,得到實(shí)體對<entity1,entity2>,并將entity2加入到種子企業(yè)中;

步驟10是將上一步得到的實(shí)體對送入搜索引擎爬蟲,得到候選語料集c;

步驟11是針對候選語料集c中的每一句子sc,計(jì)算其與每個(gè)類別中心點(diǎn)ci的距離di,將距離最近的中心點(diǎn)ci的類標(biāo)y作為句子sc的類別,并加入初始關(guān)系語料集s中,同時(shí)更新ci;

步驟12是判斷語料庫數(shù)量(由多個(gè)候選語料集組成)是否達(dá)到閾值,若是則進(jìn)入步驟13,否則進(jìn)入步驟3;

步驟13是構(gòu)建關(guān)系語料庫的結(jié)束狀態(tài)。

結(jié)合圖4所示,構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系分類模型主要包括訓(xùn)練出句子向量矩陣、卷積操作、池化操作以及softmax全連接輸出類別概率,這也對應(yīng)整個(gè)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),主要分為四層:輸入層、卷積層、池化層、輸出層,輸入層由句子向量矩陣構(gòu)成,卷積層負(fù)責(zé)采樣操作得到一個(gè)特征圖譜,池化層是對特征圖譜進(jìn)行一個(gè)取最大值操作,輸出層是輸出句子所屬類別的一個(gè)概率分布

具體步驟為:

步驟1為起始步驟;

步驟2是利用word2vec訓(xùn)練得到輸入句子當(dāng)中的每個(gè)詞wi的詞向量表示αi,得到每個(gè)詞wi的語義,其中,word2vec是google開源的一個(gè)訓(xùn)練詞向量的工具,它具有準(zhǔn)確高效的特點(diǎn);

步驟3對于句子當(dāng)中的每個(gè)詞wi,計(jì)算其與兩個(gè)實(shí)體的相對距離di1,di2,得到每個(gè)詞wi的位置信息;

步驟4結(jié)合步驟2和3得到每個(gè)詞wi的語義信息(詞向量包含詞語的語義信息)與位置信息的組合表示xi={ai,di1,di2};

步驟5對于一個(gè)長度為n的句子則可以表示為:表示連接操作符;從而構(gòu)成由詞向量和位置嵌入構(gòu)成的句子向量矩陣n*(k+2),k為詞向量的維度,是固定值。

步驟6將步驟5得到的句子向量矩陣作為輸入送入卷積神經(jīng)網(wǎng)絡(luò)中;

步驟7是用一個(gè)濾波器進(jìn)行卷積操作,這個(gè)濾波器將與一個(gè)窗口大小為h詞向量矩陣產(chǎn)生一個(gè)特征圖譜;其中k為詞向量維度;濾波器就是h*(k+2)大小的二維矩陣,即其中,w表示濾波器,h*(k+2)表示濾波器的大小。

步驟8是對步驟7得到的特征圖譜使用一個(gè)max-overtime的池化操作,即,取特征圖譜中最大的一個(gè)特征的池化操作,實(shí)施例中取作為此濾波器下得到的特征;

步驟9使用多個(gè)濾波器(具有不同的窗口大小)來獲取多個(gè)不同的特征圖譜,并做池化操作得到相關(guān)特征;值得注意的是:窗口寬度是一樣的,高度不一樣,以使得采樣多樣化,增加模型的泛化能力;

步驟10是對于給定一個(gè)樣本x,即已經(jīng)標(biāo)注過實(shí)體的句子,輸入到卷積神經(jīng)網(wǎng)絡(luò)中,與訓(xùn)練參數(shù)θ運(yùn)算將輸出一個(gè)向量o,它的第i維oi表示該句子屬于第i類的一個(gè)概率評分,其中,訓(xùn)練參數(shù)θ是指卷積神經(jīng)網(wǎng)絡(luò)中的權(quán)重與偏置參數(shù);

步驟11為了獲得條件概率p(i|x,θ),即在樣本x在參數(shù)θ條件下屬于第i個(gè)類別的概率,在關(guān)系類別之上做一個(gè)softmax操作:其中,x表示輸入樣本,θ表示整個(gè)網(wǎng)絡(luò)的參數(shù)包括每一層的權(quán)重與偏置,m表示總的關(guān)系類別數(shù);

步驟12對于所有的訓(xùn)練樣本t:(xi,yi),可以得到各訓(xùn)練參數(shù)θ的對數(shù)似然函數(shù)值:其中,t表示樣本總數(shù)也就是訓(xùn)練語料庫的大小,x表示輸入樣本,y表示輸入樣本x對應(yīng)的類標(biāo);

步驟13是通過反向傳播算法來迭代更新θ:并最終得到關(guān)系分類模型;

步驟14為構(gòu)建關(guān)系分類模型的結(jié)束狀態(tài)。

結(jié)合圖5所示,對網(wǎng)頁進(jìn)行企業(yè)實(shí)體關(guān)系進(jìn)行抽取的流程如下:

步驟1為起始狀態(tài);

步驟2是持久化網(wǎng)頁到本地;

步驟3是借助webcollector開源工具對網(wǎng)頁進(jìn)行正文提取,其中,webcollector開源工具具有識別準(zhǔn)確率高、速度快的特點(diǎn);

步驟4是將網(wǎng)頁正文分句,主要以句號和分號作為分隔符;

步驟5是借助hanlp開源工具對句子進(jìn)行命名實(shí)體標(biāo)注,其中,hanlp開源工具識別準(zhǔn)確率更高,功能更完備;

步驟6是篩選出那些包含兩個(gè)或兩個(gè)以上企業(yè)實(shí)體的句子集合q;

步驟7將q中的句子逐個(gè)送入關(guān)系分類模型中;

步驟8得到該句子所包含的實(shí)體關(guān)系類型;

步驟9結(jié)束。

綜上所述,本發(fā)明就是通過卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)建包含企業(yè)實(shí)體關(guān)系句子的分類模型,借助詞向量和位置嵌入來構(gòu)建帶有語義和位置信息的句子向量表示,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。這樣做不但避免過多依靠人工特征的方法,還可以最大限度地減少一些自然語言處理工具所帶來的誤差,從而提高分類模型的準(zhǔn)確性,具有良好的實(shí)用性。

雖然本發(fā)明已以較佳實(shí)施例揭露如上,然其并非用以限定本發(fā)明。本發(fā)明所屬技術(shù)領(lǐng)域中具有通常知識者,在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可作各種的更動與潤飾。因此,本發(fā)明的保護(hù)范圍當(dāng)視權(quán)利要求書所界定者為準(zhǔn)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1