成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

一種能源行業(yè)大數(shù)據(jù)的語(yǔ)料庫(kù)自動(dòng)構(gòu)建方法及系統(tǒng)與流程

文檔序號(hào):39900956發(fā)布日期:2024-11-05 17:08閱讀:56來(lái)源:國(guó)知局
一種能源行業(yè)大數(shù)據(jù)的語(yǔ)料庫(kù)自動(dòng)構(gòu)建方法及系統(tǒng)與流程

本發(fā)明涉及自然語(yǔ)言處理,具體為一種能源行業(yè)大數(shù)據(jù)的語(yǔ)料庫(kù)自動(dòng)構(gòu)建方法及系統(tǒng)。


背景技術(shù):

1、在過(guò)去十幾年內(nèi),事件關(guān)系抽取的研究主要基于一系列人工標(biāo)注的語(yǔ)料,但受限于成本和領(lǐng)域特性,現(xiàn)有的語(yǔ)料庫(kù)規(guī)模較小且領(lǐng)域有限,限制了模型訓(xùn)練的效果和應(yīng)用范圍。因此,自動(dòng)構(gòu)建大規(guī)模、專業(yè)領(lǐng)域的事件關(guān)系語(yǔ)料庫(kù)成為研究者持續(xù)關(guān)注的熱點(diǎn)。盡管目前的研究已經(jīng)在通用領(lǐng)域取得一定的成果,但在能源領(lǐng)域,事件關(guān)系抽取的語(yǔ)料構(gòu)建仍處于初級(jí)階段,因此,如何在通用領(lǐng)域的基礎(chǔ)上進(jìn)一步開(kāi)展能源領(lǐng)域的事件關(guān)系語(yǔ)料構(gòu)建研究,是當(dāng)前研究者們面臨的一個(gè)重要問(wèn)題。

2、目前在能源事件關(guān)系抽取領(lǐng)域尚未發(fā)現(xiàn)公開(kāi)的大規(guī)模語(yǔ)料,由于能源事件關(guān)系的復(fù)雜性,通用領(lǐng)域的語(yǔ)料構(gòu)建方法不能很好地應(yīng)對(duì)能源事件關(guān)系語(yǔ)料構(gòu)建任務(wù),限制了相關(guān)研究的進(jìn)展。因此,如何針對(duì)能源事件關(guān)系的復(fù)雜性設(shè)計(jì)高精度和高效率的自動(dòng)標(biāo)注方法以構(gòu)建大規(guī)模能源事件關(guān)系語(yǔ)料,是深入研究能源事件關(guān)系抽取亟需解決的問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、鑒于上述存在的問(wèn)題,提出了本發(fā)明。

2、因此,本發(fā)明解決的技術(shù)問(wèn)題是:通用領(lǐng)域的語(yǔ)料構(gòu)建方法不能很好地應(yīng)對(duì)能源事件關(guān)系語(yǔ)料構(gòu)建任務(wù),效率和精度不足。

3、為解決上述技術(shù)問(wèn)題,本發(fā)明提供如下技術(shù)方案:一種能源行業(yè)大數(shù)據(jù)的語(yǔ)料庫(kù)自動(dòng)構(gòu)建方法,包括:采集能源行業(yè)數(shù)據(jù),分析得到能源實(shí)體及事件關(guān)系,定義要素路徑并構(gòu)建觸發(fā)詞語(yǔ)義匹配模板;根據(jù)關(guān)鍵要素路徑比例,計(jì)算關(guān)鍵要素路徑集合;根據(jù)觸發(fā)詞匹配率,匹配事件關(guān)系,使用語(yǔ)義單元生成能源事件關(guān)系語(yǔ)料庫(kù)。

4、作為本發(fā)明所述的能源行業(yè)大數(shù)據(jù)的語(yǔ)料庫(kù)自動(dòng)構(gòu)建方法的一種優(yōu)選方案,其中:所述要素路徑包括觸發(fā)詞t1通過(guò)要素1的角色類型邊連接至要素1,隨后經(jīng)由要素關(guān)系連接至要素2,并通過(guò)要素2的角色類型邊連接至觸發(fā)詞t2;其中,觸發(fā)詞t1和要素1屬于事件e1,觸發(fā)詞t2和要素2屬于事件e2,角色類型邊表示能源事件內(nèi)部要素與觸發(fā)詞單元之間的關(guān)系,使用多條要素路徑標(biāo)注復(fù)雜事件。

5、作為本發(fā)明所述的能源行業(yè)大數(shù)據(jù)的語(yǔ)料庫(kù)自動(dòng)構(gòu)建方法的一種優(yōu)選方案,其中:計(jì)算所述關(guān)鍵要素路徑集合包括,計(jì)算要素路徑重要性apsij,表示為:

6、

7、其中,count(pai,etpj)表示知識(shí)庫(kù)中第j個(gè)語(yǔ)義關(guān)系類型etpj下包含第i個(gè)要素路徑pai的樣本數(shù);count(etpj)表示知識(shí)庫(kù)中第j個(gè)語(yǔ)義關(guān)系類型etpj下所有的樣本總數(shù);

8、計(jì)算事件關(guān)系相關(guān)性erri:

9、

10、其中,sum(etp)表示知識(shí)庫(kù)中語(yǔ)義關(guān)系類型集合etp中所有語(yǔ)義關(guān)系類型數(shù);count(etpci)表示知識(shí)庫(kù)含有第i個(gè)要素路徑pai的語(yǔ)義關(guān)系類型數(shù);ε表示防止分母為0的常數(shù);

11、計(jì)算關(guān)鍵要素路徑比例krarpij:

12、krarpij=apsij*erri

13、計(jì)算每一個(gè)事件語(yǔ)義關(guān)系類型的關(guān)鍵要素路徑比例krarpij,排序選出最前面k個(gè)要素路徑作為當(dāng)前關(guān)鍵要素路徑集合。

14、作為本發(fā)明所述的能源行業(yè)大數(shù)據(jù)的語(yǔ)料庫(kù)自動(dòng)構(gòu)建方法的一種優(yōu)選方案,其中:所述匹配事件關(guān)系包括,根據(jù)觸發(fā)詞匹配率,從觸發(fā)詞語(yǔ)義匹配模板中選取關(guān)鍵要素路徑覆蓋比例最高的語(yǔ)義類型,匹配事件關(guān)系,計(jì)算觸發(fā)詞對(duì)候選頻率tpceij,表示為:

15、

16、其中,count(epi,tpsj)表示文本中第i個(gè)觸發(fā)詞對(duì)epi在第j個(gè)事件語(yǔ)義類型對(duì)tpsj下的樣本數(shù);count(tpsj)表示文檔中第j個(gè)語(yǔ)義類型對(duì)tpsj包含所有觸發(fā)詞對(duì)的數(shù)目;

17、計(jì)算觸發(fā)詞語(yǔ)義匹配頻率tpmfi:

18、

19、其中,sum(etp)表示語(yǔ)義類型對(duì)集合etp中語(yǔ)義類型對(duì)的總數(shù);count(etpsi)表示包含觸發(fā)詞對(duì)epi的語(yǔ)義類型對(duì)的數(shù)目;

20、計(jì)算觸發(fā)詞匹配率tmrij:

21、tmrij=tpcfij*tpmfi

22、對(duì)一個(gè)觸發(fā)詞對(duì),選擇tmrij最大的事件語(yǔ)義關(guān)系類型為觸發(fā)詞對(duì)匹配的事件關(guān)系。

23、作為本發(fā)明所述的能源行業(yè)大數(shù)據(jù)的語(yǔ)料庫(kù)自動(dòng)構(gòu)建方法的一種優(yōu)選方案,其中:所述語(yǔ)義單元包括,根據(jù)觸發(fā)詞對(duì)與知識(shí)庫(kù)映射的framenet語(yǔ)義單元的查詢關(guān)系,進(jìn)行事件關(guān)系擴(kuò)展和噪聲過(guò)濾;當(dāng)知識(shí)庫(kù)映射的framenet語(yǔ)義單元中可查詢到文本中觸發(fā)詞對(duì)時(shí),知識(shí)庫(kù)映射對(duì)應(yīng)框架的語(yǔ)義單元中的單詞、詞組被用來(lái)擴(kuò)展觸發(fā)詞對(duì)的規(guī)模,進(jìn)而擴(kuò)展事件關(guān)系的標(biāo)注規(guī)模,得到大規(guī)模自動(dòng)標(biāo)注的能源事件關(guān)系語(yǔ)料;若知識(shí)庫(kù)映射的framenet語(yǔ)義單元中未查詢到文本中觸發(fā)詞對(duì),則對(duì)應(yīng)觸發(fā)詞對(duì)作為噪聲過(guò)濾。

24、作為本發(fā)明所述的能源行業(yè)大數(shù)據(jù)的語(yǔ)料庫(kù)自動(dòng)構(gòu)建方法的一種優(yōu)選方案,其中:所述語(yǔ)義單元還包括,建立事件關(guān)系抽取模型,采用兩階段對(duì)事件關(guān)系抽取模型訓(xùn)練和回標(biāo),并驗(yàn)證自動(dòng)標(biāo)注的結(jié)果的準(zhǔn)確性;

25、第一階段,建立事件關(guān)系抽取模型并進(jìn)行預(yù)訓(xùn)練,事件關(guān)系抽取模型以bert模型為基礎(chǔ),bert模型的損失函數(shù)旨在語(yǔ)言建模和句子預(yù)測(cè),引入關(guān)鍵要素路徑比例作為輔助任務(wù),通過(guò)多任務(wù)學(xué)習(xí)框架,在訓(xùn)練過(guò)程中同時(shí)優(yōu)化語(yǔ)言模型和事件關(guān)系特征提取,表示為:

26、

27、其中,表示預(yù)訓(xùn)練階段的損失函數(shù);表示bert模型的mlm損失函數(shù);表示bert模型的nsp損失函數(shù);λ1表示權(quán)重參數(shù);ni表示預(yù)訓(xùn)練數(shù)據(jù)中要素路徑的總數(shù);nj表示預(yù)訓(xùn)練數(shù)據(jù)中語(yǔ)義關(guān)系類型的總數(shù);第二階段,將經(jīng)過(guò)人工標(biāo)注的高質(zhì)量數(shù)據(jù)集劃分為訓(xùn)練、驗(yàn)證、測(cè)試集,經(jīng)過(guò)預(yù)訓(xùn)練的事件關(guān)系抽取模型通過(guò)高質(zhì)量數(shù)據(jù)集進(jìn)行微調(diào),減小預(yù)測(cè)與真實(shí)結(jié)果的偏差,表示為:

28、

29、其中,表示微調(diào)階段的損失函數(shù);m表示高質(zhì)量數(shù)據(jù)集中樣本總數(shù);yj表示高質(zhì)量數(shù)據(jù)集的真實(shí)標(biāo)簽;表示高質(zhì)量數(shù)據(jù)集的預(yù)測(cè)標(biāo)簽;λ2表示權(quán)重參數(shù);l表示特征向量zj的數(shù)量;ψl(zj)表示高質(zhì)量數(shù)據(jù)集的歸一化特征變換函數(shù)。

30、作為本發(fā)明所述的能源行業(yè)大數(shù)據(jù)的語(yǔ)料庫(kù)自動(dòng)構(gòu)建方法的一種優(yōu)選方案,其中:生成所述能源事件關(guān)系語(yǔ)料庫(kù)包括,使用兩階段訓(xùn)練后的事件關(guān)系抽取模型對(duì)大規(guī)模自動(dòng)標(biāo)注的能源事件關(guān)系語(yǔ)料進(jìn)行回標(biāo),回標(biāo)數(shù)據(jù)與高質(zhì)量數(shù)據(jù)集的數(shù)據(jù)構(gòu)成能源事件關(guān)系語(yǔ)料庫(kù)。

31、第二方面,本發(fā)明還提供了能源行業(yè)大數(shù)據(jù)的語(yǔ)料庫(kù)自動(dòng)構(gòu)建系統(tǒng),包括,采集模塊,采集能源行業(yè)數(shù)據(jù),分析得到能源實(shí)體及事件關(guān)系,定義要素路徑并構(gòu)建觸發(fā)詞語(yǔ)義匹配模板;計(jì)算模塊,根據(jù)采集的數(shù)據(jù)計(jì)算關(guān)鍵要素路徑比例和觸發(fā)詞匹配率,獲得關(guān)鍵要素路徑集合;匹配模塊,以bert模型為基礎(chǔ)建立事件關(guān)系抽取模型,并進(jìn)行二階段訓(xùn)練,使用訓(xùn)練后的事件關(guān)系抽取模型對(duì)大規(guī)模自動(dòng)標(biāo)注的能源事件關(guān)系語(yǔ)料進(jìn)行回標(biāo),生成能源事件關(guān)系語(yǔ)料庫(kù)。

32、第三方面,本發(fā)明還提供了一種計(jì)算設(shè)備,包括:存儲(chǔ)器和處理器;

33、所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令,所述處理器用于執(zhí)行所述計(jì)算機(jī)可執(zhí)行指令,該計(jì)算機(jī)可執(zhí)行指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述能源行業(yè)大數(shù)據(jù)的語(yǔ)料庫(kù)自動(dòng)構(gòu)建方法的步驟。

34、第四方面,本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,該計(jì)算機(jī)可執(zhí)行指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述能源行業(yè)大數(shù)據(jù)的語(yǔ)料庫(kù)自動(dòng)構(gòu)建方法的步驟。

35、本發(fā)明的有益效果:本發(fā)明通過(guò)采集和分析能源數(shù)據(jù),定義要素路徑并構(gòu)建觸發(fā)詞語(yǔ)義匹配模板,奠定了數(shù)據(jù)處理基礎(chǔ)。計(jì)算關(guān)鍵要素路徑集合,優(yōu)化匹配模板,提高匹配精度。隨后,通過(guò)匹配事件關(guān)系,使用語(yǔ)義單元生成高質(zhì)量語(yǔ)料庫(kù),確保豐富的事件關(guān)系和實(shí)體信息。建立事件關(guān)系抽取模型并進(jìn)行兩階段訓(xùn)練,生成的語(yǔ)料庫(kù)具備高準(zhǔn)確性和全面性,顯著提升了大數(shù)據(jù)分析和應(yīng)用的效率與可靠性。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1