本發(fā)明屬于醫(yī)療大數(shù)據(jù)等,具體涉及一種基于實體增強(qiáng)的醫(yī)療信息抽取方法。
背景技術(shù):
1、在當(dāng)前醫(yī)學(xué)研究和技術(shù)迅猛發(fā)展的環(huán)境下,充分挖掘和利用龐大的醫(yī)療數(shù)據(jù)資源,如醫(yī)學(xué)文獻(xiàn)、病案記錄、診療指南等非結(jié)構(gòu)化文本,對于醫(yī)學(xué)信息的理解與應(yīng)用至關(guān)重要。在這一過程中,實體抽取技術(shù)扮演著核心角色。然而,在執(zhí)行醫(yī)學(xué)文本中的實體關(guān)系抽取任務(wù)時,我們面臨著挑戰(zhàn),比如相同的詞匯或短語在不同的醫(yī)療情境中可能具有多重實體含義,這嚴(yán)重影響了抽取的準(zhǔn)確性。鑒于此,需要一種新的方案,以提升處理復(fù)雜醫(yī)療文本的能力,顯得尤為緊迫和必要。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的空白和實際需求,本發(fā)明的目的在于提供一種基于實體增強(qiáng)的醫(yī)療信息抽取方法,有效應(yīng)對醫(yī)療文本專業(yè)性、復(fù)雜性和多變性問題,提高醫(yī)療文本的實體關(guān)系抽取準(zhǔn)確率。
2、通過使用bert預(yù)訓(xùn)練模型得到文本向量;然后使用全局實體加強(qiáng)層和局部實體加強(qiáng)層得到實體加強(qiáng)表征向量,最后構(gòu)建五角標(biāo)類型的解碼層將實體關(guān)系聯(lián)合抽取分解成細(xì)粒度分類任務(wù),實現(xiàn)醫(yī)療文本實體對及其關(guān)系的抽取。在算法模型的層面,本發(fā)明通過醫(yī)療文本特征編碼模塊、實體加強(qiáng)模塊、細(xì)粒度分類的解碼層模塊的結(jié)合,能夠在復(fù)雜的醫(yī)療文本有效的完成抽取任務(wù)。
3、本發(fā)明解決其技術(shù)問題具體采用的技術(shù)方案是:
4、一種基于實體增強(qiáng)的醫(yī)療信息抽取方法:使用bert預(yù)訓(xùn)練模型得到文本向量;使用全局實體加強(qiáng)層和局部實體加強(qiáng)層得到實體加強(qiáng)表征向量,通過五角標(biāo)類型的解碼層將實體關(guān)系聯(lián)合抽取分解成細(xì)粒度分類任務(wù),以實現(xiàn)醫(yī)療文本實體對及其關(guān)系的抽取。
5、進(jìn)一步地,所述使用bert預(yù)訓(xùn)練模型得到文本向量表示為:
6、hn=bert(x)
7、式中,hn是通過bert模型編碼后得到的醫(yī)療文本向量,x是醫(yī)療文本。
8、進(jìn)一步地,所述使用全局實體加強(qiáng)層和局部實體加強(qiáng)層得到實體加強(qiáng)表征向量包括:通過定義頭實體獲取器和尾實體獲取器得到全局實體加強(qiáng)向量;通過綜合使用多個擴(kuò)張率不同的空洞卷積網(wǎng)絡(luò)得到局部實體加強(qiáng)向量;拼接全局實體加強(qiáng)向量和局部實體加強(qiáng)向量得到最終的實體加強(qiáng)向量。
9、進(jìn)一步地,獲得所述全局實體加強(qiáng)向量的具體計算如下:
10、tmphead=linear(hn)
11、headenhance=linear(tmphead)
12、tmptail=linear(pool(headenhance)+hn)
13、tailenhance=linear(tmptail)
14、
15、式中,hn是通過bert模型編碼后得到的醫(yī)療文本向量,linear(●)表示線性層,tmphead表示使用一層線性層后得到的單層頭實體加強(qiáng)向量,headenhance表示使用兩層線性層后得到的頭實體加強(qiáng)向量;pool(●)表示平均池化層,tmptail表示使用一層線性層對醫(yī)療文本向量結(jié)合平均池化后的頭實體加強(qiáng)向量后的得到的單層為實體加強(qiáng)向量,tailenhance表示使用兩層線性層后得到的尾實體加強(qiáng)向量,globalenhance表示將頭實體加強(qiáng)向量和尾實體加強(qiáng)向量進(jìn)行拼接后得到的全局實體加強(qiáng)向量,表示拼接操作;
16、獲得所述局部實體加強(qiáng)向量的具體計算如下:
17、ql=σ(dconvl(hn))
18、
19、式中,dconvl(·)表示使用擴(kuò)張率為l的空洞卷積網(wǎng)絡(luò),hn是通過bert模型編碼后得到的醫(yī)療文本向量,ql表示使用擴(kuò)張率為l的空洞卷積網(wǎng)絡(luò)進(jìn)行卷積操作得到的卷積向量,σ表示relu激活函數(shù),表示拼接操作,bilstm(·)表示使用雙向長短時記憶神經(jīng)網(wǎng)絡(luò)函數(shù),q表示最后得到的局部實體加強(qiáng)向量。
20、進(jìn)一步地,獲得最終的實體加強(qiáng)向量的具體計算如下:
21、entityenhance=globalenhance+q
22、式中,globalenhance表示全局實體加強(qiáng)向量,q表示局部實體加強(qiáng)向量,entityenhance表示最終的實體加強(qiáng)向量。
23、進(jìn)一步地,所述通過五角標(biāo)類型的解碼層將實體關(guān)系聯(lián)合抽取分解成細(xì)粒度分類任務(wù)包括:使用自注意力機(jī)制,捕捉實體加強(qiáng)向量的長距離依賴關(guān)系得到深層表征向量;使用線性層處理深層表征向量并重塑成二維矩陣;通過預(yù)定義角標(biāo)策略對二維矩陣進(jìn)行實體關(guān)系判斷,得到最終的實體對及其關(guān)系。
24、進(jìn)一步地,所述深層表征向量的具體計算如下:
25、vector=attention(entityenhance)
26、式中,attention(·)表示自注意力機(jī)制函數(shù),entityenhance表示實體加強(qiáng)向量,vector表示深層表征向量;
27、所述線性層處理深層表征向量并重塑成二維矩陣的計算具體計算如下:
28、matrix_score=reshape(linear(vector))
29、式中,reshape(·)表示二維矩陣重塑函數(shù),linear(·)表示線性層,matrix_score表示重塑后的關(guān)系分?jǐn)?shù)矩陣;
30、所述預(yù)定義的角標(biāo)策略如下:
31、“b2b”:表示該位置為一個頭實體或者尾實體的起始位置;
32、“b2e”:表示該位置為一個尾實體的結(jié)束位置;
33、“e2e”:表示該位置為一個頭實體的結(jié)束位置;
34、“i”:表示該位置為頭實體或者尾實體的內(nèi)部;
35、“·”:表示該位置無實體意義;
36、當(dāng)預(yù)測序列為“…,b2e,i,i,e2e,…”時,表明此時預(yù)測實體為頭實體;當(dāng)預(yù)測序列為“…,b2b,i,i,b2e,…”時,表明此時預(yù)測實體為尾實體;對于實體跨度的判斷,采用最近匹配原則。
37、以及,一種基于實體增強(qiáng)的醫(yī)療信息抽取系統(tǒng),包括:醫(yī)療文本特征編碼模塊、實體加強(qiáng)模塊和細(xì)粒度分類的解碼層模塊;所述醫(yī)療文本特征編碼模塊使用bert預(yù)訓(xùn)練模型得到文本向量;所述實體加強(qiáng)模塊使用全局實體加強(qiáng)層和局部實體加強(qiáng)層得到實體加強(qiáng)表征向量;所述細(xì)粒度分類的解碼層模塊通過五角標(biāo)類型的解碼層將實體關(guān)系聯(lián)合抽取分解成細(xì)粒度分類任務(wù),以實現(xiàn)醫(yī)療文本實體對及其關(guān)系的抽取。
38、以及,一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上所述的一種基于實體增強(qiáng)的醫(yī)療信息抽取方法的步驟。
39、一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上所述的一種基于實體增強(qiáng)的醫(yī)療信息抽取方法的步驟。
40、相比于現(xiàn)有技術(shù),本發(fā)明及其優(yōu)選方案從多維度提升對醫(yī)療文本的信息捕捉能力以及表達(dá)能力,更好地分析醫(yī)療文本的潛在規(guī)律,進(jìn)而提高醫(yī)療文本的實體關(guān)系抽取準(zhǔn)確率。
1.一種基于實體增強(qiáng)的醫(yī)療信息抽取方法,其特征在于:使用bert預(yù)訓(xùn)練模型得到文本向量;使用全局實體加強(qiáng)層和局部實體加強(qiáng)層得到實體加強(qiáng)表征向量,通過五角標(biāo)類型的解碼層將實體關(guān)系聯(lián)合抽取分解成細(xì)粒度分類任務(wù),以實現(xiàn)醫(yī)療文本實體對及其關(guān)系的抽取。
2.根據(jù)權(quán)利要求1所述的一種基于實體增強(qiáng)的醫(yī)療信息抽取方法,其特征在于:
3.根據(jù)權(quán)利要求1所述的一種基于實體增強(qiáng)的醫(yī)療信息抽取方法,其特征在于:所述使用全局實體加強(qiáng)層和局部實體加強(qiáng)層得到實體加強(qiáng)表征向量包括:通過定義頭實體獲取器和尾實體獲取器得到全局實體加強(qiáng)向量;通過綜合使用多個擴(kuò)張率不同的空洞卷積網(wǎng)絡(luò)得到局部實體加強(qiáng)向量;拼接全局實體加強(qiáng)向量和局部實體加強(qiáng)向量得到最終的實體加強(qiáng)向量。
4.根據(jù)權(quán)利要求3所述的一種基于實體增強(qiáng)的醫(yī)療信息抽取方法,其特征在于:
5.根據(jù)權(quán)利要求4所述的一種基于實體增強(qiáng)的醫(yī)療信息抽取方法,其特征在于:
6.根據(jù)權(quán)利要求1所述的一種基于實體增強(qiáng)的醫(yī)療信息抽取方法,其特征在于:所述通過五角標(biāo)類型的解碼層將實體關(guān)系聯(lián)合抽取分解成細(xì)粒度分類任務(wù)包括:使用自注意力機(jī)制,捕捉實體加強(qiáng)向量的長距離依賴關(guān)系得到深層表征向量;使用線性層處理深層表征向量并重塑成二維矩陣;通過預(yù)定義角標(biāo)策略對二維矩陣進(jìn)行實體關(guān)系判斷,得到最終的實體對及其關(guān)系。
7.根據(jù)權(quán)利要求6所述的一種基于實體增強(qiáng)的醫(yī)療信息抽取方法,其特征在于:
8.一種基于實體增強(qiáng)的醫(yī)療信息抽取系統(tǒng),其特征在于,包括:醫(yī)療文本特征編碼模塊、實體加強(qiáng)模塊和細(xì)粒度分類的解碼層模塊;所述醫(yī)療文本特征編碼模塊使用bert預(yù)訓(xùn)練模型得到文本向量;所述實體加強(qiáng)模塊使用全局實體加強(qiáng)層和局部實體加強(qiáng)層得到實體加強(qiáng)表征向量;所述細(xì)粒度分類的解碼層模塊通過五角標(biāo)類型的解碼層將實體關(guān)系聯(lián)合抽取分解成細(xì)粒度分類任務(wù),以實現(xiàn)醫(yī)療文本實體對及其關(guān)系的抽取。
9.一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1-7任一項所述的一種基于實體增強(qiáng)的醫(yī)療信息抽取方法的步驟。
10.一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7任一項所述的一種基于實體增強(qiáng)的醫(yī)療信息抽取方法的步驟。