本發(fā)明涉及人工智能領(lǐng)域的大語言模型技術(shù)和自然語言處理文本分析領(lǐng)域,具體地,涉及一種基于提示學(xué)習(xí)的自動化電子卷宗文檔生成方法及系統(tǒng)。
背景技術(shù):
1、電子卷宗的深度智能化分析是智慧司法的重要環(huán)節(jié)和發(fā)展方向之一。通過對電子卷宗文檔的內(nèi)容開展深層次、智能化的分析,能夠?qū)Ξ斍八痉ü芾碣|(zhì)效產(chǎn)生積極的影響。然而,在運用人工智能技術(shù)對電子卷宗進行分析時,一個重要的前提是擁有大量高質(zhì)量的電子卷宗文檔并對其進行準確標注,以此來訓(xùn)練人工智能模型。但這一前提面臨著兩大現(xiàn)實難點:其一,電子卷宗文檔中包含大量高敏感度的隱私信息,在進行人工智能訓(xùn)練時通常難以獲取完整的電子卷宗文檔;其二,當前人工智能的認知任務(wù)需要大量的標注數(shù)據(jù),而對電子卷宗進行標注需要專業(yè)的司法知識,標注過程會帶來高昂的人力成本。
2、隨著大語言模型的高速發(fā)展,利用大語言模型智能體進行文檔的生成和預(yù)處理標注成為一種高效的方式。但大語言模型存在的幻覺問題以及其運行時的時間成本,在一定程度上造成了阻礙,導(dǎo)致其難以承擔(dān)電子卷宗智能化認知中對及時性和準確率要求較高的任務(wù)。
3、在電子卷宗生成任務(wù)中,不同法院歸檔的封面、目錄、備考表、卷底等的樣式有所不同,主要體現(xiàn)在模板的數(shù)據(jù)要求、字體、字號、頁邊距、背景顏色以及字體顏色等方面。傳統(tǒng)的基于java?awt組件庫的實現(xiàn)方式雖然能夠?qū)崿F(xiàn)生成效果,但在生成過程中,面對不同的模板需要大范圍修改源代碼,便利性低,靈活性欠佳。
4、在現(xiàn)有的利用大語言模型智能體生成電子文檔的研究中,大多采用大量的語料庫對大語言模型進行預(yù)訓(xùn)練后,再使用相關(guān)領(lǐng)域的小批次語料對大語言模型智能體進行微調(diào),從而生成滿足該領(lǐng)域?qū)I(yè)需求的電子文檔。但是在當前的大語言模型中存在著幻覺現(xiàn)象,即針對用戶的特定輸入,有時會產(chǎn)生混亂且無法預(yù)測的輸出,從而導(dǎo)致生成的電子文檔的準確性、真實性以及邏輯一致性難以保證。
5、在基于模板進行電子卷宗文檔生成時,不同法院中歸檔的封面、目錄、備考表、卷底等的樣式都有所區(qū)別,主要體現(xiàn)在模板上的數(shù)據(jù)要求、字體、字號、頁邊距、背景顏色以及字體顏色等,傳統(tǒng)的基于java?awt組件庫的實現(xiàn)方式雖然可以實現(xiàn)生成效果,但是在生成過程中面對不同的模板需要大范圍修改源代碼,便利程度低,靈活性欠佳。并且對于案件原始信息的梳理需要大量具有司法知識的專業(yè)人士進行,造成了高昂的人力成本和較低的生成效率。因此大規(guī)模生成真實性高、準確率高以及邏輯一致性佳的電子卷宗文檔,并以此來作為電子卷宗智能化認知網(wǎng)絡(luò)模型的訓(xùn)練和測試數(shù)據(jù),是一項具有相當難度的任務(wù)。
6、在現(xiàn)有的電子卷宗文檔生成方法中,主要關(guān)注在司法過程中隨案電子卷宗的生成以及紙質(zhì)電子卷宗的電子化,通過對專利文獻的檢索發(fā)現(xiàn)授權(quán)公告號為cn110362799b的專利,公開了一種基于在線仲裁的裁決書生成處理方法、裝置、計算機設(shè)備和存儲介質(zhì),其利用當前案件的案件標識獲取對應(yīng)的電子卷宗,并從電子卷宗中獲取對應(yīng)的信息回填到裁決書模板中,從而生成裁決文書。該方法僅能生成裁決文書,并且依賴于已有的電子卷宗文檔,無法生成其他類型的電子卷宗。
7、在現(xiàn)有的使用大語言模型智能體的電子文檔生成方法中,主要針對文檔檢索任務(wù)以及準確性、及時性要求不高的文檔生成。通過對專利文獻的檢索發(fā)現(xiàn)授權(quán)公告號cn118069815b的專利,公開了一種大語言模型反饋信息生成方法、裝置、電子設(shè)備及介質(zhì),其對于知識庫中的文檔重構(gòu)后向量化存儲到向量數(shù)據(jù)庫,然后利用大語言模型對用戶的輸入進行向量化后在向量數(shù)據(jù)庫中進行索引,從而實現(xiàn)高效的索引。該方法主要針對電子文檔的索引任務(wù)。此外,授權(quán)公告號為cn111723564b的專利,公開了一種針對隨案電子卷宗的事件抽取及處理方法,其從隨案電子卷宗流轉(zhuǎn)處理平臺上獲取需要的卷宗數(shù)據(jù)并存入數(shù)據(jù)庫,然后構(gòu)建事件觸發(fā)詞詞典,匹配電子卷宗事件描述段落,再進行文本預(yù)處理方法,然后進行事件屬性抽取,最后進行事件聚合,將原子事件聚合為主體事件,并存儲到事件數(shù)據(jù)庫。該方法使用了基于transformer的雙向模型進行要素提取,并且提取內(nèi)容為電子卷宗中的事件關(guān)系。
8、綜上所述,針對上述現(xiàn)有技術(shù)的問題,研究一種基于提示學(xué)習(xí)的自動化電子卷宗文檔生成方法及系統(tǒng)成為當下亟待解決的關(guān)鍵任務(wù)。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種基于提示學(xué)習(xí)的自動化電子卷宗文檔生成方法及系統(tǒng)。
2、根據(jù)本發(fā)明提供的一種基于提示學(xué)習(xí)的自動化電子卷宗生成方法,包括如下步驟:
3、步驟s1,收集司法數(shù)據(jù)集,并根據(jù)預(yù)設(shè)標準,篩選出原始案件要素完整的子集,對子集進行標注,構(gòu)建案件要素提取任務(wù)數(shù)據(jù)集;
4、步驟s2,對案件要素提取任務(wù)數(shù)據(jù)集進行脫敏處理,得到脫敏數(shù)據(jù)集;
5、步驟s3,利用脫敏數(shù)據(jù)集,對已在大規(guī)模語料庫上完成預(yù)訓(xùn)練的大語言模型進行微調(diào)訓(xùn)練,得到微調(diào)后的大語言模型;
6、步驟s4,創(chuàng)建用于生成電子卷宗程序文書的電子卷宗模板,并明確電子卷宗模板中需填寫的目標案件要素;
7、步驟s5,基于微調(diào)后的大語言模型,根據(jù)目標案件要素和案件要素提取任務(wù)數(shù)據(jù)集,構(gòu)建提示詞,再輸入至微調(diào)后的大語言模型,提取目標案件要素的案件要素名稱和實體信息;
8、步驟s6,對案件要素名稱和實體信息進行聚類處理,得到聚類結(jié)果;
9、步驟s7,將聚類結(jié)果中的實體信息回填到電子卷宗模板中,完成電子卷宗文檔的自動化生成。
10、優(yōu)選地,步驟s2中,脫敏處理是對敏感信息進行隨機替換,敏感信息包括人名、住址、身份證號和電話號。
11、優(yōu)選地,步驟s4中,電子卷宗模板中,使用特定的占位符標記出需要填充案件要素的位置,并且在不同的電子卷宗類型中,同一類型的案件要素使用相同的名稱和數(shù)據(jù)格式,確保生成的電子卷宗文檔具有一致性和規(guī)范性。
12、優(yōu)選地,步驟s5中,提示詞以prompt語句的形式呈現(xiàn),通過將prompt語句輸入至微調(diào)后的大語言模型,提取出目標案件要素的案件要素名稱和實體信息。
13、優(yōu)選地,步驟s5中,prompt語句的形式為:從【司法數(shù)據(jù)集類型】內(nèi)容【司法數(shù)據(jù)集的內(nèi)容】中提取下列案件要素:【案件要素名稱】,不存在的要素以暫無替代,并以json字符串的形式給出案件要素名稱和實體信息。
14、優(yōu)選地,步驟s6包括如下子步驟:
15、步驟s6.1,對于步驟s5中提取的包括案件要素名稱和實體信息的json字符串,將案件要素名稱及實體信息整理成“【案件要素名稱】:【實體內(nèi)容】”形式的字符串,并使用字符串向量化技術(shù)將字符串表征為固定長度的浮點數(shù)向量;
16、步驟s6.2,對浮點數(shù)向量使用k-means聚類算法進行無監(jiān)督聚類,其中k個質(zhì)心基于預(yù)定義的k值隨機創(chuàng)建,得到聚類結(jié)果,聚類結(jié)果包括文本和詞匯向量。
17、優(yōu)選地,步驟s6.1中,字符串向量化技術(shù)采用基于transformer的雙向編碼表示器,雙向編碼表示器已在大規(guī)模中文語料上進行預(yù)訓(xùn)練,將字符串表征為形狀為1×768的浮點數(shù)向量。
18、優(yōu)選地,步驟s6.2的k-means聚類算法包括如下子步驟:
19、步驟s6.2.1,計算不同k值下的聚類誤差平方和,使用肘部法則確定最優(yōu)的k值;
20、步驟s6.2.2,將浮點數(shù)向量中的每個數(shù)據(jù)點分配到距離最近的質(zhì)心;
21、步驟s6.2.3,通過計算分配給質(zhì)心所在集群的所有數(shù)據(jù)點的平均值來重新計算質(zhì)心的位置,從而減少與步驟s6.2.1相關(guān)的集群內(nèi)總方差,k均值中的“均值”是指對當前集群中的數(shù)據(jù)點求算術(shù)平均值,以找到新的質(zhì)心位置;
22、步驟s6.2.4,在步驟s6.2.2和步驟s6.2.3之間迭代,直到數(shù)據(jù)點的集群分配情況不再發(fā)生變化,得到聚類結(jié)果。
23、優(yōu)選地,步驟s7包括:對步驟s6中得到的聚類結(jié)果,在每一個類別的聚類結(jié)果中選取和類別中其余向量平均距離最短的“中心點向量”作為類別的代表;將類別代表向量和電子卷宗模板中規(guī)定的案件要素名稱向量進行比對和距離計算;設(shè)定聚類中心數(shù)量為k,則類別代表向量共有k個:[rv1,rv2,…,rvk],而電子卷宗模板中案件要素向量有n個:[cev1,cev2,…,cevn];首先計算類別代表向量rvi與每個案件要素向量之間的相似度,并找出相似度最高的n個案件要素向量,記為然后對于每一個案件要素向量cevj,找到與其相似度最高的n個類別代表向量,記為如果對于一對類別代表向量與案件要素向量<rvi,cevj>,同時滿足rvi∈rj以及cevj∈ci,則認為這一對類別代表向量與案件要素向量表示同一案件要素和對應(yīng)實體;當存在多對滿足要求的類別代表向量與案件要素向量時,對于每一個案件要素向量,選取滿足要求且相似度最高的類別代表向量;最后針對n個案件要素向量,產(chǎn)生n個<類別代表向量,案件要素向量>對;選取相似度最高的案件要素名稱作為正確分類名稱,并將對應(yīng)的實體信息回填到電子卷宗模板中,從而生成對應(yīng)的電子卷宗文檔。
24、本發(fā)明還提供了一種基于提示學(xué)習(xí)的自動化電子卷宗生成系統(tǒng),包括:
25、模塊m1,收集司法數(shù)據(jù)集,并根據(jù)預(yù)設(shè)標準,篩選出原始案件要素完整的子集,對子集進行標注,構(gòu)建案件要素提取任務(wù)數(shù)據(jù)集;
26、模塊m2,對案件要素提取任務(wù)數(shù)據(jù)集進行脫敏處理,得到脫敏數(shù)據(jù)集;
27、模塊m3,利用脫敏數(shù)據(jù)集,對已在大規(guī)模語料庫上完成預(yù)訓(xùn)練的大語言模型進行微調(diào)訓(xùn)練,得到微調(diào)后的大語言模型;
28、模塊m4,創(chuàng)建用于生成電子卷宗程序文書的電子卷宗模板,并明確電子卷宗模板中需填寫的目標案件要素;
29、模塊m5,基于微調(diào)后的大語言模型,根據(jù)目標案件要素和司法數(shù)據(jù)集,構(gòu)建提示詞,再輸入至微調(diào)后的大語言模型,提取目標案件要素的案件要素名稱和實體信息;
30、模塊m6,對案件要素名稱和實體信息進行聚類處理,得到聚類結(jié)果;
31、模塊m7,將聚類結(jié)果中的實體信息回填到電子卷宗模板中,完成電子卷宗文檔的自動化生成。
32、與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:
33、1、本發(fā)明通過預(yù)先定義電子卷宗文檔word模板并確定內(nèi)部的案件要素名稱及定義,同時收集大量的公開司法數(shù)據(jù)集,例如判決書、裁判文書以及起訴書等作為原始的真實案件來源,為電子卷宗文檔的生成提供了豐富且真實的信息基礎(chǔ)。隨后通過構(gòu)建的提示詞,利用大語言模型智能體自動提取公開司法數(shù)據(jù)集中的案件要素及其對應(yīng)實體,能夠?qū)崿F(xiàn)自動化的數(shù)據(jù)處理流程,提高了電子卷宗文檔生成的效率。
34、2、本發(fā)明為避免大語言模型智能體的幻覺問題,采用詞向量化的方式對提取出的案件要素和對應(yīng)實體進行特征嵌入,并與模板中的案件要素名稱共同聚類,確保了案件要素名稱的一致性,有效地降低了大語言模型智能體提取的不確定性,從而提高了生成電子卷宗文檔的準確性和可靠性。
35、3、本發(fā)明通過將提取的實體內(nèi)容回填到電子卷宗文檔模板中,生成的電子卷宗文檔具有高真實性,這得益于案件來源是真實發(fā)生的案件,使得案件描述展現(xiàn)出相當?shù)恼鎸嵭院瓦壿嬕恢滦?,為司法實踐提供了高質(zhì)量的電子卷宗文檔,有利于司法工作的開展和推進。
36、4、本發(fā)明在生成過程中使用公開的司法數(shù)據(jù)集作為數(shù)據(jù)來源,避免了隱私泄露的風(fēng)險,保障了信息安全,符合司法工作對信息保密性的要求。
37、5、本發(fā)明在回填模板過程中可自動進行標注,無需人工標注,極大地降低了人力成本,減少了因人工標注所需的專業(yè)司法知識而帶來的資源投入,提高了整體的操作便利性。
38、6、本發(fā)明能針對多種不同格式的電子卷宗文檔進行生成,并且不依賴于真實電子卷宗文檔,具有廣泛的適用性和通用性。特別地,本發(fā)明專注于高仿真電子卷宗生成任務(wù),可生成與實際司法卷宗高度相似的文檔;本發(fā)明運用預(yù)定義的電子卷宗文檔模板、公開司法數(shù)據(jù)集和提示學(xué)習(xí)工程進行案件要素的提取和回填,整合了多種技術(shù)和數(shù)據(jù)資源,為電子卷宗文檔的生成提供了一種創(chuàng)新且高效的方法。