本發(fā)明涉及深度學習領域和自然語言處理,特別是一種面向政法領域的語言大模型問答系統(tǒng)及方法。
背景技術:
1、目前,現(xiàn)有基層政務服務主要依靠社區(qū)等工作人員人工回應居民等問詢。隨著居民生活需求的不斷豐富,居民政務咨詢的數(shù)量和涉及領域不斷增多,基層政務服務人員不足、難以及時精確回應居民需求等問題不斷顯現(xiàn),急需一種能為居民提供自助式問答、專業(yè)性強的問答系統(tǒng),問答功能包括政策法規(guī)的適用范圍、具體規(guī)定和實施情況,矛盾與法律糾紛調解處置流程、參考案例和建議,有助于公眾了解政策法規(guī),增強公眾對政策法規(guī)的了解和認識,推進法治社會建設,增強政府公信力,提高公眾對政府的信任和支持。
2、由此可得,如何解決現(xiàn)有基層政務服務人員不足、難以及時精確回應居民需求,成為亟待解決的現(xiàn)有技術問題之一。
技術實現(xiàn)思路
1、本發(fā)明提供了一種面向政法領域的語言大模型問答系統(tǒng)及方法,用于解決現(xiàn)有基層政務服務人員不足、難以及時精確回應居民需求的問題。
2、第一方面,提供了一種面向政法領域的語言大模型問答系統(tǒng),包括:知識庫、搜索模塊和知識生成模塊;其中,
3、所述知識庫,用于保存經過數(shù)據(jù)處理的政策法規(guī)文本、矛盾調解案例和法院裁判文書的政務數(shù)據(jù)信息;
4、所述搜索模塊,用于接收用戶輸入的問題并進行信息整合;以及匹配知識庫中的數(shù)據(jù)信息及用戶輸入的問題,生成待推理信息;
5、所述知識生成模塊,用于將待推理信息輸入至大語言模型llm,經過大語言模型的推理計算,生成問題對應的回答信息輸出給用戶,實現(xiàn)對用戶的實時精準政務服務。
6、在一種實施方式中,所述知識庫通過以下方法構建:
7、收集各行業(yè)領域和地區(qū)的法律法規(guī)、條例及判例的相關文本;以及相關政法案例文本數(shù)據(jù),包括涉及法律解釋、司法判決和法庭裁定的案例;以及相關政務事務處理解決流程的文本數(shù)據(jù);
8、清洗和整理收集到的文本數(shù)據(jù),并去除過期信息和重復信息,統(tǒng)一格式,保存為本地知識文件;
9、分句處理所述本地知識文件內容,將長文本或大文檔分割成設定大小的片段chunks,利用分詞工具將句子劃分成短語,同時保證所述短語擁有完整和獨立的語義;
10、借助embedding模型將完成分詞分塊處理的文本數(shù)據(jù)轉換為數(shù)值向量;
11、將生成的數(shù)值向量和知識點存儲到fasis向量數(shù)據(jù)庫。
12、在一種實施方式中,分句處理所述本地知識文件內容,將長文本或大文檔分割成設定大小的片段chunks,利用分詞工具將句子劃分成短語,同時保證所述短語擁有完整和獨立的語義,具體包括:
13、將本地知識文件內容拆分為多個獨立、大小為250字的知識點,每個知識點作為問答的最小記錄,確保文本大小符合模型的長度要求;
14、結合深度學習模型的方式,利用tokenizer分詞工具對文本進行基礎處理,將句子劃分成短語,保證各個短語擁有相對完整和獨立的語義。
15、在一種實施方式中,所述搜索模塊,具體用于接收用戶輸入的問題,并利用大語言模型llm按照預設樣例和用戶進行多輪會話交互,完善用戶問題,直至問題達到設定預期完整度,整合多輪會話中的重要信息;以及通過embedding模型轉換用戶問題及重要信息為數(shù)值向量;以及匹配用戶問題對應的數(shù)值向量與知識庫的fasis向量數(shù)據(jù)庫中的數(shù)值向量;獲取匹配到的知識庫中知識文本附近鄰域的文本信息,防止完整句子被分割切斷,并將匹配對應的知識庫中的文本數(shù)據(jù)以及用戶問題進行合并,生成待推理信息。
16、在一種實施方式中,所述搜索模塊匹配用戶問題對應的數(shù)值向量與知識庫的fasis向量數(shù)據(jù)庫中的數(shù)值向量,具體包括:
17、用戶問題對應的數(shù)值向量與知識庫的fasis向量數(shù)據(jù)庫中的數(shù)值向量之間的相似性通過歐式距離衡量,所述歐氏距離,值越小表示兩個向量越相似,值越大表示兩個向量越不相似;找出與用戶問題對應的數(shù)值向量最接近的知識庫的fasis向量數(shù)據(jù)庫中的數(shù)值向量,獲得與之相似度最高的n個文本,所述歐式距離計算公式為:
18、
19、其中,x代表用戶問題對應的數(shù)值向量,xi代表相應的分向量;y代表知識庫的fasis向量數(shù)據(jù)庫中的數(shù)值向量,yi代表相應的分向量。
20、第二方面,提供了一種面向政法領域的語言大模型問答方法,所述方法應用于上述的系統(tǒng),包括:
21、搜索模塊接收用戶輸入的問題并進行信息整合,匹配知識庫中的數(shù)據(jù)信息及用戶輸入的問題,生成待推理信息;所述知識庫保存經過數(shù)據(jù)處理的政策法規(guī)文本、矛盾調解案例和法院裁判文書的政務數(shù)據(jù)信息;
22、知識生成模塊將待推理信息輸入至大語言模型llm,經過大語言模型的推理計算,生成問題對應的回答信息輸出給用戶,實現(xiàn)對用戶的實時精準政務服務。
23、在一種實施方式中,所述知識庫通過以下方法構建:
24、收集各行業(yè)領域和地區(qū)的法律法規(guī)、條例及判例的相關文本;以及相關政法案例文本數(shù)據(jù),包括涉及法律解釋、司法判決和法庭裁定的案例;以及相關政務事務處理解決流程的文本數(shù)據(jù);
25、清洗和整理收集到的文本數(shù)據(jù),并去除過期信息和重復信息,統(tǒng)一格式,保存為本地知識文件;
26、分句處理所述本地知識文件內容,將長文本或大文檔分割成設定大小的片段chunks,利用分詞工具將句子劃分成短語,同時保證所述短語擁有完整和獨立的語義;
27、借助embedding模型將完成分詞分塊處理的文本數(shù)據(jù)轉換為數(shù)值向量;
28、將生成的數(shù)值向量和知識點存儲到fasis向量數(shù)據(jù)庫。
29、在一種實施方式中,分句處理所述本地知識文件內容,將長文本或大文檔分割成設定大小的片段chunks,利用分詞工具將句子劃分成短語,同時保證所述短語擁有完整和獨立的語義,具體包括:
30、將本地知識文件內容拆分為多個獨立、大小為250字的知識點,每個知識點作為問答的最小記錄,確保文本大小符合模型的長度要求;
31、結合深度學習模型的方式,利用tokenizer分詞工具對文本進行基礎處理,將句子劃分成短語,保證各個短語擁有相對完整和獨立的語義。
32、在一種實施方式中,搜索模塊接收用戶輸入的問題并進行信息整合,匹配知識庫中的數(shù)據(jù)信息及用戶輸入的問題,生成待推理信息,具體包括:
33、接收用戶輸入的問題,并利用大語言模型llm按照預設樣例和用戶進行多輪會話交互,完善用戶問題,直至問題達到設定預期完整度,整合多輪會話中的重要信息;
34、通過embedding模型轉換用戶問題及重要信息為數(shù)值向量;
35、匹配用戶問題對應的數(shù)值向量與知識庫的fasis向量數(shù)據(jù)庫中的數(shù)值向量;
36、獲取匹配到的知識庫中知識文本附近鄰域的文本信息,防止完整句子被分割切斷,并將匹配對應的知識庫中的文本數(shù)據(jù)以及用戶問題進行合并,生成待推理信息。
37、在一種實施方式中,匹配用戶問題對應的數(shù)值向量與知識庫的fasis向量數(shù)據(jù)庫中的數(shù)值向量,具體包括:
38、用戶問題對應的數(shù)值向量與知識庫的fasis向量數(shù)據(jù)庫中的數(shù)值向量之間的相似性通過歐式距離衡量,所述歐氏距離,值越小表示兩個向量越相似,值越大表示兩個向量越不相似;找出與用戶問題對應的數(shù)值向量最接近的知識庫的fasis向量數(shù)據(jù)庫中的數(shù)值向量,獲得與之相似度最高的n個文本,所述歐式距離計算公式為:
39、
40、其中,x代表用戶問題對應的數(shù)值向量,xi代表相應的分向量;y代表知識庫的fasis向量數(shù)據(jù)庫中的數(shù)值向量,yi代表相應的分向量。
41、本發(fā)明實施例提供的一種面向政法領域的語言大模型問答系統(tǒng)及方法,所述系統(tǒng)包括:知識庫、搜索模塊和知識生成模塊;其中,所述知識庫,用于保存經過數(shù)據(jù)處理的政策法規(guī)文本、矛盾調解案例和法院裁判文書的政務數(shù)據(jù)信息;所述搜索模塊,用于接收用戶輸入的問題并進行信息整合;以及匹配知識庫中的數(shù)據(jù)信息及用戶輸入的問題,生成待推理信息;所述知識生成模塊,用于將待推理信息輸入至大語言模型llm,經過大語言模型的推理計算,生成問題對應的回答信息輸出給用戶,實現(xiàn)對用戶的實時精準政務服務,通過以上系統(tǒng),解決了現(xiàn)有基層政務服務人員不足、難以及時精確回應居民需求。
42、本發(fā)明的其他特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權利要求書、以其附圖中特別指出的結構來實現(xiàn)和獲得。