本技術(shù)涉及自然語言處理,更具體的說,是涉及一種領(lǐng)域問答大模型訓(xùn)練及問答方法、相關(guān)設(shè)備及程序產(chǎn)品。
背景技術(shù):
1、通用大模型通?;趶V泛的公開文獻和網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練,缺乏專業(yè)知識和行業(yè)數(shù)據(jù)的積累,因此在行業(yè)針對性和精準(zhǔn)度方面存在不足。然而,用戶對行業(yè)大模型的專業(yè)服務(wù)要求較高,容錯性較低,一旦行業(yè)大模型向公眾提供了錯誤信息,可能會引發(fā)嚴(yán)重后果。用行業(yè)數(shù)據(jù)重新訓(xùn)練、微調(diào)通用大模型,構(gòu)建高度可用的問答系統(tǒng),可以在一定程度上解決上述問題。
2、行業(yè)數(shù)據(jù)中的技術(shù)標(biāo)準(zhǔn)和領(lǐng)域文本數(shù)據(jù)只能用于模型的預(yù)訓(xùn)練,構(gòu)建問答系統(tǒng)進行后續(xù)問答需要的是指令數(shù)據(jù),也即行業(yè)的問答對數(shù)據(jù)。現(xiàn)有技術(shù)一般采用一些人工智能的方法生成一些指令數(shù)據(jù),生成的指令數(shù)據(jù)可能存在一些事實性錯誤等缺陷,為了保證指令數(shù)據(jù)的質(zhì)量,還需要進行大量的人工校對,之后才能應(yīng)用于模型的訓(xùn)練中。因此,當(dāng)前的領(lǐng)域問答大模型訓(xùn)練過程仍需要耗費大量人工執(zhí)行指令數(shù)據(jù)的校對工作。
技術(shù)實現(xiàn)思路
1、鑒于上述問題,提出了本技術(shù)以便提供一種領(lǐng)域問答大模型訓(xùn)練及問答方法、相關(guān)設(shè)備及程序產(chǎn)品,以減少領(lǐng)域問答大模型訓(xùn)練過程人工對指令數(shù)據(jù)進行校對的工作,降低成本、提升訓(xùn)練效率。具體方案如下:
2、第一方面,提供了一種領(lǐng)域問答大模型訓(xùn)練方法,包括:
3、獲取具備問答能力的初始大模型,以及采用標(biāo)注有偏好排序的問答數(shù)據(jù)訓(xùn)練得到的裁判模型;
4、獲取領(lǐng)域知識庫,并基于所述領(lǐng)域知識庫提取領(lǐng)域問答數(shù)據(jù),所述領(lǐng)域知識庫中包括領(lǐng)域知識信息;
5、利用所述領(lǐng)域問答數(shù)據(jù)對所述初始大模型進行迭代訓(xùn)練,每輪訓(xùn)練過程由所述裁判模型對所述初始大模型生成的領(lǐng)域問題對應(yīng)的第一答案,和所述領(lǐng)域問答數(shù)據(jù)中的所述領(lǐng)域問題對應(yīng)的第二答案分別打分,基于打分結(jié)果選取滿足偏好要求的答案與所述領(lǐng)域問題組成目標(biāo)訓(xùn)練數(shù)據(jù),利用所述目標(biāo)訓(xùn)練數(shù)據(jù)對所述初始大模型進行訓(xùn)練,經(jīng)所述迭代訓(xùn)練后得到領(lǐng)域問答大模型。
6、在一種可能的設(shè)計中,在本技術(shù)實施例的第一方面的另一種實現(xiàn)方式中,對所述初始大模型進行迭代訓(xùn)練的過程中,不同訓(xùn)練輪次所采用的領(lǐng)域問答數(shù)據(jù)不同。
7、在一種可能的設(shè)計中,在本技術(shù)實施例的第一方面的另一種實現(xiàn)方式中,利用所述領(lǐng)域問答數(shù)據(jù)對所述初始大模型進行任意一輪訓(xùn)練的過程,包括:
8、將所述領(lǐng)域問答數(shù)據(jù)中的所述領(lǐng)域問題送入所述初始大模型,得到所述初始大模型生成的所述第一答案;
9、通過所述裁判模型對所述第一答案和所述第二答案分別進行打分,基于打分結(jié)果選取滿足偏好要求的答案與所述領(lǐng)域問題組成目標(biāo)訓(xùn)練數(shù)據(jù);
10、利用所述目標(biāo)訓(xùn)練數(shù)據(jù)對上一輪訓(xùn)練得到的初始大模型繼續(xù)進行訓(xùn)練,得到本輪訓(xùn)練后的初始大模型。
11、在一種可能的設(shè)計中,在本技術(shù)實施例的第一方面的另一種實現(xiàn)方式中,基于打分結(jié)果選取滿足偏好要求的答案與所述領(lǐng)域問題組成目標(biāo)訓(xùn)練數(shù)據(jù)的過程,包括:
12、按照打分結(jié)果中各答案的分?jǐn)?shù)大小排序,選取所述排序的前n個答案與所述領(lǐng)域問題組成目標(biāo)訓(xùn)練數(shù)據(jù),n取值為大于等于1的整數(shù)。
13、在一種可能的設(shè)計中,在本技術(shù)實施例的第一方面的另一種實現(xiàn)方式中,所述領(lǐng)域知識庫為可擴展領(lǐng)域知識庫,方法還包括:
14、在檢測到所述可擴展領(lǐng)域知識庫中新增知識信息時,基于所述新增知識信息提取新的領(lǐng)域問答數(shù)據(jù),并利用所述新的領(lǐng)域問答數(shù)據(jù)對所述領(lǐng)域問答大模型進行更新訓(xùn)練,得到更新后的領(lǐng)域問答大模型。
15、在一種可能的設(shè)計中,在本技術(shù)實施例的第一方面的另一種實現(xiàn)方式中,所述裁判模型為采用標(biāo)注有偏好排序的問答數(shù)據(jù)對通用大模型進行監(jiān)督訓(xùn)練后得到的裁判大模型。
16、在一種可能的設(shè)計中,在本技術(shù)實施例的第一方面的另一種實現(xiàn)方式中,基于所述領(lǐng)域知識庫提取領(lǐng)域問答數(shù)據(jù)的過程,包括:
17、對于所述領(lǐng)域知識庫中每一種模態(tài)的領(lǐng)域知識信息,分別進行向量化處理,得到領(lǐng)域知識信息對應(yīng)的向量表示存入向量數(shù)據(jù)庫;
18、將配置的查詢問題向量化表示,并基于向量相似度檢索與查詢問題的相似度最高的前k條候選領(lǐng)域知識信息,k為設(shè)定正整數(shù);
19、將所述前k條候選領(lǐng)域知識信息和所述查詢問題添加到第一提示指令prompt中,提交給通用大模型,以指示通用大模型生成與所述查詢問題最匹配的答案,進而與所述查詢問題組成領(lǐng)域問答數(shù)據(jù)。
20、在一種可能的設(shè)計中,在本技術(shù)實施例的第一方面的另一種實現(xiàn)方式中,基于所述領(lǐng)域知識庫提取領(lǐng)域問答數(shù)據(jù)的過程,包括:
21、調(diào)用通用大模型,以指示所述通用大模型從提供的所述領(lǐng)域知識信息中抽取出若干問題和對應(yīng)的答案;
22、由所述通用大模型抽取得到的問題和對應(yīng)的答案組成領(lǐng)域問答數(shù)據(jù)。
23、第二方面,提供了一種問答方法,包括:
24、獲取領(lǐng)域問題;
25、將所述領(lǐng)域問題送入配置的領(lǐng)域問答大模型,得到模型輸出的答案;
26、其中,所述領(lǐng)域問答大模型采用本技術(shù)實施例的第一方面的任意一種實現(xiàn)方式中所述的領(lǐng)域問答大模型訓(xùn)練方法訓(xùn)練得到。
27、第三方面,提供了一種領(lǐng)域問答大模型訓(xùn)練裝置,包括:
28、模型獲取單元,用于獲取具備問答能力的初始大模型,以及采用標(biāo)注有偏好排序的問答數(shù)據(jù)訓(xùn)練得到的裁判模型;
29、知識庫處理單元,用于獲取領(lǐng)域知識庫,并基于所述領(lǐng)域知識庫提取領(lǐng)域問答數(shù)據(jù),所述領(lǐng)域知識庫中包括領(lǐng)域知識信息;
30、模型訓(xùn)練單元,用于利用所述領(lǐng)域問答數(shù)據(jù)對所述初始大模型進行迭代訓(xùn)練,每輪訓(xùn)練過程由所述裁判模型對所述初始大模型生成的領(lǐng)域問題對應(yīng)的第一答案,和所述領(lǐng)域問答數(shù)據(jù)中的第二答案分別打分,基于打分結(jié)果選取滿足偏好要求的答案與所述領(lǐng)域問題組成目標(biāo)訓(xùn)練數(shù)據(jù),利用所述目標(biāo)訓(xùn)練數(shù)據(jù)對所述初始大模型進行訓(xùn)練,直至最后一輪訓(xùn)練后得到領(lǐng)域問答大模型。
31、第四方面,提供了一種電子設(shè)備,包括:存儲器和處理器;
32、所述存儲器,用于存儲程序;
33、所述處理器,用于執(zhí)行所述程序,實現(xiàn)本技術(shù)實施例的第一方面的任意一種實現(xiàn)方式中所述的領(lǐng)域問答大模型訓(xùn)練方法的各個步驟,或,實現(xiàn)第二方面所述的問答方法的各個步驟。
34、第五方面,提供了一種可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,實現(xiàn)本技術(shù)實施例的第一方面的任意一種實現(xiàn)方式中所述的領(lǐng)域問答大模型訓(xùn)練方法的各個步驟,或,實現(xiàn)第二方面所述的問答方法的各個步驟。
35、第六方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時,實現(xiàn)本技術(shù)實施例的第一方面的任意一種實現(xiàn)方式中所述的領(lǐng)域問答大模型訓(xùn)練方法的各個步驟,或,實現(xiàn)第二方面所述的問答方法的各個步驟。
36、借由上述技術(shù)方案,本技術(shù)以具備問答能力的初始大模型作為領(lǐng)域問答大模型的底座,同時引入了裁判模型,其采用標(biāo)注有偏好排序的問答數(shù)據(jù)訓(xùn)練得到,能夠?qū)斎氲牟煌鸢高M行偏好打分,評估不同答案的質(zhì)量。本技術(shù)配置了領(lǐng)域知識庫,可以基于領(lǐng)域知識庫中的領(lǐng)域知識信息提取領(lǐng)域問答數(shù)據(jù),在對初始大模型進行迭代訓(xùn)練時本技術(shù)并非直接利用提取的領(lǐng)域問答數(shù)據(jù)進行訓(xùn)練,而是由裁判大模型對初始大模型生成的領(lǐng)域問題對應(yīng)的第一答案,和領(lǐng)域問答數(shù)據(jù)中所述領(lǐng)域問題對應(yīng)的第二答案分別打分,基于打分結(jié)果選取滿足偏好要求的答案與領(lǐng)域問題組成目標(biāo)訓(xùn)練數(shù)據(jù),顯然,經(jīng)過裁判大模型對第一答案和第二答案進行打分可以挑選出質(zhì)量更高的答案與領(lǐng)域問題組成高質(zhì)量的目標(biāo)訓(xùn)練數(shù)據(jù),進而可以利用目標(biāo)訓(xùn)練數(shù)據(jù)對初始大模型進行訓(xùn)練,如此經(jīng)過一次或多次迭代訓(xùn)練后可以得到最終的領(lǐng)域問答大模型,其采用了高質(zhì)量的領(lǐng)域問答訓(xùn)練數(shù)據(jù)進行訓(xùn)練,更好地理解領(lǐng)域的語義和規(guī)范,提供領(lǐng)域?qū)I(yè)性和實用性更強的問答能力。并且,本技術(shù)方案不需要人工對提取的領(lǐng)域問答數(shù)據(jù)進行校對即可得到高質(zhì)量的目標(biāo)訓(xùn)練數(shù)據(jù),節(jié)省了人工成本,提高了訓(xùn)練效率。