本發(fā)明涉及機(jī)器學(xué)習(xí),尤其涉及一種大模型知識蒸餾方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、在自然語言處理領(lǐng)域,大型語言模型(llms)已經(jīng)成為推動自然語言處理技術(shù)進(jìn)步的關(guān)鍵力量,大語言模型通過深度學(xué)習(xí)技術(shù),在諸如文本生成、對話系統(tǒng)、機(jī)器翻譯等任務(wù)上取得了顯著成就而隨著模型規(guī)模的不斷擴(kuò)大,隨之而來的是部署和應(yīng)用方面的挑戰(zhàn),主要包括高昂的計(jì)算成本,使得大語言模型難以在資源受限的設(shè)備上進(jìn)行部署應(yīng)用,以及模型響應(yīng)速度不足以滿足實(shí)時(shí)處理的需求等。
2、為了克服大語言模型在計(jì)算資源上的限制,模型壓縮技術(shù)應(yīng)運(yùn)而生,其中知識蒸餾是一種被廣泛采用的方法,知識蒸餾的基本思想是從一個(gè)復(fù)雜的大規(guī)模的教師模型中提取知識,并將其傳授給更簡單、更輕量級的學(xué)生模型。這種方法在保持甚至提升模型性能的同時(shí),還能顯著減少模型對計(jì)算資源的需求。
3、現(xiàn)有的知識蒸餾技術(shù)在某些方面仍然存在不足之處,例如,學(xué)生模型由于缺乏對領(lǐng)域內(nèi)專業(yè)知識的有效捕捉,在一些專業(yè)領(lǐng)域中的表現(xiàn)不夠理想,在面對復(fù)雜或罕見的輸入樣本時(shí),學(xué)生模型可能無法給出準(zhǔn)確的回答,導(dǎo)致模型性能不佳。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種大模型知識蒸餾方法、裝置、設(shè)備及存儲介質(zhì),用以解決現(xiàn)有的知識蒸餾方法中,學(xué)生模型缺乏對專業(yè)知識的有效捕捉,導(dǎo)致模型性能不佳的缺陷,提高學(xué)生模型在專業(yè)領(lǐng)域的性能。
2、本發(fā)明提供一種大模型知識蒸餾方法,包括:
3、將預(yù)測樣本輸入到經(jīng)過預(yù)訓(xùn)練的教師模型中,獲取所述教師模型對所述預(yù)測樣本中各樣本案例的第一預(yù)測結(jié)果,以及所述第一預(yù)測結(jié)果的置信度分?jǐn)?shù);
4、將所述置信度分?jǐn)?shù)大于預(yù)設(shè)閾值的目標(biāo)案例的第一預(yù)測結(jié)果輸入到學(xué)生模型中進(jìn)行知識蒸餾,以對所述學(xué)生模型進(jìn)行微調(diào),并獲取所述學(xué)生模型對各所述目標(biāo)案例的第二預(yù)測結(jié)果,以及所述第二預(yù)測結(jié)果對應(yīng)的概率分?jǐn)?shù);
5、根據(jù)所述概率分?jǐn)?shù)更新所述教師模型的教學(xué)模板,返回并執(zhí)行所述將預(yù)測樣本輸入到經(jīng)過預(yù)訓(xùn)練的教師模型中的步驟,以對所述學(xué)生模型進(jìn)行迭代優(yōu)化,直到所述學(xué)生模型滿足預(yù)設(shè)的迭代終止條件為止。
6、根據(jù)本發(fā)明提供的大模型知識蒸餾方法,所述根據(jù)所述概率分?jǐn)?shù)更新所述教師模型的教學(xué)模板,包括:
7、從各所述目標(biāo)案例中識別所述概率分?jǐn)?shù)最小的邊緣案例;
8、將所述邊緣案例輸入到所述教師模型中,利用所述教師模型生成所述邊緣案例的解釋信息;
9、將所述邊緣案例和所述解釋信息輸入到所述教師模型中,以更新所述教師模型的教學(xué)模板。
10、根據(jù)本發(fā)明提供的大模型知識蒸餾方法,所述將預(yù)測樣本輸入到經(jīng)過預(yù)訓(xùn)練的教師模型中,獲取所述教師模型對所述預(yù)測樣本中各樣本案例的第一預(yù)測結(jié)果,以及所述第一預(yù)測結(jié)果的置信度分?jǐn)?shù),包括:
11、將所述預(yù)測樣本輸入到經(jīng)過預(yù)訓(xùn)練的教師模型中,獲取所述教師模型對所述預(yù)測樣本中各樣本案例的第一預(yù)測結(jié)果,以及所述第一預(yù)測結(jié)果對應(yīng)的預(yù)測理由;
12、基于預(yù)設(shè)的置信度評估算法,對所述第一預(yù)測結(jié)果和所述預(yù)測理由進(jìn)行置信度評估,生成所述第一預(yù)測結(jié)果的置信度分?jǐn)?shù)。
13、根據(jù)本發(fā)明提供的大模型知識蒸餾方法,所述根據(jù)所述概率分?jǐn)?shù)更新所述教師模型的教學(xué)模板之后,還包括:
14、獲取所述學(xué)生模型的評估參數(shù)和所述評估參數(shù)對應(yīng)的評估權(quán)重;所述評估參數(shù)至少包括模型準(zhǔn)確率和模型大小;
15、基于所述評估參數(shù)和所述評估權(quán)重對所述學(xué)生模型的性能進(jìn)行評估,并根據(jù)評估結(jié)果確定所述學(xué)生模型的性能是否滿足預(yù)設(shè)的迭代終止條件。
16、根據(jù)本發(fā)明提供的大模型知識蒸餾方法,所述將預(yù)測樣本輸入到經(jīng)過預(yù)訓(xùn)練的教師模型中之前,還包括:
17、獲取預(yù)設(shè)領(lǐng)域的文本數(shù)據(jù)集,并基于預(yù)設(shè)的標(biāo)注算法對所述文本數(shù)據(jù)集進(jìn)行標(biāo)注,得到標(biāo)注文本集;
18、將所述標(biāo)注文本集輸入到所述教師模型中,利用所述教師模型將所述標(biāo)注文本集中的標(biāo)注文本轉(zhuǎn)化為第一嵌入向量;
19、基于所述第一嵌入向量對所述教師模型的訓(xùn)練樣本進(jìn)行案例檢索,得到預(yù)測樣本。
20、根據(jù)本發(fā)明提供的大模型知識蒸餾方法,所述基于所述第一嵌入向量對所述教師模型的訓(xùn)練樣本進(jìn)行案例檢索,得到預(yù)測樣本,包括:
21、獲取所述教師模型的訓(xùn)練樣本對應(yīng)的嵌入向量集合;
22、計(jì)算第一嵌入向量與所述嵌入向量集合中的各第二嵌入向量的相似度;
23、根據(jù)所述相似度對所述訓(xùn)練樣本進(jìn)行案例檢索,從所述訓(xùn)練樣本中選取與所述第一嵌入向量相似度最大的預(yù)設(shè)數(shù)量的樣本案例作為預(yù)測樣本。
24、根據(jù)本發(fā)明提供的大模型知識蒸餾方法,在所述學(xué)生模型滿足預(yù)設(shè)的迭代終止條件之后,還包括:
25、在預(yù)設(shè)的業(yè)務(wù)應(yīng)用中對所述學(xué)生模型進(jìn)行部署應(yīng)用;
26、在所述學(xué)生模型的應(yīng)用過程中,采集所述學(xué)生模型的反饋信息,以對所述學(xué)生模型進(jìn)行監(jiān)控優(yōu)化。
27、本發(fā)明還提供一種大模型知識蒸餾裝置,包括如下模塊:
28、預(yù)測模塊,用于將預(yù)測樣本輸入到經(jīng)過預(yù)訓(xùn)練的教師模型中,獲取所述教師模型對所述預(yù)測樣本中各樣本案例的第一預(yù)測結(jié)果,以及所述第一預(yù)測結(jié)果的置信度分?jǐn)?shù);
29、知識蒸餾模塊,用于將所述置信度分?jǐn)?shù)大于預(yù)設(shè)閾值的目標(biāo)案例的第一預(yù)測結(jié)果輸入到學(xué)生模型中進(jìn)行知識蒸餾,以對所述學(xué)生模型進(jìn)行微調(diào),并獲取所述學(xué)生模型對各所述目標(biāo)案例的第二預(yù)測結(jié)果,以及所述第二預(yù)測結(jié)果對應(yīng)的概率分?jǐn)?shù);
30、迭代優(yōu)化模塊,用于根據(jù)所述概率分?jǐn)?shù)更新所述教師模型的教學(xué)模板,返回并執(zhí)行所述將預(yù)測樣本輸入到經(jīng)過預(yù)訓(xùn)練的教師模型中的步驟,以對所述學(xué)生模型進(jìn)行迭代優(yōu)化,直到所述學(xué)生模型滿足預(yù)設(shè)的迭代終止條件為止。
31、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一種所述的大模型知識蒸餾方法的步驟。
32、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述的大模型知識蒸餾方法的步驟。
33、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述的大模型知識蒸餾方法的步驟。
34、本發(fā)明提供的大模型知識蒸餾方法、裝置、設(shè)備及存儲介質(zhì),通過教師模型的置信度分?jǐn)?shù)和學(xué)生模型的概率分?jǐn)?shù),在知識蒸餾過程中對相同案例的預(yù)測結(jié)果進(jìn)行了雙重校驗(yàn),根據(jù)教師模型對預(yù)測樣本中各樣本案例的預(yù)測結(jié)果的置信度分?jǐn)?shù)進(jìn)行校驗(yàn),將置信度分?jǐn)?shù)大于預(yù)設(shè)閾值的目標(biāo)案例的預(yù)測結(jié)果輸入到學(xué)生模型中進(jìn)行知識蒸餾,避免了教師模型對預(yù)測結(jié)果不自信的樣本案例對學(xué)生模型產(chǎn)生錯(cuò)誤指導(dǎo),提高了學(xué)生模型有效捕捉專業(yè)知識的能力;根據(jù)學(xué)生模型對目標(biāo)案例的預(yù)測結(jié)果的概率分?jǐn)?shù)進(jìn)行校驗(yàn),根據(jù)概率分?jǐn)?shù)更新教師模型的教學(xué)模板,構(gòu)建對教師模型的反饋機(jī)制,實(shí)現(xiàn)對學(xué)生模型的迭代優(yōu)化,從而提高學(xué)生模型在專業(yè)領(lǐng)域的表現(xiàn)性能。
1.一種大模型知識蒸餾方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的大模型知識蒸餾方法,其特征在于,所述根據(jù)所述概率分?jǐn)?shù)更新所述教師模型的教學(xué)模板,包括:
3.根據(jù)權(quán)利要求1所述的大模型知識蒸餾方法,其特征在于,所述將預(yù)測樣本輸入到經(jīng)過預(yù)訓(xùn)練的教師模型中,獲取所述教師模型對所述預(yù)測樣本中各樣本案例的第一預(yù)測結(jié)果,以及所述第一預(yù)測結(jié)果的置信度分?jǐn)?shù),包括:
4.根據(jù)權(quán)利要求1所述的大模型知識蒸餾方法,其特征在于,所述根據(jù)所述概率分?jǐn)?shù)更新所述教師模型的教學(xué)模板之后,還包括:
5.根據(jù)權(quán)利要求1所述的大模型知識蒸餾方法,其特征在于,所述將預(yù)測樣本輸入到經(jīng)過預(yù)訓(xùn)練的教師模型中之前,還包括:
6.根據(jù)權(quán)利要求5所述的大模型知識蒸餾方法,其特征在于,所述基于所述第一嵌入向量對所述教師模型的訓(xùn)練樣本進(jìn)行案例檢索,得到預(yù)測樣本,包括:
7.根據(jù)權(quán)利要求1所述的大模型知識蒸餾方法,其特征在于,在所述學(xué)生模型滿足預(yù)設(shè)的迭代終止條件之后,還包括:
8.一種大模型知識蒸餾裝置,其特征在于,包括:
9.一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的大模型知識蒸餾方法的步驟。
10.一種非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的大模型知識蒸餾方法的步驟。