本公開涉及計算機領(lǐng)域,尤其涉及一種文本相似度檢測的方法、裝置、存儲介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、目前,為了檢查文獻、資料等文本的原創(chuàng)性,常需要通過查重來判斷待檢查文本是否存在抄襲、剽竊或過度引用等情況。為了對待檢查文本進行查重,則需要檢測待檢查文本與已有文本的相似度。
2、現(xiàn)有技術(shù)中通常采用將待檢測文本中的字符或單詞與已有文本中的字符或單詞進行比較的方式,來確定待檢測文本與已有文本的相似度。但是,這種方法只能檢測出字面的相似度,無法識別文本之間的語義的相似度,因此該方法存在準(zhǔn)確性不高的問題。
3、進而,如何高效、準(zhǔn)確的檢測待檢測文本與已有文本的相似度,這是目前需要解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、為了解決上述技術(shù)問題,本公開提供了一種文本相似度檢測的方法、裝置、存儲介質(zhì)及程序產(chǎn)品。
2、第一方面,提供一種文本相似度檢測的方法,該方法包括:獲取目標(biāo)文本;確定所述目標(biāo)文本對應(yīng)的第一嵌入向量;所述第一嵌入向量用于表示所述目標(biāo)文本所包含的語義特征;根據(jù)所述第一嵌入向量,確定向量數(shù)據(jù)庫中與所述第一嵌入向量相似度超出第一相似度閾值的n個嵌入向量,n為大于1的正整數(shù);所述向量數(shù)據(jù)庫中包括多個預(yù)設(shè)文本分別對應(yīng)的嵌入向量,所述n個嵌入向量分別為n個預(yù)設(shè)文本分別對應(yīng)的嵌入向量;利用大語言模型對比所述目標(biāo)文本與所述n個預(yù)設(shè)文本的語義,得到相似度信息;所述相似度信息用于指示所述目標(biāo)文本與所述n個預(yù)設(shè)文本的語義的相似度。
3、一方面,本技術(shù)實施例的上述方法中通過將第一嵌入向量與向量數(shù)據(jù)庫中多個預(yù)設(shè)文本的嵌入向量進行比較,從而確定出與第一嵌入向量相似度較高(即相似度超出第一相似度閾值)的n個嵌入向量。其中,相比于利用大語言模型來對比文本之間的語義的相似度等方式,對比嵌入向量之間的相似度在占用較少算力資源的情況下從大量的預(yù)設(shè)文本中篩選出與目標(biāo)文本相似度較高的預(yù)設(shè)文本(即上述n個預(yù)設(shè)文本)。另一方面,本技術(shù)實施例的上述方法中,在篩選出與目標(biāo)文本相似度較高的n個預(yù)設(shè)文本后,還利用大語言模型對比目標(biāo)文本與n個預(yù)設(shè)文本的語義并得到相似度信息。其中由于大語言模型可以解析出更深層的語義,因此利用大語言模型得到的上述相似度信息可以更加準(zhǔn)確的反映n個文本與目標(biāo)文本的語義的相似度。綜上,本技術(shù)實施例所提供的上述方法可以在盡量降低算力開銷的情況下,準(zhǔn)確的確定出與目標(biāo)文本的相似度較高的預(yù)設(shè)文本,以及這些預(yù)設(shè)文本與目標(biāo)文本的語義的相似度。
4、在一些實現(xiàn)方式中,所述確定所述目標(biāo)文本對應(yīng)的第一嵌入向量,包括:利用文本嵌入模型,確定所述目標(biāo)文本對應(yīng)的第一嵌入向量;所述文本嵌入模型為利用目標(biāo)樣本集進行訓(xùn)練的用于進行文本向量化的文本嵌入模型;所述目標(biāo)樣本集為與所述目標(biāo)文本相同內(nèi)容類型的文本樣本的集合。
5、在一些實現(xiàn)方式中,該方法還包括:根據(jù)所述目標(biāo)文本的內(nèi)容類型,確定所述向量數(shù)據(jù)庫;所述向量數(shù)據(jù)庫中包括對應(yīng)所述內(nèi)容類型的多個預(yù)設(shè)文本分別對應(yīng)的嵌入向量。
6、在一些實現(xiàn)方式中,所述確定所述目標(biāo)文本對應(yīng)的第一嵌入向量,包括:對所述目標(biāo)文本進行預(yù)處理,得到所述目標(biāo)文本對應(yīng)的優(yōu)化文本;所述預(yù)處理包括:分詞、去除停用詞、句子清洗以及統(tǒng)一文本格式中的一項或多項;將所述目標(biāo)文本對應(yīng)的優(yōu)化文本輸入用于進行文本向量化的文本嵌入模型,得到所述文本嵌入模型輸出的第一嵌入向量。
7、在一些實現(xiàn)方式中,利用大語言模型對比所述目標(biāo)文本與所述n個預(yù)設(shè)文本的語義,得到相似度信息,包括:將所述目標(biāo)文本的優(yōu)化文本以及所述n個預(yù)設(shè)文本分別對應(yīng)的優(yōu)化文本輸入大語言模型,以使得所述大語言模型根據(jù)所述目標(biāo)文本的優(yōu)化文本以及所述n個預(yù)設(shè)文本分別對應(yīng)的優(yōu)化文本對比所述目標(biāo)文本與所述n個預(yù)設(shè)文本的語義;得到所述大語言模型輸出的相似度信息。
8、在一些實現(xiàn)方式中,所述相似度信息中包括:所述目標(biāo)文本與一個或多個預(yù)設(shè)文本的相似度數(shù)值、所述一個或多個預(yù)設(shè)文本的標(biāo)識、第一目標(biāo)內(nèi)容分別在所述一個或多個預(yù)設(shè)文本中位置信息,以及第二目標(biāo)內(nèi)容在所述目標(biāo)文本中的位置信息中的一項或多項;其中,所述一個或多個預(yù)設(shè)文本為所述n個預(yù)設(shè)文本中與所述目標(biāo)文本的語義的相似度超出語義相似度閾值的一個或多個預(yù)設(shè)文本;所述第一目標(biāo)內(nèi)容包括與所述目標(biāo)文本的內(nèi)容的相似度超出第二相似度閾值的內(nèi)容,所述第二目標(biāo)內(nèi)容包括與所述一個或多個預(yù)設(shè)文本中的內(nèi)容的相似度超出第三相似度閾值的內(nèi)容。
9、第二方面,提供一種文本相似度檢測裝置,包括:獲取單元,用于獲取目標(biāo)文本;處理單元,用于確定所述目標(biāo)文本對應(yīng)的第一嵌入向量;所述第一嵌入向量用于表示所述目標(biāo)文本所包含的語義特征;所述處理單元,還用于根據(jù)所述第一嵌入向量,確定向量數(shù)據(jù)庫中與所述第一嵌入向量相似度超出第一相似度閾值的n個嵌入向量,n為大于1的正整數(shù);所述向量數(shù)據(jù)庫中包括多個預(yù)設(shè)文本分別對應(yīng)的嵌入向量,所述n個嵌入向量分別為n個預(yù)設(shè)文本分別對應(yīng)的嵌入向量;所述處理單元,還用于利用大語言模型對比所述目標(biāo)文本與所述n個預(yù)設(shè)文本的語義,得到相似度信息;所述相似度信息用于指示所述目標(biāo)文本與所述n個預(yù)設(shè)文本的語義的相似度。
10、在一些實現(xiàn)方式中,所述處理單元,用于確定所述目標(biāo)文本對應(yīng)的第一嵌入向量,包括:處理單元,具體用于利用文本嵌入模型,確定所述目標(biāo)文本對應(yīng)的第一嵌入向量;所述文本嵌入模型為利用目標(biāo)樣本集進行訓(xùn)練的用于進行文本向量化的文本嵌入模型;所述目標(biāo)樣本集為與所述目標(biāo)文本相同內(nèi)容類型的文本樣本的集合。
11、在一些實現(xiàn)方式中,所述處理單元,還用于根據(jù)所述目標(biāo)文本的內(nèi)容類型,確定所述向量數(shù)據(jù)庫;所述向量數(shù)據(jù)庫中包括對應(yīng)所述內(nèi)容類型的多個預(yù)設(shè)文本分別對應(yīng)的嵌入向量。
12、在一些實現(xiàn)方式中,所述處理單元,用于確定所述目標(biāo)文本對應(yīng)的第一嵌入向量,包括:所述處理單元,具體用于對所述目標(biāo)文本進行預(yù)處理,得到所述目標(biāo)文本對應(yīng)的優(yōu)化文本;所述預(yù)處理包括:分詞、去除停用詞、句子清洗以及統(tǒng)一文本格式中的一項或多項;所述處理單元,具體還用于將所述目標(biāo)文本對應(yīng)的優(yōu)化文本輸入用于進行文本向量化的文本嵌入模型,得到所述文本嵌入模型輸出的第一嵌入向量。
13、在一些實現(xiàn)方式中,所述處理單元,還用于利用大語言模型對比所述目標(biāo)文本與所述n個預(yù)設(shè)文本的語義,得到相似度信息,包括:所述處理單元,還用于將所述目標(biāo)文本的優(yōu)化文本以及所述n個預(yù)設(shè)文本分別對應(yīng)的優(yōu)化文本輸入大語言模型,以使得所述大語言模型根據(jù)所述目標(biāo)文本的優(yōu)化文本以及所述n個預(yù)設(shè)文本分別對應(yīng)的優(yōu)化文本對比所述目標(biāo)文本與所述n個預(yù)設(shè)文本的語義;所述處理單元,還用于得到所述大語言模型輸出的相似度信息。
14、在一些實現(xiàn)方式中,所述相似度信息中包括:所述目標(biāo)文本與一個或多個預(yù)設(shè)文本的相似度數(shù)值、所述一個或多個預(yù)設(shè)文本的標(biāo)識、第一目標(biāo)內(nèi)容分別在所述一個或多個預(yù)設(shè)文本中位置信息,以及第二目標(biāo)內(nèi)容在所述目標(biāo)文本中的位置信息中的一項或多項;其中,所述一個或多個預(yù)設(shè)文本為所述n個預(yù)設(shè)文本中與所述目標(biāo)文本的語義的相似度超出語義相似度閾值的一個或多個預(yù)設(shè)文本;所述第一目標(biāo)內(nèi)容包括與所述目標(biāo)文本的內(nèi)容的相似度超出第二相似度閾值的內(nèi)容,所述第二目標(biāo)內(nèi)容包括與所述一個或多個預(yù)設(shè)文本中的內(nèi)容的相似度超出第三相似度閾值的內(nèi)容。
15、第三方面,提供一種文本相似度檢測裝置,包括:存儲器和處理器,所述存儲器用于存儲計算機程序,所述處理器用于在執(zhí)行計算機程序時,使得所述文本相似度檢測裝置實現(xiàn)如第一方面或第一方面中任一實現(xiàn)方式的方法。
16、第四方面,提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機程序,當(dāng)所述計算機程序被計算設(shè)備執(zhí)行時,使得所述計算設(shè)備實現(xiàn)如第一方面或第一方面中任一實現(xiàn)方式的方法。
17、第五方面,提供一種計算機程序產(chǎn)品,當(dāng)所述計算機程序產(chǎn)品在計算機上運行時,使得所述計算機實現(xiàn)如第一方面或第一方面中任一實現(xiàn)方式的基于方法。
18、本公開實施例提供的技術(shù)方案與現(xiàn)有技術(shù)相比具有如下優(yōu)點:
19、一方面,本技術(shù)實施例的上述方法中通過將第一嵌入向量與向量數(shù)據(jù)庫中多個預(yù)設(shè)文本的嵌入向量進行比較,從而確定出與第一嵌入向量相似度較高(即相似度超出第一相似度閾值)的n個嵌入向量。其中,相比于利用大語言模型來對比文本之間的語義的相似度等方式,對比嵌入向量之間的相似度在占用較少算力資源的情況下從大量的預(yù)設(shè)文本中篩選出與目標(biāo)文本相似度較高的預(yù)設(shè)文本(即上述n個預(yù)設(shè)文本)。另一方面,本技術(shù)實施例的上述方法中,在篩選出與目標(biāo)文本相似度較高的n個預(yù)設(shè)文本后,還利用大語言模型對比目標(biāo)文本與n個預(yù)設(shè)文本的語義并得到相似度信息。其中由于大語言模型可以解析出更深層的語義,因此利用大語言模型得到的上述相似度信息可以更加準(zhǔn)確的反映n個文本與目標(biāo)文本的語義的相似度。綜上,本技術(shù)實施例所提供的上述方法可以在盡量降低算力開銷的情況下,準(zhǔn)確的確定出與目標(biāo)文本的相似度較高的預(yù)設(shè)文本,以及這些預(yù)設(shè)文本與目標(biāo)文本的語義的相似度。