1.一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,所述s1中,數(shù)據(jù)集包含查詢文件,查詢與正例的對(duì)應(yīng)關(guān)系文件,以及文檔集合文件。
3.根據(jù)權(quán)利要求2所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,所述s1中,對(duì)所述數(shù)據(jù)集進(jìn)行預(yù)處理,具體為:
4.根據(jù)權(quán)利要求3所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,所述s2中,初級(jí)檢索模型的訓(xùn)練過(guò)程如下:
5.根據(jù)權(quán)利要求3或4所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,所述s3的具體過(guò)程為:
6.根據(jù)權(quán)利要求5所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,所述s4的具體過(guò)程如下:
7.根據(jù)權(quán)利要求1所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,所述預(yù)訓(xùn)練模型包括retromae或gte。
8.根據(jù)權(quán)利要求1所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,所述大語(yǔ)言模型包括gpt-4或通義模型。