一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法

文檔序號(hào)：41872554發(fā)布日期：2025-05-09 18:45閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法

技術(shù)特征：

1.一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法，其特征在于，所述s1中，數(shù)據(jù)集包含查詢文件，查詢與正例的對(duì)應(yīng)關(guān)系文件，以及文檔集合文件。

3.根據(jù)權(quán)利要求2所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法，其特征在于，所述s1中，對(duì)所述數(shù)據(jù)集進(jìn)行預(yù)處理，具體為：

4.根據(jù)權(quán)利要求3所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法，其特征在于，所述s2中，初級(jí)檢索模型的訓(xùn)練過(guò)程如下：

5.根據(jù)權(quán)利要求3或4所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法，其特征在于，所述s3的具體過(guò)程為：

6.根據(jù)權(quán)利要求5所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法，其特征在于，所述s4的具體過(guò)程如下：

7.根據(jù)權(quán)利要求1所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法，其特征在于，所述預(yù)訓(xùn)練模型包括retromae或gte。

8.根據(jù)權(quán)利要求1所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法，其特征在于，所述大語(yǔ)言模型包括gpt-4或通義模型。

技術(shù)總結(jié)
本發(fā)明提供了一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法，屬于計(jì)算機(jī)數(shù)據(jù)分析領(lǐng)域。該方法首先使用大語(yǔ)言模型的提示模板對(duì)長(zhǎng)文本數(shù)據(jù)進(jìn)行壓縮處理，將其分解為若干條短文本；在訓(xùn)練過(guò)程中，這些短文本將替換原來(lái)的長(zhǎng)文本被用作訓(xùn)練數(shù)據(jù)，從而節(jié)約單條信息占用的顯存大??；為應(yīng)對(duì)文本長(zhǎng)度縮短可能導(dǎo)致的表示能力下降問(wèn)題，本發(fā)明通過(guò)組合來(lái)源于同一長(zhǎng)文本的多條短文本構(gòu)建出指引向量，并將指引向量作為輔助信息指導(dǎo)單個(gè)短文本的編碼過(guò)程。通過(guò)這種方式，本發(fā)明能夠有效地減少文本縮短對(duì)模型表示能力的不利影響，從而在使用更短的單條信息的前提下，提升模型的訓(xùn)練效果和泛化能力。

技術(shù)研發(fā)人員：孫媛媛,鳳文鐸,羅凌,徐博,林國(guó)凱,王海濱
受保護(hù)的技術(shù)使用者：大連理工大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/5/8

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法