成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法

文檔序號(hào):41872554發(fā)布日期:2025-05-09 18:45閱讀:來(lái)源:國(guó)知局

技術(shù)特征:

1.一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,所述s1中,數(shù)據(jù)集包含查詢文件,查詢與正例的對(duì)應(yīng)關(guān)系文件,以及文檔集合文件。

3.根據(jù)權(quán)利要求2所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,所述s1中,對(duì)所述數(shù)據(jù)集進(jìn)行預(yù)處理,具體為:

4.根據(jù)權(quán)利要求3所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,所述s2中,初級(jí)檢索模型的訓(xùn)練過(guò)程如下:

5.根據(jù)權(quán)利要求3或4所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,所述s3的具體過(guò)程為:

6.根據(jù)權(quán)利要求5所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,所述s4的具體過(guò)程如下:

7.根據(jù)權(quán)利要求1所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,所述預(yù)訓(xùn)練模型包括retromae或gte。

8.根據(jù)權(quán)利要求1所述的一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法,其特征在于,所述大語(yǔ)言模型包括gpt-4或通義模型。


技術(shù)總結(jié)
本發(fā)明提供了一種提高向量檢索性能的文本數(shù)據(jù)增強(qiáng)方法,屬于計(jì)算機(jī)數(shù)據(jù)分析領(lǐng)域。該方法首先使用大語(yǔ)言模型的提示模板對(duì)長(zhǎng)文本數(shù)據(jù)進(jìn)行壓縮處理,將其分解為若干條短文本;在訓(xùn)練過(guò)程中,這些短文本將替換原來(lái)的長(zhǎng)文本被用作訓(xùn)練數(shù)據(jù),從而節(jié)約單條信息占用的顯存大??;為應(yīng)對(duì)文本長(zhǎng)度縮短可能導(dǎo)致的表示能力下降問(wèn)題,本發(fā)明通過(guò)組合來(lái)源于同一長(zhǎng)文本的多條短文本構(gòu)建出指引向量,并將指引向量作為輔助信息指導(dǎo)單個(gè)短文本的編碼過(guò)程。通過(guò)這種方式,本發(fā)明能夠有效地減少文本縮短對(duì)模型表示能力的不利影響,從而在使用更短的單條信息的前提下,提升模型的訓(xùn)練效果和泛化能力。

技術(shù)研發(fā)人員:孫媛媛,鳳文鐸,羅凌,徐博,林國(guó)凱,王海濱
受保護(hù)的技術(shù)使用者:大連理工大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/8
當(dāng)前第2頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1