基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法及系統(tǒng)

文檔序號(hào)：41867828發(fā)布日期：2025-05-09 18:33閱讀：2來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及地理定位，特別涉及一種基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法及系統(tǒng)。

背景技術(shù)：

1、街景地理定位在城市分析、導(dǎo)航和社會(huì)研究中起著關(guān)鍵作用，其主要任務(wù)是識(shí)別給定街景圖像的地理位置。廣義上講，街景地理定位主要使用兩種框架：基于檢索的方法和基于分類的方法，這兩種方法都嚴(yán)重依賴從單個(gè)區(qū)域提取的視覺(jué)特征。其中，基于檢索的方法使用查詢圖像的特征在街景或地理標(biāo)記圖庫(kù)中搜索相似圖像。而基于分類的方法使用訓(xùn)練有素的分類器直接預(yù)測(cè)圖像的地理區(qū)域。然而，這兩種方法都高度依賴于數(shù)據(jù)集的質(zhì)量和多樣性，其性能受到數(shù)據(jù)覆蓋范圍的限制。鑒于街景圖像在視點(diǎn)和上下文方面的復(fù)雜性，構(gòu)建一個(gè)涵蓋全球所有可能的視點(diǎn)和區(qū)域的綜合數(shù)據(jù)集是一項(xiàng)巨大的挑戰(zhàn)。因此，基于檢索和基于分類的方法在全球不同地理區(qū)域的推廣能力都存在局限性。且現(xiàn)有方法是將全景街景圖像與遙感圖像對(duì)齊以確定地理位置。雖然這些方法對(duì)于定位全景街景圖像很有效，但它們不適合定位一般街景圖像中的地理位置，例如使用一般相機(jī)或智能手機(jī)拍攝的圖像。因此，迫切需要能夠直接將非全景街景圖像與遙感圖像對(duì)齊的方法，這對(duì)于實(shí)際應(yīng)用至關(guān)重要。

技術(shù)實(shí)現(xiàn)思路

1、為此，本發(fā)明提供一種基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法及系統(tǒng)，解決現(xiàn)有地理定位不適用于非全景街景圖像對(duì)齊的問(wèn)題。

2、按照本發(fā)明所提供的設(shè)計(jì)方案，一方面，提供一種基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法，包含：

3、利用預(yù)訓(xùn)練的圖像編碼器獲取待查詢街景圖像視覺(jué)特征和參考圖像圖庫(kù)特征集，利用語(yǔ)言模型生成待查詢街景圖像的文本描述特征，并將視覺(jué)特征和文本描述特征進(jìn)行融合生成待查詢街景圖像的查詢特征集，所述參考圖像為帶有地理標(biāo)記的遙感圖像；

4、基于查詢特征集和圖庫(kù)特征集將待查詢街景圖像與參考圖像對(duì)齊，以獲取待查詢街景圖像的地理位置；

5、其中，圖像編碼器在訓(xùn)練過(guò)程中基于街景圖像樣本集和參考圖像樣本集并使用預(yù)設(shè)跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)對(duì)圖像編碼器進(jìn)行訓(xùn)練，所述跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)由街景圖像樣本和參考圖像樣本之間的跨視圖對(duì)比學(xué)習(xí)損失及街景圖像樣本對(duì)之間和參考圖像樣本對(duì)之間的視圖間對(duì)比學(xué)習(xí)損失組成。

6、作為本發(fā)明基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法，進(jìn)一步地，所述圖像編碼器采用cnn或vit架構(gòu)構(gòu)建。

7、作為本發(fā)明基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法，進(jìn)一步地，圖像編碼器的訓(xùn)練過(guò)程包含如下內(nèi)容：

8、收集街景圖像樣本數(shù)據(jù)和參考圖像樣本數(shù)據(jù)，并通過(guò)圖像增強(qiáng)操作得到街景圖像樣本數(shù)據(jù)集和參考圖像樣本數(shù)據(jù)集，所述圖像增強(qiáng)操作包括圖像壓縮、顏色抖動(dòng)、圖像模糊和圖像遮擋；

9、基于cnn或vit架構(gòu)構(gòu)建圖像編碼器，并設(shè)置跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)，所述圖像編碼器包括參考圖像編碼器和查詢圖像編碼器；

10、基于跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)并利用街景圖像樣本數(shù)據(jù)集和參考圖像樣本數(shù)據(jù)集對(duì)圖像編碼器進(jìn)行訓(xùn)練。

11、作為本發(fā)明基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法，進(jìn)一步地，在圖像編碼器訓(xùn)練過(guò)程中，利用語(yǔ)言模型獲取街景圖像樣本的文本描述特征，并利用多層感知器將文本描述特征投射到街景圖像樣本視覺(jué)特征空間中，以將文本描述特征和視覺(jué)特征相融合。

12、作為本發(fā)明基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法，進(jìn)一步地，設(shè)置跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)，包含：

13、基于街景圖像樣本數(shù)據(jù)集和參考圖像樣本數(shù)據(jù)集中的正負(fù)樣本特征構(gòu)建模態(tài)間對(duì)比損失，以將模態(tài)間對(duì)比損失作為跨視圖對(duì)比學(xué)習(xí)損失；

14、基于街景圖像樣本數(shù)據(jù)集中的正負(fù)樣本對(duì)和參考圖像樣本數(shù)據(jù)集中的正負(fù)樣本對(duì)分別構(gòu)建街景圖像模態(tài)內(nèi)對(duì)比損失和參考圖像模態(tài)內(nèi)對(duì)比損失，并將兩個(gè)模態(tài)內(nèi)對(duì)比損失組合為視圖間對(duì)比學(xué)習(xí)損失；

15、依據(jù)跨視圖對(duì)比學(xué)習(xí)損失和視圖間對(duì)比學(xué)習(xí)損失并通過(guò)平衡因子來(lái)構(gòu)建跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)。

16、作為本發(fā)明基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法，進(jìn)一步地，跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)表示為：其中，分別為跨視圖對(duì)比學(xué)習(xí)損失、視圖間對(duì)比學(xué)習(xí)損失，w為平衡因子。

17、作為本發(fā)明基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法，進(jìn)一步地，基于查詢特征集和圖庫(kù)特征集將待查詢街景圖像與參考圖像對(duì)齊，包含：

18、依據(jù)查詢特征集并利用特征相似度從圖庫(kù)特征集中檢索獲取候選圖庫(kù)，并將檢索結(jié)果轉(zhuǎn)化為可視化熱圖；

19、利用特征相似度得分并通過(guò)指數(shù)函數(shù)放大候選圖庫(kù)與查詢特征集的對(duì)比度，基于可視化熱圖將待查詢街景圖像與參考圖像對(duì)齊。

20、再一方面，本發(fā)明還提供一種基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位系統(tǒng)，包含：特征獲取模塊和圖像對(duì)齊模塊，其中，

21、特征獲取模塊，用于利用預(yù)訓(xùn)練的圖像編碼器獲取待查詢街景圖像視覺(jué)特征和參考圖像圖庫(kù)特征集，利用語(yǔ)言模型生成待查詢街景圖像的文本描述特征，并將視覺(jué)特征和文本描述特征進(jìn)行融合生成待查詢街景圖像的查詢特征集，所述參考圖像為帶有地理標(biāo)記的遙感圖像；

22、圖像對(duì)齊模塊，用于基于查詢特征集和圖庫(kù)特征集將待查詢街景圖像與參考圖像對(duì)齊，以獲取待查詢街景圖像的地理位置；

23、其中，圖像編碼器在訓(xùn)練過(guò)程中基于街景圖像樣本集和參考圖像樣本集并使用預(yù)設(shè)跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)對(duì)圖像編碼器進(jìn)行訓(xùn)練，所述跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)由街景圖像樣本和參考圖像樣本之間的跨視圖對(duì)比學(xué)習(xí)損失及街景圖像樣本對(duì)之間和參考圖像樣本對(duì)之間的視圖間對(duì)比學(xué)習(xí)損失組成。

24、本發(fā)明的有益效果：

25、本發(fā)明基于跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)來(lái)訓(xùn)練用于街景地理定位的圖像編碼器，該損失函數(shù)由街景圖像和遙感圖像之間的跨視圖(模態(tài)間)對(duì)比學(xué)習(xí)、以及街景圖像對(duì)和遙感圖像對(duì)之間的視圖間(模態(tài)內(nèi))對(duì)比學(xué)習(xí)組成；且為了將街景圖像的描述合并到查詢特征中，使用llm2vec語(yǔ)言模型將圖像語(yǔ)義描述編碼為向量，將其與街景圖像特征融合，以檢索帶有地理標(biāo)記的遙感圖像，實(shí)現(xiàn)精確的地理定位，模型訓(xùn)練完成后能夠通過(guò)人工輸入將附加描述的形式合并到地理定位過(guò)程中，提高定位過(guò)程的準(zhǔn)確性和靈活性，在地理定位領(lǐng)域具有較好的應(yīng)用前景。

技術(shù)特征：

1.一種基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法，其特征在于，包含：

2.根據(jù)權(quán)利要求1所述的基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法，其特征在于，所述圖像編碼器采用cnn或vit架構(gòu)構(gòu)建。

3.根據(jù)權(quán)利要求1所述的基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法，其特征在于，圖像編碼器的訓(xùn)練過(guò)程包含如下內(nèi)容：

4.根據(jù)權(quán)利要求1或3所述的基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法，其特征在于，在圖像編碼器訓(xùn)練過(guò)程中，利用語(yǔ)言模型獲取街景圖像樣本的文本描述特征，并利用多層感知器將文本描述特征投射到街景圖像樣本視覺(jué)特征空間中，以將文本描述特征和視覺(jué)特征相融合。

5.根據(jù)權(quán)利要求1或3所述的基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法，其特征在于，設(shè)置跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)，包含：

6.根據(jù)權(quán)利要求1所述的基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法，其特征在于，跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)表示為：其中，分別為跨視圖對(duì)比學(xué)習(xí)損失、視圖間對(duì)比學(xué)習(xí)損失，w為平衡因子。

7.根據(jù)權(quán)利要求1所述的基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法，其特征在于，基于查詢特征集和圖庫(kù)特征集將待查詢街景圖像與參考圖像對(duì)齊，包含：

8.一種基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位系統(tǒng)，其特征在于，包含：特征獲取模塊和圖像對(duì)齊模塊，其中，

9.一種電子設(shè)備，其特征在于，包括：

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序，當(dāng)計(jì)算機(jī)程序被執(zhí)行時(shí)，能夠?qū)崿F(xiàn)如權(quán)利要求1～7任一項(xiàng)所述的方法。

技術(shù)總結(jié)
本發(fā)明涉及地理定位技術(shù)領(lǐng)域，特別涉及一種基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法及系統(tǒng)，利用預(yù)訓(xùn)練的圖像編碼器獲取待查詢街景圖像視覺(jué)特征和參考圖像圖庫(kù)特征集，利用大語(yǔ)言模型生成待查詢街景圖像的文本描述特征，并將視覺(jué)特征和文本描述特征進(jìn)行融合生成待查詢街景圖像的查詢特征集；基于查詢特征集和圖庫(kù)特征集將待查詢街景圖像與參考圖像對(duì)齊，以獲取待查詢街景圖像的地理位置；其中，圖像編碼器在訓(xùn)練過(guò)程中基于街景圖像樣本集和參考圖像樣本集并使用預(yù)設(shè)跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)對(duì)圖像編碼器進(jìn)行訓(xùn)練。本發(fā)明能夠解決非全景圖像定位問(wèn)題，提高定位過(guò)程的準(zhǔn)確性和靈活性，在地理定位領(lǐng)域具有較好的應(yīng)用前景。

技術(shù)研發(fā)人員：蔣秉川,夏佳志,孫勇,朱祥褕,闞世超,宋卓恒
受保護(hù)的技術(shù)使用者：中國(guó)人民解放軍網(wǎng)絡(luò)空間部隊(duì)信息工程大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/5/8

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔣秉川,夏佳志,孫勇,朱祥褕,闞世超,宋卓恒
技術(shù)所有人：中國(guó)人民解放軍網(wǎng)絡(luò)空間部隊(duì)信息工程大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法及系統(tǒng)