本發(fā)明涉及地理定位,特別涉及一種基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法及系統(tǒng)。
背景技術(shù):
1、街景地理定位在城市分析、導(dǎo)航和社會(huì)研究中起著關(guān)鍵作用,其主要任務(wù)是識(shí)別給定街景圖像的地理位置。廣義上講,街景地理定位主要使用兩種框架:基于檢索的方法和基于分類的方法,這兩種方法都嚴(yán)重依賴從單個(gè)區(qū)域提取的視覺(jué)特征。其中,基于檢索的方法使用查詢圖像的特征在街景或地理標(biāo)記圖庫(kù)中搜索相似圖像。而基于分類的方法使用訓(xùn)練有素的分類器直接預(yù)測(cè)圖像的地理區(qū)域。然而,這兩種方法都高度依賴于數(shù)據(jù)集的質(zhì)量和多樣性,其性能受到數(shù)據(jù)覆蓋范圍的限制。鑒于街景圖像在視點(diǎn)和上下文方面的復(fù)雜性,構(gòu)建一個(gè)涵蓋全球所有可能的視點(diǎn)和區(qū)域的綜合數(shù)據(jù)集是一項(xiàng)巨大的挑戰(zhàn)。因此,基于檢索和基于分類的方法在全球不同地理區(qū)域的推廣能力都存在局限性。且現(xiàn)有方法是將全景街景圖像與遙感圖像對(duì)齊以確定地理位置。雖然這些方法對(duì)于定位全景街景圖像很有效,但它們不適合定位一般街景圖像中的地理位置,例如使用一般相機(jī)或智能手機(jī)拍攝的圖像。因此,迫切需要能夠直接將非全景街景圖像與遙感圖像對(duì)齊的方法,這對(duì)于實(shí)際應(yīng)用至關(guān)重要。
技術(shù)實(shí)現(xiàn)思路
1、為此,本發(fā)明提供一種基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法及系統(tǒng),解決現(xiàn)有地理定位不適用于非全景街景圖像對(duì)齊的問(wèn)題。
2、按照本發(fā)明所提供的設(shè)計(jì)方案,一方面,提供一種基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法,包含:
3、利用預(yù)訓(xùn)練的圖像編碼器獲取待查詢街景圖像視覺(jué)特征和參考圖像圖庫(kù)特征集,利用語(yǔ)言模型生成待查詢街景圖像的文本描述特征,并將視覺(jué)特征和文本描述特征進(jìn)行融合生成待查詢街景圖像的查詢特征集,所述參考圖像為帶有地理標(biāo)記的遙感圖像;
4、基于查詢特征集和圖庫(kù)特征集將待查詢街景圖像與參考圖像對(duì)齊,以獲取待查詢街景圖像的地理位置;
5、其中,圖像編碼器在訓(xùn)練過(guò)程中基于街景圖像樣本集和參考圖像樣本集并使用預(yù)設(shè)跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)對(duì)圖像編碼器進(jìn)行訓(xùn)練,所述跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)由街景圖像樣本和參考圖像樣本之間的跨視圖對(duì)比學(xué)習(xí)損失及街景圖像樣本對(duì)之間和參考圖像樣本對(duì)之間的視圖間對(duì)比學(xué)習(xí)損失組成。
6、作為本發(fā)明基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法,進(jìn)一步地,所述圖像編碼器采用cnn或vit架構(gòu)構(gòu)建。
7、作為本發(fā)明基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法,進(jìn)一步地,圖像編碼器的訓(xùn)練過(guò)程包含如下內(nèi)容:
8、收集街景圖像樣本數(shù)據(jù)和參考圖像樣本數(shù)據(jù),并通過(guò)圖像增強(qiáng)操作得到街景圖像樣本數(shù)據(jù)集和參考圖像樣本數(shù)據(jù)集,所述圖像增強(qiáng)操作包括圖像壓縮、顏色抖動(dòng)、圖像模糊和圖像遮擋;
9、基于cnn或vit架構(gòu)構(gòu)建圖像編碼器,并設(shè)置跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù),所述圖像編碼器包括參考圖像編碼器和查詢圖像編碼器;
10、基于跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)并利用街景圖像樣本數(shù)據(jù)集和參考圖像樣本數(shù)據(jù)集對(duì)圖像編碼器進(jìn)行訓(xùn)練。
11、作為本發(fā)明基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法,進(jìn)一步地,在圖像編碼器訓(xùn)練過(guò)程中,利用語(yǔ)言模型獲取街景圖像樣本的文本描述特征,并利用多層感知器將文本描述特征投射到街景圖像樣本視覺(jué)特征空間中,以將文本描述特征和視覺(jué)特征相融合。
12、作為本發(fā)明基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法,進(jìn)一步地,設(shè)置跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù),包含:
13、基于街景圖像樣本數(shù)據(jù)集和參考圖像樣本數(shù)據(jù)集中的正負(fù)樣本特征構(gòu)建模態(tài)間對(duì)比損失,以將模態(tài)間對(duì)比損失作為跨視圖對(duì)比學(xué)習(xí)損失;
14、基于街景圖像樣本數(shù)據(jù)集中的正負(fù)樣本對(duì)和參考圖像樣本數(shù)據(jù)集中的正負(fù)樣本對(duì)分別構(gòu)建街景圖像模態(tài)內(nèi)對(duì)比損失和參考圖像模態(tài)內(nèi)對(duì)比損失,并將兩個(gè)模態(tài)內(nèi)對(duì)比損失組合為視圖間對(duì)比學(xué)習(xí)損失;
15、依據(jù)跨視圖對(duì)比學(xué)習(xí)損失和視圖間對(duì)比學(xué)習(xí)損失并通過(guò)平衡因子來(lái)構(gòu)建跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)。
16、作為本發(fā)明基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法,進(jìn)一步地,跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)表示為:其中,分別為跨視圖對(duì)比學(xué)習(xí)損失、視圖間對(duì)比學(xué)習(xí)損失,w為平衡因子。
17、作為本發(fā)明基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法,進(jìn)一步地,基于查詢特征集和圖庫(kù)特征集將待查詢街景圖像與參考圖像對(duì)齊,包含:
18、依據(jù)查詢特征集并利用特征相似度從圖庫(kù)特征集中檢索獲取候選圖庫(kù),并將檢索結(jié)果轉(zhuǎn)化為可視化熱圖;
19、利用特征相似度得分并通過(guò)指數(shù)函數(shù)放大候選圖庫(kù)與查詢特征集的對(duì)比度,基于可視化熱圖將待查詢街景圖像與參考圖像對(duì)齊。
20、再一方面,本發(fā)明還提供一種基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位系統(tǒng),包含:特征獲取模塊和圖像對(duì)齊模塊,其中,
21、特征獲取模塊,用于利用預(yù)訓(xùn)練的圖像編碼器獲取待查詢街景圖像視覺(jué)特征和參考圖像圖庫(kù)特征集,利用語(yǔ)言模型生成待查詢街景圖像的文本描述特征,并將視覺(jué)特征和文本描述特征進(jìn)行融合生成待查詢街景圖像的查詢特征集,所述參考圖像為帶有地理標(biāo)記的遙感圖像;
22、圖像對(duì)齊模塊,用于基于查詢特征集和圖庫(kù)特征集將待查詢街景圖像與參考圖像對(duì)齊,以獲取待查詢街景圖像的地理位置;
23、其中,圖像編碼器在訓(xùn)練過(guò)程中基于街景圖像樣本集和參考圖像樣本集并使用預(yù)設(shè)跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)對(duì)圖像編碼器進(jìn)行訓(xùn)練,所述跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)由街景圖像樣本和參考圖像樣本之間的跨視圖對(duì)比學(xué)習(xí)損失及街景圖像樣本對(duì)之間和參考圖像樣本對(duì)之間的視圖間對(duì)比學(xué)習(xí)損失組成。
24、本發(fā)明的有益效果:
25、本發(fā)明基于跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)來(lái)訓(xùn)練用于街景地理定位的圖像編碼器,該損失函數(shù)由街景圖像和遙感圖像之間的跨視圖(模態(tài)間)對(duì)比學(xué)習(xí)、以及街景圖像對(duì)和遙感圖像對(duì)之間的視圖間(模態(tài)內(nèi))對(duì)比學(xué)習(xí)組成;且為了將街景圖像的描述合并到查詢特征中,使用llm2vec語(yǔ)言模型將圖像語(yǔ)義描述編碼為向量,將其與街景圖像特征融合,以檢索帶有地理標(biāo)記的遙感圖像,實(shí)現(xiàn)精確的地理定位,模型訓(xùn)練完成后能夠通過(guò)人工輸入將附加描述的形式合并到地理定位過(guò)程中,提高定位過(guò)程的準(zhǔn)確性和靈活性,在地理定位領(lǐng)域具有較好的應(yīng)用前景。
1.一種基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法,其特征在于,包含:
2.根據(jù)權(quán)利要求1所述的基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法,其特征在于,所述圖像編碼器采用cnn或vit架構(gòu)構(gòu)建。
3.根據(jù)權(quán)利要求1所述的基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法,其特征在于,圖像編碼器的訓(xùn)練過(guò)程包含如下內(nèi)容:
4.根據(jù)權(quán)利要求1或3所述的基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法,其特征在于,在圖像編碼器訓(xùn)練過(guò)程中,利用語(yǔ)言模型獲取街景圖像樣本的文本描述特征,并利用多層感知器將文本描述特征投射到街景圖像樣本視覺(jué)特征空間中,以將文本描述特征和視覺(jué)特征相融合。
5.根據(jù)權(quán)利要求1或3所述的基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法,其特征在于,設(shè)置跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù),包含:
6.根據(jù)權(quán)利要求1所述的基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法,其特征在于,跨模態(tài)對(duì)比學(xué)習(xí)損失函數(shù)表示為:其中,分別為跨視圖對(duì)比學(xué)習(xí)損失、視圖間對(duì)比學(xué)習(xí)損失,w為平衡因子。
7.根據(jù)權(quán)利要求1所述的基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位方法,其特征在于,基于查詢特征集和圖庫(kù)特征集將待查詢街景圖像與參考圖像對(duì)齊,包含:
8.一種基于跨模態(tài)對(duì)比學(xué)習(xí)和描述增強(qiáng)的街景圖像地理定位系統(tǒng),其特征在于,包含:特征獲取模塊和圖像對(duì)齊模塊,其中,
9.一種電子設(shè)備,其特征在于,包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)計(jì)算機(jī)程序被執(zhí)行時(shí),能夠?qū)崿F(xiàn)如權(quán)利要求1~7任一項(xiàng)所述的方法。