所公開的實(shí)現(xiàn)方式整體涉及數(shù)據(jù)可視化,并且更具體地涉及提供基于地點(diǎn)的語義相似度的系統(tǒng)、方法和用戶界面。
背景技術(shù):
1、對(duì)象之間的相似度是直觀定義的。樹木與灌木相似,因?yàn)樗鼈兌际侵参铩H欢?,樹木與公寓樓并不相似,盡管通常使用高度來描述這兩者。從本質(zhì)上講,理解事物相似的原因相當(dāng)復(fù)雜且微妙。例如,研究人員已經(jīng)研究了相似度的概念,目的是將其分解為特征以及人們各自理解和評(píng)估相似度的方式。
2、雖然在像樹木、灌木和公寓樓等對(duì)象之間的比較可能似乎是明顯且直觀的評(píng)估,但是當(dāng)處理像種族、年齡和收入等各種社會(huì)人口統(tǒng)計(jì)特性時(shí),標(biāo)識(shí)相似度并不容易。這還取決于上下文以及對(duì)于個(gè)體解釋相似度而言重要的東西。就這些特性而言,美國的哪個(gè)區(qū)域與舊金山(san?francisco)最相似以及如何相似?就種族構(gòu)成而言,芝加哥(chicago)的哪些街區(qū)與紐約州布朗克斯區(qū)(bronx,ny)最相似?
3、其他哪些位置像一個(gè)街區(qū)?如何像一個(gè)街區(qū)?為什么像一個(gè)街區(qū)?許多空間分析的核心是尋找位置之間的相似度或相異度。發(fā)現(xiàn)模式和解釋相似度是基于空間特性以及分配給地點(diǎn)的語義或含義兩者的一個(gè)復(fù)雜過程。人類對(duì)位置相似度的概念化是多方面的,并且無法通過對(duì)人口密度或中位收入等單個(gè)數(shù)字屬性的簡單評(píng)估來捕捉。然而,這些可量化屬性是對(duì)意義構(gòu)建進(jìn)行初步理解的基礎(chǔ)。
4、使用社會(huì)經(jīng)濟(jì)和人口統(tǒng)計(jì)變量來測量相似度的一個(gè)困難在于可用數(shù)據(jù)數(shù)量巨大且種類繁多。在傳統(tǒng)的人口統(tǒng)計(jì)工作中,研究人員可以精選幾個(gè)簡單的變量諸如中位收入或年齡,并將它們用作其統(tǒng)計(jì)中的自變量來標(biāo)識(shí)相關(guān)性。有時(shí),研究人員通過比較所有可能的地理位置來一次查看一個(gè)屬性,看這些位置之間的值是較高還是較低(例如,人口普查區(qū)a比人口普查區(qū)b的人口多10%)。然而,這些方法都不跨潛在大型的人口統(tǒng)計(jì)變量分組使用數(shù)據(jù)的關(guān)系。
技術(shù)實(shí)現(xiàn)思路
1、因此,需要促進(jìn)結(jié)合相似度測量和空間分析來提供信息簡化和/或語義概括的系統(tǒng)、方法和界面。本文描述的技術(shù)有助于使用戶更接近可采取行動(dòng)的洞察??梢栽诘乩砜臻g查詢中使用這些技術(shù)以確定區(qū)域之間的相似度,其中參與者可以操縱描述這些位置的各種屬性的各個(gè)權(quán)重。一些實(shí)現(xiàn)方式使用上下文和附加的地點(diǎn)特定參數(shù)來計(jì)算相似度。一些實(shí)現(xiàn)方式提供利用語義的細(xì)微差別的地理空間分析工具來獲取地點(diǎn)相似度。
2、一些實(shí)現(xiàn)方式使用統(tǒng)計(jì)方法來確定地理區(qū)域(例如,美國境內(nèi)的區(qū)域)之間的相似度。一些實(shí)現(xiàn)方式提供了數(shù)據(jù)中樞,這使得用戶易于在其分析中結(jié)合這種類型的相似度測量。根據(jù)本文描述的技術(shù)的框架使得人們易于處理來自美國人口普查的各種屬性以使用用戶感興趣的屬性來標(biāo)識(shí)或多或少相似的位置。一些實(shí)現(xiàn)方式使用基于jensen-shannon散度(jsd)的計(jì)算來確定相似度和/或在易讀地圖中呈現(xiàn)結(jié)果。一些實(shí)現(xiàn)方式在工具提示中按需示出細(xì)節(jié)。根據(jù)一些實(shí)現(xiàn)方式,下面詳細(xì)描述了使用jsd來評(píng)估相似度以進(jìn)行數(shù)據(jù)分析。
3、根據(jù)一些實(shí)現(xiàn)方式,本文提供了一種用于對(duì)數(shù)據(jù)集的視覺分析的方法。方法在計(jì)算機(jī)系統(tǒng)處執(zhí)行。用戶選擇數(shù)據(jù)源。作為響應(yīng),系統(tǒng)呈現(xiàn)用于分析數(shù)據(jù)源中的數(shù)據(jù)的圖形用戶界面。數(shù)據(jù)包括地理空間數(shù)據(jù)點(diǎn)。系統(tǒng)還在圖形用戶界面內(nèi)呈現(xiàn)地圖數(shù)據(jù)可視化。地圖數(shù)據(jù)可視化包括多個(gè)地理區(qū)域。每個(gè)地理區(qū)域?qū)?yīng)于相應(yīng)的一個(gè)或多個(gè)地理空間數(shù)據(jù)點(diǎn)。響應(yīng)于接收到選擇多個(gè)地理區(qū)域中的第一組的一個(gè)或多個(gè)地理區(qū)域的第一用戶輸入,系統(tǒng)使用一種或多種統(tǒng)計(jì)技術(shù)基于一組屬性(例如,來自數(shù)據(jù)源的數(shù)據(jù)字段)來計(jì)算多個(gè)地理區(qū)域中的第一組的一個(gè)或多個(gè)地理區(qū)域與第二組的一個(gè)或多個(gè)地理區(qū)域之間的相似度。然后,系統(tǒng)根據(jù)所計(jì)算的相似度來更新和顯示地圖數(shù)據(jù)可視化。
4、在一些實(shí)現(xiàn)方式中,一組屬性包括一個(gè)或多個(gè)社會(huì)經(jīng)濟(jì)變量、人口統(tǒng)計(jì)變量和地理變量。
5、在一些實(shí)現(xiàn)方式中,更新地圖數(shù)據(jù)可視化包括突出或弱化第二組的一個(gè)或多個(gè)地理區(qū)域中的至少一個(gè)地理區(qū)域。
6、在一些實(shí)現(xiàn)方式中,方法還包括:響應(yīng)于接收到在地圖數(shù)據(jù)可視化上選擇搜索多邊形的坐標(biāo)的第二用戶輸入,基于坐標(biāo)來定義第二一個(gè)或多個(gè)區(qū)域。
7、在一些實(shí)現(xiàn)方式中,方法還包括將搜索多邊形的坐標(biāo)與多個(gè)地理區(qū)域中的地理區(qū)域中的每個(gè)的對(duì)應(yīng)一個(gè)或多個(gè)地理空間數(shù)據(jù)點(diǎn)進(jìn)行比較,以標(biāo)識(shí)第二組的一個(gè)或多個(gè)地理區(qū)域。
8、在一些實(shí)現(xiàn)方式中,一組屬性中的每個(gè)屬性與多個(gè)權(quán)重中的對(duì)應(yīng)權(quán)重相關(guān)聯(lián),并且方法還包括基于多個(gè)權(quán)重來計(jì)算相似度。
9、在一些實(shí)現(xiàn)方式中,方法還包括提供一個(gè)或多個(gè)示能表示(affordance),每個(gè)示能表示對(duì)應(yīng)于一組屬性中的相應(yīng)屬性。
10、在一些實(shí)現(xiàn)方式中,方法還包括響應(yīng)于接收到選擇一個(gè)或多個(gè)示能表示中的第一示能表示的第二用戶輸入:(i)調(diào)整對(duì)應(yīng)于第一示能表示的第一屬性的第一權(quán)重以獲得經(jīng)更新的權(quán)重集;(ii)使用一種或多種統(tǒng)計(jì)技術(shù)基于經(jīng)更新的權(quán)重集來計(jì)算第一組的一個(gè)或多個(gè)地理區(qū)域與第二組的一個(gè)或多個(gè)地理區(qū)域之間的經(jīng)更新的相似度;以及(iii)根據(jù)經(jīng)更新的相似度來更新和顯示地圖數(shù)據(jù)可視化。
11、在一些實(shí)現(xiàn)方式中,方法還包括提供用于存儲(chǔ)經(jīng)更新的權(quán)重集的存儲(chǔ)示能表示。響應(yīng)于用戶選擇存儲(chǔ)示能表示,方法將經(jīng)更新的權(quán)重集存儲(chǔ)在預(yù)設(shè)文件中用于下一會(huì)話。
12、在一些實(shí)現(xiàn)方式中,方法還包括:針對(duì)下一會(huì)話,獲取預(yù)設(shè)文件,并且使用經(jīng)更新的權(quán)重集來計(jì)算第一組的一個(gè)或多個(gè)地理區(qū)域與第二組的一個(gè)或多個(gè)地理區(qū)域之間的相似度。
13、在一些實(shí)現(xiàn)方式中,地圖數(shù)據(jù)可視化是分級(jí)統(tǒng)計(jì)地圖,并且根據(jù)所計(jì)算的相似度來更新和顯示地圖數(shù)據(jù)可視化包括顯示從最大到最小相似度的梯度。
14、在一些實(shí)現(xiàn)方式中,方法還包括:(i)提供用于選擇分級(jí)統(tǒng)計(jì)地圖的第一示能表示和用于選擇最大-最小地圖(most-least?map)的第二示能表示;(ii)響應(yīng)于對(duì)第一示能表示的用戶選擇,顯示從最大到最小相似度的梯度;以及(iii)響應(yīng)于對(duì)第二示能表示的用戶選擇,顯示最大相似區(qū)域和最小相似區(qū)域。
15、在一些實(shí)現(xiàn)方式中,方法還包括:(i)提供多個(gè)示能表示,每個(gè)示能表示對(duì)應(yīng)于相應(yīng)的最大區(qū)域數(shù)量;以及(ii)響應(yīng)于對(duì)多個(gè)示能表示中的示能表示的用戶選擇,基于對(duì)應(yīng)于示能表示的最大區(qū)域數(shù)量來顯示第二組一個(gè)或多個(gè)區(qū)域內(nèi)的最大相似區(qū)域和最小相似區(qū)域。
16、在一些實(shí)現(xiàn)方式中,方法還包括:(i)提供多個(gè)示能表示,每個(gè)示能表示對(duì)應(yīng)于多個(gè)子區(qū)域中的相應(yīng)子區(qū)域子集;以及(ii)響應(yīng)于對(duì)多個(gè)示能表示中的示能表示的用戶選擇,(a)停止呈現(xiàn)地圖數(shù)據(jù)可視化以及(b)在圖形用戶界面內(nèi)呈現(xiàn)替代地圖數(shù)據(jù)可視化。替代地圖數(shù)據(jù)可視化包括對(duì)應(yīng)于示能表示的子區(qū)域子集。
17、在一些實(shí)現(xiàn)方式中,圖形用戶界面包括第一部分和第二部分,并且方法還包括:(i)在第一部分中顯示地圖數(shù)據(jù)可視化;以及(ii)在第二部分中顯示第一一個(gè)或多個(gè)地理區(qū)域與第二一個(gè)或多個(gè)地理區(qū)域之間的相似度的概述。
18、在一些實(shí)現(xiàn)方式中,每個(gè)地理區(qū)域?qū)?yīng)于相應(yīng)的人口普查區(qū)。
19、在一些實(shí)現(xiàn)方式中,計(jì)算相似度包括計(jì)算多個(gè)地理區(qū)域中的第一組的一個(gè)或多個(gè)地理區(qū)域和第二組的一個(gè)或多個(gè)地理區(qū)域針對(duì)一組屬性的語義相似度矩陣。
20、在一些實(shí)現(xiàn)方式中,計(jì)算相似度包括計(jì)算第一組的一個(gè)或多個(gè)地理區(qū)域和第二組的一個(gè)或多個(gè)地理區(qū)域中的地理區(qū)域?qū)χg的jensen-shannon散度(jsd)。
21、在另一方面中,一種電子設(shè)備包括一個(gè)或多個(gè)處理器、存儲(chǔ)器、顯示器和存儲(chǔ)在存儲(chǔ)器中的一個(gè)或多個(gè)程序。這些程序被配置用于由一個(gè)或多個(gè)處理器執(zhí)行,并且被配置為執(zhí)行本文描述的方法中的任何方法。
22、在另一方面中,一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)被配置用于由具有一個(gè)或多個(gè)處理器、存儲(chǔ)器和顯示器的計(jì)算設(shè)備執(zhí)行的一個(gè)或多個(gè)程序。一個(gè)或多個(gè)程序被配置為執(zhí)行本文描述的方法中的任何方法。
23、因此,本文公開了允許用戶高效地探索在數(shù)據(jù)可視化應(yīng)用內(nèi)顯示的數(shù)據(jù)的方法、系統(tǒng)和圖形用戶界面。
24、前面的一般描述和下面的詳細(xì)描述都是示例性和說明性的,并且旨在提供對(duì)所要求保護(hù)的本發(fā)明的進(jìn)一步解釋。