本發(fā)明涉及計(jì)算機(jī)視覺,特別是指一種多種關(guān)聯(lián)特征和圖關(guān)系注意的多模態(tài)人格感知方法及裝置。
背景技術(shù):
1、通常,人格包括行為、氣質(zhì)、情緒和心理等方面,能夠定義一個(gè)個(gè)體獨(dú)特的性格。顯性人格感知指的是根據(jù)他人觀察到的行為和外貌來區(qū)分一個(gè)人的感知,這與實(shí)際人格(代表一個(gè)人真實(shí)的心理特征)顯著不同。人格感知旨在識(shí)別社交媒體帖子中隱含的人格特征,從而深入了解人類行為、情緒過程和心理健康。人格感知有助于人們更好地理解自己,改善心理健康,并在心理治療、臨床診斷、職業(yè)發(fā)展以及社會(huì)科學(xué)研究等領(lǐng)域中發(fā)揮重要作用。在人格研究中,研究人員已經(jīng)開發(fā)了心理量表和模型來理解和測(cè)量人格特征。例如,五大人格模型通過五個(gè)特質(zhì)來測(cè)量人格:開放性(o)、責(zé)任心(c)、外向性(e)、宜人性(a)和神經(jīng)質(zhì)(n)。作為社交互動(dòng)的重要組成部分,顯性人格感知顯著影響人們對(duì)他人的反應(yīng),因此在人際交互分析、人機(jī)交互系統(tǒng)、社交機(jī)器人、教育、市場(chǎng)營(yíng)銷和推薦系統(tǒng)等領(lǐng)域中具有重要的應(yīng)用價(jià)值。
2、隨著youtube和tiktok等多媒體社交平臺(tái)的興起,人們?cè)絹碓蕉嗟厥褂靡曨l分享他們的生活。為了應(yīng)對(duì)這一趨勢(shì),eccv(european?conference?on?computer?vision,?歐洲計(jì)算機(jī)視覺國(guó)際會(huì)議)和cvpr(conference?on?computer?vision?and?patternrecognition,?國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議)在2016年和2017年舉辦了關(guān)于人格特質(zhì)感知的競(jìng)賽,生成了第二版印象數(shù)據(jù)集。因此,從視頻中自動(dòng)感知人格變得更加可行。近年來,預(yù)訓(xùn)練在多模態(tài)處理中取得了巨大成功。例如,vl(vision-language,視覺-語言)預(yù)訓(xùn)練模型在理解任務(wù)(如文本-視覺檢索)和生成任務(wù)(如視頻字幕生成)方面表現(xiàn)出優(yōu)越性能和靈活可伸縮性。音頻預(yù)訓(xùn)練模型能夠表示復(fù)雜的音頻信息。從頭開始學(xué)習(xí)視覺、文本和音頻的通用相關(guān)性是非常計(jì)算密集的,比如vatt(video-audio-text?transformer,?視頻-音頻-文本轉(zhuǎn)換器)。因此,一個(gè)直觀的想法是將最先進(jìn)的視覺語言模型與預(yù)訓(xùn)練的音頻骨干結(jié)合起來。隨著多模態(tài)大規(guī)模預(yù)訓(xùn)練模型在各種視覺下游任務(wù)中表現(xiàn)出色以及圖結(jié)構(gòu)學(xué)習(xí)方法的出現(xiàn),將他們引入人格感知任務(wù)上必將帶來意想不到的效果。
3、根據(jù)一些研究,語言和無意識(shí)行為,包括音頻(聲音語調(diào)、聲學(xué)強(qiáng)度)、視覺線索(面部表情、眼神、身體手勢(shì))、文本(音頻的轉(zhuǎn)錄)以及場(chǎng)景信息是人格感知系統(tǒng)的重要組成部分。這些多模態(tài)特征對(duì)于實(shí)際評(píng)估人格和情感具有顯著貢獻(xiàn)。通過利用不同模態(tài)信息的互補(bǔ)性,多模態(tài)人格感知方法可以顯著增強(qiáng)感知的穩(wěn)健性。因此,基于不同模態(tài)的各種方法已經(jīng)被開發(fā)來預(yù)測(cè)人格特質(zhì)。盡管這些研究的方法已經(jīng)取得了成就,但它們?nèi)匀幻媾R兩個(gè)關(guān)鍵挑戰(zhàn):
4、1.?大多數(shù)現(xiàn)有方法只專注于提取更多的單模態(tài)特征,忽視了不同模態(tài)關(guān)聯(lián)特征的重要性。
5、2.?雖然目前已經(jīng)存在許多多模態(tài)特征融合方法,但它們實(shí)際效果還有改進(jìn)空間。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)存在的忽略了不同模態(tài)之間關(guān)聯(lián)特征以及圖關(guān)系注意網(wǎng)絡(luò)在抽取關(guān)鍵時(shí)序信息的特點(diǎn)的技術(shù)問題,本發(fā)明實(shí)施例提供了一種多種關(guān)聯(lián)特征和圖關(guān)系注意的多模態(tài)人格感知方法及裝置。所述技術(shù)方案如下:
2、一方面,提供了一種多種關(guān)聯(lián)特征和圖關(guān)系注意的多模態(tài)人格感知方法,該方法由多模態(tài)人格感知設(shè)備實(shí)現(xiàn),該方法包括:
3、s1、獲取待進(jìn)行人格感知的輸入視頻。
4、s2、將輸入視頻輸入到數(shù)據(jù)預(yù)處理模塊,得到視覺模態(tài)輸入、音頻模態(tài)輸入以及文本模態(tài)輸入。
5、s3、將視覺模態(tài)輸入、音頻模態(tài)輸入以及文本模態(tài)輸入輸入到模態(tài)特征提取網(wǎng)絡(luò)模塊,得到場(chǎng)景-音頻關(guān)聯(lián)特征、場(chǎng)景-描述詞關(guān)聯(lián)特征、音頻-描述詞關(guān)聯(lián)特征以及文本模態(tài)特征。
6、s4、將場(chǎng)景-音頻關(guān)聯(lián)特征、場(chǎng)景-描述詞關(guān)聯(lián)特征、音頻-描述詞關(guān)聯(lián)特征以及文本模態(tài)特征輸入到特征融合模塊,得到多模態(tài)融合特征。
7、s5、將多模態(tài)融合特征輸入到感知預(yù)測(cè)模塊,得到人格感知結(jié)果。
8、可選地,s3中的將視覺模態(tài)輸入、音頻模態(tài)輸入以及文本模態(tài)輸入輸入到模態(tài)特征提取網(wǎng)絡(luò)模塊,得到場(chǎng)景-音頻關(guān)聯(lián)特征、場(chǎng)景-描述詞關(guān)聯(lián)特征、音頻-描述詞關(guān)聯(lián)特征以及文本模態(tài)特征,包括:
9、s31、將視覺模態(tài)輸入以及音頻模態(tài)輸入輸入到場(chǎng)景-音頻關(guān)聯(lián)特征提取模塊,得到場(chǎng)景-音頻關(guān)聯(lián)特征。
10、s32、將視覺模態(tài)輸入輸入到場(chǎng)景-描述詞關(guān)聯(lián)特征提取模塊,得到場(chǎng)景-描述詞關(guān)聯(lián)特征。
11、s33、將音頻模態(tài)輸入輸入到音頻-描述詞關(guān)聯(lián)特征提取模塊,得到音頻-描述詞關(guān)聯(lián)特征。
12、s34、將文本模態(tài)輸入輸入到roberta模型,得到文本模態(tài)特征。
13、可選地,s31中的將視覺模態(tài)輸入以及音頻模態(tài)輸入輸入到場(chǎng)景-音頻關(guān)聯(lián)特征提取模塊,得到場(chǎng)景-音頻關(guān)聯(lián)特征,包括:
14、s311、對(duì)視覺模態(tài)輸入,使用預(yù)訓(xùn)練的圖像編碼器提取得到場(chǎng)景圖像特征,根據(jù)場(chǎng)景圖像特征構(gòu)建視覺關(guān)系圖。
15、s312、對(duì)音頻模態(tài)輸入進(jìn)行預(yù)處理得到多個(gè)梅爾頻譜圖像,對(duì)多個(gè)梅爾頻譜圖像,通過預(yù)訓(xùn)練的音頻編碼器提取得到多個(gè)音頻特征,根據(jù)多個(gè)音頻特征構(gòu)建音頻關(guān)系圖。
16、s313、設(shè)計(jì)圖關(guān)系注意網(wǎng)絡(luò),根據(jù)視覺關(guān)系圖以及圖關(guān)系注意網(wǎng)絡(luò),得到視覺關(guān)系圖特征;根據(jù)音頻關(guān)系圖以及圖關(guān)系注意網(wǎng)絡(luò),得到音頻關(guān)系圖特征。
17、s314、將視覺關(guān)系圖特征以及音頻關(guān)系圖特征進(jìn)行拼接,進(jìn)而得到場(chǎng)景-音頻關(guān)聯(lián)特征。
18、可選地,s32中的將視覺模態(tài)輸入輸入到場(chǎng)景-描述詞關(guān)聯(lián)特征提取模塊,得到場(chǎng)景-描述詞關(guān)聯(lián)特征,包括:
19、s321、構(gòu)建人格描述詞列表。
20、s322、根據(jù)人格描述詞列表以及文本編碼器,生成人格描述詞嵌入。
21、s323、根據(jù)視覺模態(tài)輸入以及圖像編碼器,生成場(chǎng)景圖像嵌入。
22、s324、計(jì)算人格描述詞嵌入和場(chǎng)景圖像嵌入的點(diǎn)積,進(jìn)而得到場(chǎng)景-描述詞關(guān)聯(lián)特征。
23、可選地,s33中的將音頻模態(tài)輸入輸入到音頻-描述詞關(guān)聯(lián)特征提取模塊,得到音頻-描述詞關(guān)聯(lián)特征,包括:
24、s331、根據(jù)人格描述詞列表以及文本編碼器,生成人格描述詞嵌入。
25、s332、根據(jù)音頻模態(tài)輸入以及預(yù)訓(xùn)練的音頻編碼器,生成音頻嵌入。
26、s333、計(jì)算人格描述詞嵌入和音頻嵌入的點(diǎn)積,進(jìn)而得到音頻-描述詞關(guān)聯(lián)特征。
27、可選地,s4中的將場(chǎng)景-音頻關(guān)聯(lián)特征、場(chǎng)景-描述詞關(guān)聯(lián)特征、音頻-描述詞關(guān)聯(lián)特征以及文本模態(tài)特征輸入到特征融合模塊,得到多模態(tài)融合特征,包括:
28、s41、通過第一注意分?jǐn)?shù)計(jì)算模塊、第二注意分?jǐn)?shù)計(jì)算模塊、第三注意分?jǐn)?shù)計(jì)算模塊以及第四注意分?jǐn)?shù)計(jì)算模塊,分別對(duì)場(chǎng)景-音頻關(guān)聯(lián)特征、場(chǎng)景-描述詞關(guān)聯(lián)特征、音頻-描述詞關(guān)聯(lián)特征以及文本模態(tài)特征進(jìn)行計(jì)算,得到場(chǎng)景-音頻關(guān)聯(lián)特征自注意分?jǐn)?shù)、場(chǎng)景-描述詞關(guān)聯(lián)特征自注意分?jǐn)?shù)、音頻-描述詞關(guān)聯(lián)特征自注意分?jǐn)?shù)以及文本模態(tài)特征自注意分?jǐn)?shù)。
29、s42、根據(jù)場(chǎng)景-音頻關(guān)聯(lián)特征自注意分?jǐn)?shù)、場(chǎng)景-描述詞關(guān)聯(lián)特征自注意分?jǐn)?shù)、音頻-描述詞關(guān)聯(lián)特征自注意分?jǐn)?shù)以及文本模態(tài)特征自注意分?jǐn)?shù),計(jì)算得到場(chǎng)景-音頻關(guān)聯(lián)特征自注意分?jǐn)?shù)的歸一化值、場(chǎng)景-描述詞關(guān)聯(lián)特征自注意分?jǐn)?shù)的歸一化值、音頻-描述詞關(guān)聯(lián)特征自注意分?jǐn)?shù)的歸一化值以及文本模態(tài)特征自注意分?jǐn)?shù)的歸一化值。
30、s43、根據(jù)場(chǎng)景-音頻關(guān)聯(lián)特征自注意分?jǐn)?shù)的歸一化值、場(chǎng)景-描述詞關(guān)聯(lián)特征自注意分?jǐn)?shù)的歸一化值、音頻-描述詞關(guān)聯(lián)特征自注意分?jǐn)?shù)的歸一化值以及文本模態(tài)特征自注意分?jǐn)?shù)的歸一化值,計(jì)算得到多模態(tài)融合特征。
31、另一方面,提供了一種多種關(guān)聯(lián)特征和圖關(guān)系注意的多模態(tài)人格感知裝置,該裝置應(yīng)用于多種關(guān)聯(lián)特征和圖關(guān)系注意的多模態(tài)人格感知方法,該裝置包括:
32、獲取模塊,用于獲取待進(jìn)行人格感知的輸入視頻。
33、數(shù)據(jù)預(yù)處理模塊,用于將輸入視頻輸入到數(shù)據(jù)預(yù)處理模塊,得到視覺模態(tài)輸入、音頻模態(tài)輸入以及文本模態(tài)輸入。
34、模態(tài)特征提取網(wǎng)絡(luò)模塊,用于將視覺模態(tài)輸入、音頻模態(tài)輸入以及文本模態(tài)輸入輸入到模態(tài)特征提取網(wǎng)絡(luò)模塊,得到場(chǎng)景-音頻關(guān)聯(lián)特征、場(chǎng)景-描述詞關(guān)聯(lián)特征、音頻-描述詞關(guān)聯(lián)特征以及文本模態(tài)特征。
35、特征融合模塊,用于將場(chǎng)景-音頻關(guān)聯(lián)特征、場(chǎng)景-描述詞關(guān)聯(lián)特征、音頻-描述詞關(guān)聯(lián)特征以及文本模態(tài)特征輸入到特征融合模塊,得到多模態(tài)融合特征。
36、輸出模塊,用于將多模態(tài)融合特征輸入到感知預(yù)測(cè)模塊,得到人格感知結(jié)果。
37、可選地,模態(tài)特征提取網(wǎng)絡(luò)模塊,進(jìn)一步用于:
38、s31、將視覺模態(tài)輸入以及音頻模態(tài)輸入輸入到場(chǎng)景-音頻關(guān)聯(lián)特征提取模塊,得到場(chǎng)景-音頻關(guān)聯(lián)特征。
39、s32、將視覺模態(tài)輸入輸入到場(chǎng)景-描述詞關(guān)聯(lián)特征提取模塊,得到場(chǎng)景-描述詞關(guān)聯(lián)特征。
40、s33、將音頻模態(tài)輸入輸入到音頻-描述詞關(guān)聯(lián)特征提取模塊,得到音頻-描述詞關(guān)聯(lián)特征。
41、s34、將文本模態(tài)輸入輸入到roberta模型,得到文本模態(tài)特征。
42、可選地,模態(tài)特征提取網(wǎng)絡(luò)模塊,進(jìn)一步用于:
43、s311、對(duì)視覺模態(tài)輸入,使用預(yù)訓(xùn)練的圖像編碼器提取得到場(chǎng)景圖像特征,根據(jù)場(chǎng)景圖像特征構(gòu)建視覺關(guān)系圖。
44、s312、對(duì)音頻模態(tài)輸入進(jìn)行預(yù)處理得到多個(gè)梅爾頻譜圖像,對(duì)多個(gè)梅爾頻譜圖像,通過預(yù)訓(xùn)練的音頻編碼器提取得到多個(gè)音頻特征,根據(jù)多個(gè)音頻特征構(gòu)建音頻關(guān)系圖。
45、s313、設(shè)計(jì)圖關(guān)系注意網(wǎng)絡(luò),根據(jù)視覺關(guān)系圖以及圖關(guān)系注意網(wǎng)絡(luò),得到視覺關(guān)系圖特征;根據(jù)音頻關(guān)系圖以及圖關(guān)系注意網(wǎng)絡(luò),得到音頻關(guān)系圖特征。
46、s314、將視覺關(guān)系圖特征以及音頻關(guān)系圖特征進(jìn)行拼接,進(jìn)而得到場(chǎng)景-音頻關(guān)聯(lián)特征。
47、可選地,模態(tài)特征提取網(wǎng)絡(luò)模塊,進(jìn)一步用于:
48、s321、構(gòu)建人格描述詞列表。
49、s322、根據(jù)人格描述詞列表以及文本編碼器,生成人格描述詞嵌入。
50、s323、根據(jù)視覺模態(tài)輸入以及圖像編碼器,生成場(chǎng)景圖像嵌入。
51、s324、計(jì)算人格描述詞嵌入和場(chǎng)景圖像嵌入的點(diǎn)積,進(jìn)而得到場(chǎng)景-描述詞關(guān)聯(lián)特征。
52、可選地,模態(tài)特征提取網(wǎng)絡(luò)模塊,進(jìn)一步用于:
53、s331、根據(jù)人格描述詞列表以及文本編碼器,生成人格描述詞嵌入。
54、s332、根據(jù)音頻模態(tài)輸入以及預(yù)訓(xùn)練的音頻編碼器,生成音頻嵌入。
55、s333、計(jì)算人格描述詞嵌入和音頻嵌入的點(diǎn)積,進(jìn)而得到音頻-描述詞關(guān)聯(lián)特征。
56、可選地,特征融合模塊,進(jìn)一步用于:
57、s41、通過第一注意分?jǐn)?shù)計(jì)算模塊、第二注意分?jǐn)?shù)計(jì)算模塊、第三注意分?jǐn)?shù)計(jì)算模塊以及第四注意分?jǐn)?shù)計(jì)算模塊,分別對(duì)場(chǎng)景-音頻關(guān)聯(lián)特征、場(chǎng)景-描述詞關(guān)聯(lián)特征、音頻-描述詞關(guān)聯(lián)特征以及文本模態(tài)特征進(jìn)行計(jì)算,得到場(chǎng)景-音頻關(guān)聯(lián)特征自注意分?jǐn)?shù)、場(chǎng)景-描述詞關(guān)聯(lián)特征自注意分?jǐn)?shù)、音頻-描述詞關(guān)聯(lián)特征自注意分?jǐn)?shù)以及文本模態(tài)特征自注意分?jǐn)?shù)。
58、s42、根據(jù)場(chǎng)景-音頻關(guān)聯(lián)特征自注意分?jǐn)?shù)、場(chǎng)景-描述詞關(guān)聯(lián)特征自注意分?jǐn)?shù)、音頻-描述詞關(guān)聯(lián)特征自注意分?jǐn)?shù)以及文本模態(tài)特征自注意分?jǐn)?shù),計(jì)算得到場(chǎng)景-音頻關(guān)聯(lián)特征自注意分?jǐn)?shù)的歸一化值、場(chǎng)景-描述詞關(guān)聯(lián)特征自注意分?jǐn)?shù)的歸一化值、音頻-描述詞關(guān)聯(lián)特征自注意分?jǐn)?shù)的歸一化值以及文本模態(tài)特征自注意分?jǐn)?shù)的歸一化值。
59、s43、根據(jù)場(chǎng)景-音頻關(guān)聯(lián)特征自注意分?jǐn)?shù)的歸一化值、場(chǎng)景-描述詞關(guān)聯(lián)特征自注意分?jǐn)?shù)的歸一化值、音頻-描述詞關(guān)聯(lián)特征自注意分?jǐn)?shù)的歸一化值以及文本模態(tài)特征自注意分?jǐn)?shù)的歸一化值,計(jì)算得到多模態(tài)融合特征。
60、另一方面,提供一種多模態(tài)人格感知設(shè)備,所述多模態(tài)人格感知設(shè)備包括:處理器;存儲(chǔ)器,所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被所述處理器執(zhí)行時(shí),實(shí)現(xiàn)如上述多種關(guān)聯(lián)特征和圖關(guān)系注意的多模態(tài)人格感知方法中的任一項(xiàng)方法。
61、另一方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實(shí)現(xiàn)上述多種關(guān)聯(lián)特征和圖關(guān)系注意的多模態(tài)人格感知方法中的任一項(xiàng)方法。
62、本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果至少包括:
63、本發(fā)明實(shí)施例中,提出了一種多模態(tài)注意融合框架,用于人格感知。該框架利用多種關(guān)聯(lián)特征和圖關(guān)系注意網(wǎng)絡(luò),專為視覺-語言-音頻處理而設(shè)計(jì)。本發(fā)明通過擴(kuò)展視覺-語言預(yù)訓(xùn)練模型clip,以統(tǒng)一方式包含音頻模態(tài)。本發(fā)明從跨模態(tài)和內(nèi)部模態(tài)的角度利用對(duì)比學(xué)習(xí)技術(shù),充分利用多模態(tài)預(yù)訓(xùn)練模型。為了提取場(chǎng)景-音頻關(guān)聯(lián)特征,在本發(fā)明的框架中提出了場(chǎng)景-音頻關(guān)聯(lián)特征提取方法。此外,本發(fā)明擴(kuò)展了clip模型到clipaudio音頻,分別用于挖掘場(chǎng)景人格描述詞和音頻人格描述的關(guān)聯(lián)特征。本發(fā)明還利用預(yù)訓(xùn)練的roberta模型提取文本特定的特征。為了有效融合這些多模態(tài)信息,本發(fā)明設(shè)計(jì)了一種多模態(tài)注意特征融合策略。