本發(fā)明屬于語音信號(hào)處理和計(jì)算機(jī)視覺交叉領(lǐng)域,具體涉及一種基于視聽融合的說話人日志化方法,即基于視聽融合聚類的說話人日志生成方法,旨在識(shí)別多說話人的身份及時(shí)間分段,適用于在線會(huì)議記錄、語音驗(yàn)證及人機(jī)交互等應(yīng)用。
背景技術(shù):
1、說話人日志技術(shù)旨在解決多說話人場景中“誰在何時(shí)說話”的問題,是在線會(huì)議轉(zhuǎn)錄、說話人驗(yàn)證以及人機(jī)交互等下游任務(wù)的重要前提。傳統(tǒng)的說話人日志方法通常采用多階段處理流程,包括語音活動(dòng)檢測(cè)、語音分段、說話人嵌入提取和聚類等。然而,這些方法在面對(duì)復(fù)雜的自中心視頻場景時(shí)表現(xiàn)不佳,主要原因包括:
2、1.背景噪聲多樣性:自中心視頻中存在多種背景噪聲及音量變化,導(dǎo)致語音活動(dòng)檢測(cè)容易出錯(cuò),且難以準(zhǔn)確預(yù)測(cè)說話人數(shù)。
3、2.視覺信息可靠性差:現(xiàn)有音視頻聯(lián)合日志方法假設(shè)所有說話人均可見,但在自中心視頻中,說話人可能會(huì)短暫離開視野,影響視覺信息的有效性。
4、因此,現(xiàn)有技術(shù)難以有效應(yīng)對(duì)自中心視頻場景中的說話人日志問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問題是提供一種基于視聽融合聚類的說話人日志生成方法,能更準(zhǔn)確地生成說話人日志。本方法還能解決現(xiàn)有技術(shù)中自我中心視頻說話人日志化的魯棒性問題。
2、一種基于視聽融合聚類的說話人日志生成方法,本方法中的輸入信號(hào)為采集的視頻信號(hào),視頻信號(hào)包括視頻的圖像序列幀和對(duì)應(yīng)的音頻幀;
3、本方法包括以下步驟:
4、s1.采用重疊感知說話人分割模型獲取各說話人的語音段;
5、針對(duì)所述的音頻幀(即音頻信號(hào)),通過重疊感知說話人分割模型檢測(cè)說話人的語音段;所述的語音段還記錄有該語音段的開始時(shí)間和結(jié)束時(shí)間;
6、s2.說話人音頻嵌入的提?。?/p>
7、將步驟1活動(dòng)的語音段送入說話人驗(yàn)證模型以提取音頻嵌入,即提取說話人的聲紋特征向量;
8、s3.主動(dòng)說話人檢測(cè):
9、通過人臉檢測(cè)和追蹤算法和主動(dòng)說話人檢測(cè)模型對(duì)視頻信號(hào)進(jìn)行處理,得到每個(gè)說話人的說話分?jǐn)?shù)矩陣a[i][j],即視覺嵌入;
10、說話分?jǐn)?shù)矩陣a[i][j]代表id為i的說話人在第j個(gè)視頻幀中說話的概率;
11、s4.視聽聚類:
12、將音頻嵌入和視覺嵌入均送入聚類模塊進(jìn)行處理;
13、聚類模塊采用以下步驟實(shí)施:
14、4.1.說話人數(shù)量預(yù)測(cè):利用視覺嵌入計(jì)算關(guān)于總說話人數(shù)的概率pnumber,通過所述概率預(yù)測(cè)潛在的說話人數(shù)量;
15、4.2.優(yōu)化聚類數(shù)量:基于優(yōu)化算法,結(jié)合說話人數(shù)量概率pnumber和音頻嵌入得到的特征值差向量egap,確定最佳說話人數(shù)量kav;
16、4.3.k-means聚類:根據(jù)確定的最佳說話人數(shù)量kav,應(yīng)用k-means聚類算法將音頻片段分配到kav個(gè)聚類中,形成日志;
17、最終日志結(jié)果為以[說話人id,開始時(shí)間,結(jié)束時(shí)間]數(shù)據(jù)結(jié)構(gòu)表征的三元組列表。
18、在步驟s1中,采用5秒的滑動(dòng)窗口,將音頻信號(hào)通過重疊感知說話人分割模型以檢測(cè)說話人的語音段。
19、在步驟s2中,將步驟s1中得到的每個(gè)語音段作為cam++說話人驗(yàn)證模型[h.wang,s.zheng,y.chen,l.cheng,an?q.chen,“cam++:afast?and?efficient?network?forspeaker?verification?using?context-awaremasking,”arxiv?preprint?arxiv:2303.00332,2023.]的輸入,輸出為其中是第i個(gè)音頻段的說話人音頻嵌入,m是語音片段數(shù)量,d=192是特征維度。
20、在步驟s3中,基于視頻信號(hào),采用人臉檢測(cè)算法s3fd[s.zhang,x.zhu,z.lei,h.shi,x.wang,and?s.z.li,“s3fd:single?shot?scale-invariant?face?detector,”inproceedings?of?the?ieee?international?conference?on?computer?vision,2017,pp.192–201]以檢測(cè)視頻中的說話人人臉,并利用resnet算法[he?k,zhang?x,ren?s,etal.deep?residual?learning?for?image?recognition[c]//proceedings?of?the?ieeeconference?on?computer?vision?and?pattern?recognition.2016:770-778.]進(jìn)行人臉全局追蹤,將視頻中不同時(shí)間的同一個(gè)說話人標(biāo)上唯一id,最后通過主動(dòng)說話人檢測(cè)模型(light-asd)[j.liao,h.duan,k.feng,w.zhao,y.yang,and?l.chen,“alight?weightmodel?for?active?speaker?detection,”in?proceedings?of?the?ieee/cvf?conferenceon?computer?vision?and?pattern?recognition,2023,pp.22?932–22?941.]得到每個(gè)說話人在每個(gè)視頻幀的說話概率,即得到每個(gè)說話人的說話分?jǐn)?shù)矩陣其中n為檢測(cè)到的說話人數(shù),t為視頻幀數(shù);
21、其中a[i][j]代表id為i的說話人在第j個(gè)視頻幀中說話的概率。
22、在步驟s4.1中,對(duì)s3中得到的說話分?jǐn)?shù)矩陣a求出每行的最大值pspk作為每個(gè)說話人在視頻中說過話的概率,所述說話人數(shù)量預(yù)測(cè)步驟通過如下公式計(jì)算概率
23、
24、其中pnumber[n]∈[0,1]表示總共有n個(gè)說話人的概率,表示從n個(gè)體中選擇n個(gè)個(gè)體的所有可能組合的集合;通過使用該概率,能夠?qū)撛诘恼f話人數(shù)量進(jìn)行預(yù)測(cè)。
25、在步驟s4.2中,所述的優(yōu)化算法為基于歸一化最大特征值差的自適應(yīng)譜聚類說話人日志方法;
26、根據(jù)[t.j.park,k.j.han,m.kumar,s.narayanan,auto-tuning?spectralclustering?for?speaker?diarization?using?normalized?maximum?eigengap,ieeesignal?processing?letters?27(2019)381–385.]基于歸一化最大特征值差的自適應(yīng)譜聚類說話人日志方法:以所有片段的說話人音頻嵌入e的余弦相似度構(gòu)造相似性矩陣esim;將esim與esim的轉(zhuǎn)置求平均,得到平均值矩陣然后,以矩陣構(gòu)建拉普拉斯矩陣l,并進(jìn)行奇異值分解(svd)以獲得特征值σ和特征向量u,最后,從∑得到特征值差向量egap,所述優(yōu)化聚類數(shù)量步驟通過權(quán)重系數(shù)λ對(duì)p"u$%er和特征值差向量egap進(jìn)行加權(quán)平均,確定最佳說話人數(shù)量kav;優(yōu)化算法的計(jì)算公式如下:
27、
28、其中λ經(jīng)過實(shí)驗(yàn)測(cè)試,取0.7效果最佳。argmax表示找出給定函數(shù)或數(shù)組中取得最大值的索引位置,softmax函數(shù)用于將一個(gè)向量映射為一個(gè)概率分布,使得輸出值在[0,1]之間,且所有輸出的和為1。
29、在步驟s4.3中,所述k-means聚類步驟為在確定最佳說話人數(shù)量kav后,對(duì)u的前kav個(gè)特征向量應(yīng)用k-means聚類算法;通過聚類,將音頻片段分配到kav個(gè)聚類中,即分配給kav個(gè)不同的說話人;
30、進(jìn)而得到最終的說話人日志;說話人日志以[說話人序號(hào),開始時(shí)間,結(jié)束時(shí)間]的三元組列表體現(xiàn)。
31、相比單獨(dú)的語音識(shí)別,本發(fā)明中融合圖像識(shí)別可以獲得更加準(zhǔn)確的聚類數(shù)(即說話人數(shù))的預(yù)測(cè),對(duì)后續(xù)聚類結(jié)果有所幫助。
32、有益效果:
33、本發(fā)明公開了一種基于視聽融合聚類的說話人日志生成方法,旨在解決多說話人場景中的“誰在何時(shí)說話”問題。該方法通過以下步驟實(shí)現(xiàn):首先,采用重疊感知的語音分段模型進(jìn)行音頻片段的分段,解決重疊語音問題;其次,利用先進(jìn)的說話人嵌入模型提取音頻以及通過面部跟蹤和說話人檢測(cè)生成的說話分?jǐn)?shù)矩陣;然后,通過音視頻聯(lián)合聚類方法,根據(jù)音頻特征和視覺信息優(yōu)化聚類數(shù)目,并利用k均值聚類完成說話人聚類;實(shí)驗(yàn)結(jié)果表明,采用該方法的系統(tǒng)在ego4d驗(yàn)證集上取得了最低的日志錯(cuò)誤率(der)。