本發(fā)明涉及智能網(wǎng)聯(lián)汽車,具體涉及一種車輛智能座艙語音喚醒模型的優(yōu)化方法、裝置及計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、在當(dāng)前智能座艙的語音喚醒技術(shù)領(lǐng)域中,主流方法主要聚焦于音頻頻率的匹配性分析,即通過比較用戶發(fā)出的音頻信號(hào)與預(yù)設(shè)喚醒詞的音頻頻率特征,來實(shí)現(xiàn)喚醒功能的激活。然而,這一技術(shù)路徑在實(shí)際應(yīng)用中暴露出顯著的局限性,它忽略了更為復(fù)雜且關(guān)鍵的輔助判斷條件,諸如上下文語境的理解以及發(fā)聲源真實(shí)性的驗(yàn)證。
2、具體而言,現(xiàn)行的技術(shù)方案通常遵循以下流程:首先,通過vw-vad(voicewake-upvoice?activity?detection)技術(shù)進(jìn)行有效音頻檢測(cè),旨在剔除靜音段及非喚醒相關(guān)音頻,以優(yōu)化計(jì)算資源分配;隨后,進(jìn)入特征提取階段,利用fbank(filter?bank)算法抽取音頻的頻帶或頻點(diǎn)采樣特征,為聲學(xué)模型提供輸入數(shù)據(jù);接著,聲學(xué)模型負(fù)責(zé)對(duì)每25毫秒的音頻幀進(jìn)行發(fā)音狀態(tài)分類;之后,通過解碼過程,基于喚醒詞構(gòu)建解碼路徑,評(píng)估音頻與喚醒詞的匹配度;最終,引入置信度模型進(jìn)行喚醒結(jié)果的二次驗(yàn)證。
3、盡管上述方案在一定程度上實(shí)現(xiàn)了語音喚醒功能,但仍存在以下幾個(gè)方面的缺陷:
4、訓(xùn)練數(shù)據(jù)的局限性:喚醒模型的訓(xùn)練高度依賴于實(shí)驗(yàn)室環(huán)境下的大量測(cè)試數(shù)據(jù),這些數(shù)據(jù)與真實(shí)用車場景中的復(fù)雜多變條件存在較大偏差,導(dǎo)致訓(xùn)練數(shù)據(jù)的代表性和泛化能力不足。
5、問題解決的單一視角:面對(duì)語音誤喚醒這一復(fù)雜問題,現(xiàn)有技術(shù)往往僅從單一因素出發(fā)尋求解決方案,忽視了多種可能因素的綜合影響,限制了誤喚醒抑制效果的提升。
6、缺乏深入的數(shù)據(jù)分析:鮮有技術(shù)方案對(duì)導(dǎo)致語音誤喚醒的具體原因進(jìn)行深入的數(shù)據(jù)分析,未能準(zhǔn)確識(shí)別問題的根源,從而難以制定針對(duì)性的優(yōu)化策略,從根本上解決誤喚醒問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例所要解決的技術(shù)問題在于,提供一種車輛智能座艙語音喚醒模型的優(yōu)化方法、裝置及計(jì)算機(jī)程序產(chǎn)品,以有效降低語音誤喚醒率,提高語音識(shí)別系統(tǒng)的準(zhǔn)確性和用戶體驗(yàn)。
2、為解決上述技術(shù)問題,本發(fā)明提供一種車輛智能座艙語音喚醒模型的優(yōu)化方法,包括以下步驟:
3、根據(jù)語音誤喚醒數(shù)據(jù)采集觸發(fā)規(guī)則,采集用戶行為多模數(shù)據(jù)、座艙內(nèi)音頻數(shù)據(jù)和環(huán)境數(shù)據(jù);
4、解析采集的數(shù)據(jù),獲取與語音誤喚醒相關(guān)的結(jié)構(gòu)化數(shù)據(jù);
5、從所述結(jié)構(gòu)化數(shù)據(jù)中提取與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù);
6、對(duì)與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù)進(jìn)行分類,形成誤喚醒訓(xùn)練數(shù)據(jù)集;
7、將誤喚醒訓(xùn)練數(shù)據(jù)集導(dǎo)入到語音喚醒模型中進(jìn)行迭代訓(xùn)練,以優(yōu)化所述語音喚醒模型。
8、優(yōu)選地,所述根據(jù)語音誤喚醒數(shù)據(jù)采集觸發(fā)規(guī)則,采集用戶行為多模數(shù)據(jù)、座艙內(nèi)音頻數(shù)據(jù)和環(huán)境數(shù)據(jù),具體包括:
9、檢測(cè)并響應(yīng)語音喚醒信號(hào),并對(duì)喚醒語音進(jìn)行識(shí)別,以確認(rèn)是否為有效喚醒指令;
10、將識(shí)別的喚醒語音與同音詞庫進(jìn)行比對(duì),判斷比對(duì)是否成功;
11、若比對(duì)成功,則繼續(xù)監(jiān)控下一輪語音交互;若比對(duì)不成功,則判定為疑似誤喚醒,并觸發(fā)采集用戶行為多模數(shù)據(jù)、座艙內(nèi)音頻數(shù)據(jù)和環(huán)境數(shù)據(jù);
12、若下一輪語音交互過程中沒有識(shí)別到有效喚醒指令,則判定為疑似誤喚醒,并觸發(fā)采集用戶行為多模數(shù)據(jù)、座艙內(nèi)音頻數(shù)據(jù)和環(huán)境數(shù)據(jù)。
13、優(yōu)選地,所述適用于機(jī)器學(xué)習(xí)的結(jié)構(gòu)化數(shù)據(jù)具體包括用戶特征數(shù)據(jù)和喚醒環(huán)境數(shù)據(jù)。
14、優(yōu)選地,所述從所述結(jié)構(gòu)化數(shù)據(jù)中提取與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù),具體包括:
15、從所述結(jié)構(gòu)化數(shù)據(jù)中選擇并提取與語音誤喚醒相關(guān)的特征;
16、利用關(guān)聯(lián)規(guī)則挖掘算法,分析提取出的特征與語音誤喚醒之間的關(guān)聯(lián)關(guān)系;
17、基于所述關(guān)聯(lián)關(guān)系,挖掘出與語音誤喚醒直接關(guān)聯(lián)的數(shù)據(jù)。
18、優(yōu)選地,所述對(duì)與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù)進(jìn)行分類,形成誤喚醒訓(xùn)練數(shù)據(jù)集,具體包括:
19、通過分析所述結(jié)構(gòu)化數(shù)據(jù)中與語音誤喚醒相關(guān)的特征,判斷誤喚醒的原因;
20、根據(jù)誤喚醒的原因,采用誤喚醒分類算法,將從結(jié)構(gòu)化數(shù)據(jù)中挖掘出的與語音誤喚醒關(guān)聯(lián)的數(shù)據(jù)分類為非誤喚醒、誤觸、回聲自激、人聲喚醒、外部音源、非有效音喚醒。
21、優(yōu)選地,所述方法還包括:
22、在語音喚醒模型中設(shè)置二級(jí)置信度算法模塊,用于在當(dāng)前語音喚醒信號(hào)的喚醒得分超過預(yù)設(shè)的喚醒門限值時(shí),采用二級(jí)置信度算法計(jì)算當(dāng)前語音喚醒信號(hào)的二級(jí)置信度;
23、所述二級(jí)置信度用于與預(yù)設(shè)的二級(jí)置信度門限值進(jìn)行比較,若所述二級(jí)置信度超過預(yù)設(shè)的二級(jí)置信度門限值,則判定喚醒成功。
24、優(yōu)選地,所述采用二級(jí)置信度算法計(jì)算當(dāng)前語音喚醒信號(hào)的二級(jí)置信度具體包括:
25、使用訓(xùn)練好的、由從所述誤喚醒訓(xùn)練數(shù)據(jù)集中提取的反映音頻內(nèi)容、環(huán)境狀況、用戶特性的特征訓(xùn)練而得的計(jì)算模型,計(jì)算當(dāng)前語音喚醒信號(hào)為有效喚醒指令的置信度得分。
26、本發(fā)明還提供一種車輛智能座艙語音喚醒模型的優(yōu)化裝置,包括:
27、采集模塊,用于根據(jù)語音誤喚醒數(shù)據(jù)采集觸發(fā)規(guī)則,采集用戶行為多模數(shù)據(jù)、座艙內(nèi)音頻數(shù)據(jù)和環(huán)境數(shù)據(jù);
28、解析模塊,用于解析采集的數(shù)據(jù),獲取與語音誤喚醒相關(guān)的結(jié)構(gòu)化數(shù)據(jù);
29、提取模塊,用于從所述結(jié)構(gòu)化數(shù)據(jù)中提取與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù);
30、分類模塊,用于對(duì)與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù)進(jìn)行分類,形成誤喚醒訓(xùn)練數(shù)據(jù)集;
31、優(yōu)化模塊,用于將誤喚醒訓(xùn)練數(shù)據(jù)集導(dǎo)入到語音喚醒模型中進(jìn)行迭代訓(xùn)練,以優(yōu)化所述語音喚醒模型。
32、本發(fā)明還提供一種車輛智能座艙語音喚醒模型的優(yōu)化裝置,包括:
33、一個(gè)或多個(gè)處理器;
34、存儲(chǔ)器;
35、一個(gè)或多個(gè)應(yīng)用程序,其中所述一個(gè)或多個(gè)應(yīng)用程序被存儲(chǔ)在所述存儲(chǔ)器中并被配置為由所述一個(gè)或多個(gè)處理器執(zhí)行,所述一個(gè)或多個(gè)應(yīng)用程序被配置用于執(zhí)行所述的車輛智能座艙語音喚醒模型的優(yōu)化方法。
36、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令指示計(jì)算機(jī)設(shè)備執(zhí)行所述方法對(duì)應(yīng)的操作。
37、實(shí)施本發(fā)明具有如下有益效果:本發(fā)明通過全面采集用戶行為、座艙內(nèi)音頻及環(huán)境等多模數(shù)據(jù),為模型優(yōu)化提供了豐富的數(shù)據(jù)基礎(chǔ);將誤喚醒數(shù)據(jù)作為反例導(dǎo)入模型進(jìn)行迭代訓(xùn)練,不僅優(yōu)化了模型算法,還顯著降低了誤喚醒率,提高了喚醒的精準(zhǔn)度。本發(fā)明使得語音喚醒模型能夠更好地適應(yīng)實(shí)際使用場景,減少不必要的干擾,為用戶帶來更加有針對(duì)性的語音交互體驗(yàn),同時(shí)增強(qiáng)了模型的自我學(xué)習(xí)和持續(xù)優(yōu)化能力,為車輛智能座艙的智能化發(fā)展提供了有力支持。
1.一種車輛智能座艙語音喚醒模型的優(yōu)化方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)語音誤喚醒數(shù)據(jù)采集觸發(fā)規(guī)則,采集用戶行為多模數(shù)據(jù)、座艙內(nèi)音頻數(shù)據(jù)和環(huán)境數(shù)據(jù),具體包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述適用于機(jī)器學(xué)習(xí)的結(jié)構(gòu)化數(shù)據(jù)具體包括用戶特征數(shù)據(jù)和喚醒環(huán)境數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所述結(jié)構(gòu)化數(shù)據(jù)中提取與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù),具體包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述對(duì)與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù)進(jìn)行分類,形成誤喚醒訓(xùn)練數(shù)據(jù)集,具體包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述采用二級(jí)置信度算法計(jì)算當(dāng)前語音喚醒信號(hào)的二級(jí)置信度具體包括:
8.一種車輛智能座艙語音喚醒模型的優(yōu)化裝置,其特征在于,包括:
9.一種車輛智能座艙語音喚醒模型的優(yōu)化裝置,其特征在于,包括:
10.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令指示計(jì)算機(jī)設(shè)備執(zhí)行如權(quán)利要求1至7任一項(xiàng)所述方法對(duì)應(yīng)的操作。