一種車輛智能座艙語音喚醒模型的優(yōu)化方法、裝置及計(jì)算機(jī)程序產(chǎn)品與流程

文檔序號(hào)：41855430發(fā)布日期：2025-05-09 18:14閱讀：8來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種車輛智能座艙語音喚醒模型的優(yōu)化方法、裝置及計(jì)算機(jī)程序產(chǎn)品與流程

本發(fā)明涉及智能網(wǎng)聯(lián)汽車，具體涉及一種車輛智能座艙語音喚醒模型的優(yōu)化方法、裝置及計(jì)算機(jī)程序產(chǎn)品。

背景技術(shù)：

1、在當(dāng)前智能座艙的語音喚醒技術(shù)領(lǐng)域中，主流方法主要聚焦于音頻頻率的匹配性分析，即通過比較用戶發(fā)出的音頻信號(hào)與預(yù)設(shè)喚醒詞的音頻頻率特征，來實(shí)現(xiàn)喚醒功能的激活。然而，這一技術(shù)路徑在實(shí)際應(yīng)用中暴露出顯著的局限性，它忽略了更為復(fù)雜且關(guān)鍵的輔助判斷條件，諸如上下文語境的理解以及發(fā)聲源真實(shí)性的驗(yàn)證。

2、具體而言，現(xiàn)行的技術(shù)方案通常遵循以下流程：首先，通過vw-vad(voicewake-upvoice?activity?detection)技術(shù)進(jìn)行有效音頻檢測(cè)，旨在剔除靜音段及非喚醒相關(guān)音頻，以優(yōu)化計(jì)算資源分配；隨后，進(jìn)入特征提取階段，利用fbank(filter?bank)算法抽取音頻的頻帶或頻點(diǎn)采樣特征，為聲學(xué)模型提供輸入數(shù)據(jù)；接著，聲學(xué)模型負(fù)責(zé)對(duì)每25毫秒的音頻幀進(jìn)行發(fā)音狀態(tài)分類；之后，通過解碼過程，基于喚醒詞構(gòu)建解碼路徑，評(píng)估音頻與喚醒詞的匹配度；最終，引入置信度模型進(jìn)行喚醒結(jié)果的二次驗(yàn)證。

3、盡管上述方案在一定程度上實(shí)現(xiàn)了語音喚醒功能，但仍存在以下幾個(gè)方面的缺陷：

4、訓(xùn)練數(shù)據(jù)的局限性：喚醒模型的訓(xùn)練高度依賴于實(shí)驗(yàn)室環(huán)境下的大量測(cè)試數(shù)據(jù)，這些數(shù)據(jù)與真實(shí)用車場景中的復(fù)雜多變條件存在較大偏差，導(dǎo)致訓(xùn)練數(shù)據(jù)的代表性和泛化能力不足。

5、問題解決的單一視角：面對(duì)語音誤喚醒這一復(fù)雜問題，現(xiàn)有技術(shù)往往僅從單一因素出發(fā)尋求解決方案，忽視了多種可能因素的綜合影響，限制了誤喚醒抑制效果的提升。

6、缺乏深入的數(shù)據(jù)分析：鮮有技術(shù)方案對(duì)導(dǎo)致語音誤喚醒的具體原因進(jìn)行深入的數(shù)據(jù)分析，未能準(zhǔn)確識(shí)別問題的根源，從而難以制定針對(duì)性的優(yōu)化策略，從根本上解決誤喚醒問題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明實(shí)施例所要解決的技術(shù)問題在于，提供一種車輛智能座艙語音喚醒模型的優(yōu)化方法、裝置及計(jì)算機(jī)程序產(chǎn)品，以有效降低語音誤喚醒率，提高語音識(shí)別系統(tǒng)的準(zhǔn)確性和用戶體驗(yàn)。

2、為解決上述技術(shù)問題，本發(fā)明提供一種車輛智能座艙語音喚醒模型的優(yōu)化方法，包括以下步驟：

3、根據(jù)語音誤喚醒數(shù)據(jù)采集觸發(fā)規(guī)則，采集用戶行為多模數(shù)據(jù)、座艙內(nèi)音頻數(shù)據(jù)和環(huán)境數(shù)據(jù)；

4、解析采集的數(shù)據(jù)，獲取與語音誤喚醒相關(guān)的結(jié)構(gòu)化數(shù)據(jù)；

5、從所述結(jié)構(gòu)化數(shù)據(jù)中提取與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù)；

6、對(duì)與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù)進(jìn)行分類，形成誤喚醒訓(xùn)練數(shù)據(jù)集；

7、將誤喚醒訓(xùn)練數(shù)據(jù)集導(dǎo)入到語音喚醒模型中進(jìn)行迭代訓(xùn)練，以優(yōu)化所述語音喚醒模型。

8、優(yōu)選地，所述根據(jù)語音誤喚醒數(shù)據(jù)采集觸發(fā)規(guī)則，采集用戶行為多模數(shù)據(jù)、座艙內(nèi)音頻數(shù)據(jù)和環(huán)境數(shù)據(jù)，具體包括：

9、檢測(cè)并響應(yīng)語音喚醒信號(hào)，并對(duì)喚醒語音進(jìn)行識(shí)別，以確認(rèn)是否為有效喚醒指令；

10、將識(shí)別的喚醒語音與同音詞庫進(jìn)行比對(duì)，判斷比對(duì)是否成功；

11、若比對(duì)成功，則繼續(xù)監(jiān)控下一輪語音交互；若比對(duì)不成功，則判定為疑似誤喚醒，并觸發(fā)采集用戶行為多模數(shù)據(jù)、座艙內(nèi)音頻數(shù)據(jù)和環(huán)境數(shù)據(jù)；

12、若下一輪語音交互過程中沒有識(shí)別到有效喚醒指令，則判定為疑似誤喚醒，并觸發(fā)采集用戶行為多模數(shù)據(jù)、座艙內(nèi)音頻數(shù)據(jù)和環(huán)境數(shù)據(jù)。

13、優(yōu)選地，所述適用于機(jī)器學(xué)習(xí)的結(jié)構(gòu)化數(shù)據(jù)具體包括用戶特征數(shù)據(jù)和喚醒環(huán)境數(shù)據(jù)。

14、優(yōu)選地，所述從所述結(jié)構(gòu)化數(shù)據(jù)中提取與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù)，具體包括：

15、從所述結(jié)構(gòu)化數(shù)據(jù)中選擇并提取與語音誤喚醒相關(guān)的特征；

16、利用關(guān)聯(lián)規(guī)則挖掘算法，分析提取出的特征與語音誤喚醒之間的關(guān)聯(lián)關(guān)系；

17、基于所述關(guān)聯(lián)關(guān)系，挖掘出與語音誤喚醒直接關(guān)聯(lián)的數(shù)據(jù)。

18、優(yōu)選地，所述對(duì)與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù)進(jìn)行分類，形成誤喚醒訓(xùn)練數(shù)據(jù)集，具體包括：

19、通過分析所述結(jié)構(gòu)化數(shù)據(jù)中與語音誤喚醒相關(guān)的特征，判斷誤喚醒的原因；

20、根據(jù)誤喚醒的原因，采用誤喚醒分類算法，將從結(jié)構(gòu)化數(shù)據(jù)中挖掘出的與語音誤喚醒關(guān)聯(lián)的數(shù)據(jù)分類為非誤喚醒、誤觸、回聲自激、人聲喚醒、外部音源、非有效音喚醒。

21、優(yōu)選地，所述方法還包括：

22、在語音喚醒模型中設(shè)置二級(jí)置信度算法模塊，用于在當(dāng)前語音喚醒信號(hào)的喚醒得分超過預(yù)設(shè)的喚醒門限值時(shí)，采用二級(jí)置信度算法計(jì)算當(dāng)前語音喚醒信號(hào)的二級(jí)置信度；

23、所述二級(jí)置信度用于與預(yù)設(shè)的二級(jí)置信度門限值進(jìn)行比較，若所述二級(jí)置信度超過預(yù)設(shè)的二級(jí)置信度門限值，則判定喚醒成功。

24、優(yōu)選地，所述采用二級(jí)置信度算法計(jì)算當(dāng)前語音喚醒信號(hào)的二級(jí)置信度具體包括：

25、使用訓(xùn)練好的、由從所述誤喚醒訓(xùn)練數(shù)據(jù)集中提取的反映音頻內(nèi)容、環(huán)境狀況、用戶特性的特征訓(xùn)練而得的計(jì)算模型，計(jì)算當(dāng)前語音喚醒信號(hào)為有效喚醒指令的置信度得分。

26、本發(fā)明還提供一種車輛智能座艙語音喚醒模型的優(yōu)化裝置，包括：

27、采集模塊，用于根據(jù)語音誤喚醒數(shù)據(jù)采集觸發(fā)規(guī)則，采集用戶行為多模數(shù)據(jù)、座艙內(nèi)音頻數(shù)據(jù)和環(huán)境數(shù)據(jù)；

28、解析模塊，用于解析采集的數(shù)據(jù)，獲取與語音誤喚醒相關(guān)的結(jié)構(gòu)化數(shù)據(jù)；

29、提取模塊，用于從所述結(jié)構(gòu)化數(shù)據(jù)中提取與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù)；

30、分類模塊，用于對(duì)與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù)進(jìn)行分類，形成誤喚醒訓(xùn)練數(shù)據(jù)集；

31、優(yōu)化模塊，用于將誤喚醒訓(xùn)練數(shù)據(jù)集導(dǎo)入到語音喚醒模型中進(jìn)行迭代訓(xùn)練，以優(yōu)化所述語音喚醒模型。

32、本發(fā)明還提供一種車輛智能座艙語音喚醒模型的優(yōu)化裝置，包括：

33、一個(gè)或多個(gè)處理器；

34、存儲(chǔ)器；

35、一個(gè)或多個(gè)應(yīng)用程序，其中所述一個(gè)或多個(gè)應(yīng)用程序被存儲(chǔ)在所述存儲(chǔ)器中并被配置為由所述一個(gè)或多個(gè)處理器執(zhí)行，所述一個(gè)或多個(gè)應(yīng)用程序被配置用于執(zhí)行所述的車輛智能座艙語音喚醒模型的優(yōu)化方法。

36、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)指令，所述計(jì)算機(jī)指令指示計(jì)算機(jī)設(shè)備執(zhí)行所述方法對(duì)應(yīng)的操作。

37、實(shí)施本發(fā)明具有如下有益效果：本發(fā)明通過全面采集用戶行為、座艙內(nèi)音頻及環(huán)境等多模數(shù)據(jù)，為模型優(yōu)化提供了豐富的數(shù)據(jù)基礎(chǔ)；將誤喚醒數(shù)據(jù)作為反例導(dǎo)入模型進(jìn)行迭代訓(xùn)練，不僅優(yōu)化了模型算法，還顯著降低了誤喚醒率，提高了喚醒的精準(zhǔn)度。本發(fā)明使得語音喚醒模型能夠更好地適應(yīng)實(shí)際使用場景，減少不必要的干擾，為用戶帶來更加有針對(duì)性的語音交互體驗(yàn)，同時(shí)增強(qiáng)了模型的自我學(xué)習(xí)和持續(xù)優(yōu)化能力，為車輛智能座艙的智能化發(fā)展提供了有力支持。

技術(shù)特征：

1.一種車輛智能座艙語音喚醒模型的優(yōu)化方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)語音誤喚醒數(shù)據(jù)采集觸發(fā)規(guī)則，采集用戶行為多模數(shù)據(jù)、座艙內(nèi)音頻數(shù)據(jù)和環(huán)境數(shù)據(jù)，具體包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述適用于機(jī)器學(xué)習(xí)的結(jié)構(gòu)化數(shù)據(jù)具體包括用戶特征數(shù)據(jù)和喚醒環(huán)境數(shù)據(jù)。

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述從所述結(jié)構(gòu)化數(shù)據(jù)中提取與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù)，具體包括：

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述對(duì)與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù)進(jìn)行分類，形成誤喚醒訓(xùn)練數(shù)據(jù)集，具體包括：

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，還包括：

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述采用二級(jí)置信度算法計(jì)算當(dāng)前語音喚醒信號(hào)的二級(jí)置信度具體包括：

8.一種車輛智能座艙語音喚醒模型的優(yōu)化裝置，其特征在于，包括：

9.一種車輛智能座艙語音喚醒模型的優(yōu)化裝置，其特征在于，包括：

10.一種計(jì)算機(jī)程序產(chǎn)品，其特征在于，包括計(jì)算機(jī)指令，所述計(jì)算機(jī)指令指示計(jì)算機(jī)設(shè)備執(zhí)行如權(quán)利要求1至7任一項(xiàng)所述方法對(duì)應(yīng)的操作。

技術(shù)總結(jié)
本發(fā)明公開一種車輛智能座艙語音喚醒模型的優(yōu)化方法、裝置及計(jì)算機(jī)程序產(chǎn)品，其中，方法包括：根據(jù)語音誤喚醒數(shù)據(jù)采集觸發(fā)規(guī)則，采集用戶行為多模數(shù)據(jù)、座艙內(nèi)音頻數(shù)據(jù)和環(huán)境數(shù)據(jù)；解析采集的數(shù)據(jù)，獲取與語音誤喚醒相關(guān)的結(jié)構(gòu)化數(shù)據(jù)；從所述結(jié)構(gòu)化數(shù)據(jù)中提取與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù)；對(duì)與語音誤喚醒相關(guān)聯(lián)的數(shù)據(jù)進(jìn)行分類，形成誤喚醒訓(xùn)練數(shù)據(jù)集；將誤喚醒訓(xùn)練數(shù)據(jù)集導(dǎo)入到語音喚醒模型中進(jìn)行迭代訓(xùn)練，以優(yōu)化所述語音喚醒模型。本發(fā)明不僅有助于減少誤喚醒事件，顯著降低誤喚醒率；還使得語音喚醒模型能夠更好地適應(yīng)實(shí)際使用場景，減少不必要的干擾，為用戶帶來更加有針對(duì)性的語音交互體驗(yàn)，同時(shí)增強(qiáng)了模型的自我學(xué)習(xí)和持續(xù)優(yōu)化能力。

技術(shù)研發(fā)人員：汪晴,劉權(quán),梁穎琪,廖慶鋒,李志勇,付隨興
受保護(hù)的技術(shù)使用者：廣州汽車集團(tuán)股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/5/8

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：汪晴,劉權(quán),梁穎琪,廖慶鋒,李志勇,付隨興
技術(shù)所有人：廣州汽車集團(tuán)股份有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

一種車輛智能座艙語音喚醒模型的優(yōu)化方法、裝置及計(jì)算機(jī)程序產(chǎn)品與流程