車載語音交互方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：41869989發(fā)布日期：2025-05-09 18:38閱讀：4來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音識(shí)別?，尤其涉及一種車載語音交互方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、隨著商用車智能化程度的提高，中控臺(tái)提供的功能日趨復(fù)雜，包括但不限于導(dǎo)航、音頻控制、空調(diào)調(diào)節(jié)、車況監(jiān)控等多種功能。當(dāng)前的商用車中控系統(tǒng)主要通過觸摸屏、按鈕或旋鈕操作來實(shí)現(xiàn)功能切換和設(shè)置。然而駕駛員在高速公路或長(zhǎng)途運(yùn)輸中，常需要對(duì)這些功能進(jìn)行頻繁的調(diào)整或查看。傳統(tǒng)的中控操作通常需要駕駛員低頭查看觸摸屏，或者通過旋鈕、按鈕等物理方式進(jìn)行調(diào)整，容易分散駕駛員的注意力。尤其是對(duì)于大型商用車司機(jī)而言，這種短暫的分神可能帶來嚴(yán)重的安全風(fēng)險(xiǎn)。

2、目前，語音控制技術(shù)已經(jīng)應(yīng)用于車載系統(tǒng)中。然而現(xiàn)有的語音控制功能多為基于預(yù)設(shè)的、固定的指令集，例如，駕駛員只能通過指定的指令形式來激活導(dǎo)航、播放音樂等功能，無法智能響應(yīng)當(dāng)前中控臺(tái)顯示的具體內(nèi)容。當(dāng)駕駛員需要在復(fù)雜的界面中找到特定的功能時(shí)，語音系統(tǒng)的響應(yīng)能力較為有限，語音交互的體驗(yàn)不佳，并且系統(tǒng)僅在執(zhí)行完指令后語音返回結(jié)果，駕駛員無法了解指令執(zhí)行過程。同時(shí)傳統(tǒng)的語音系統(tǒng)往往與特定系統(tǒng)的中控所綁定，不同的車型不同的品牌所預(yù)留的接口api一般不同，對(duì)于車企或者語音軟件開發(fā)公司來說，不同的車型不同的品牌往往意味著重新適配，而且后續(xù)新增軟件的語音控制功能或者指令往往需要通過軟件更新來完成，無法實(shí)時(shí)適應(yīng)用戶需求的變化。

3、因此，亟需一種車載語音交互方法以解決現(xiàn)有技術(shù)中控制指令固定、執(zhí)行過程不可見，以及語音控制功能適配性差的問題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種車載語音交互方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)，用以解決現(xiàn)有技術(shù)中語音控制的控制指令固定、執(zhí)行過程不可見，以及語音控制功能適配性差的缺陷。

2、本發(fā)明提供一種車載語音交互方法，包括如下步驟：

3、對(duì)中控界面進(jìn)行識(shí)別，得到所述中控界面的識(shí)別結(jié)果后，使用第一語義模型對(duì)所述識(shí)別結(jié)果進(jìn)行語義分析，得到第一語義識(shí)別結(jié)果，所述識(shí)別結(jié)果包括文本識(shí)別結(jié)果和圖標(biāo)識(shí)別結(jié)果；

4、對(duì)用戶語音進(jìn)行語音識(shí)別，得到語音識(shí)別結(jié)果后，使用第二語義模型對(duì)所述語音識(shí)別結(jié)果進(jìn)行解析，得到第二語義識(shí)別結(jié)果；

5、基于所述第一語義識(shí)別結(jié)果和所述第二語義識(shí)別結(jié)果，使用生成模型生成動(dòng)作指令；

6、執(zhí)行所述動(dòng)作指令，并在所述中控界面上顯示相應(yīng)動(dòng)作。

7、根據(jù)本發(fā)明提供的一種車載語音交互方法，所述對(duì)中控界面進(jìn)行識(shí)別，得到所述中控界面的識(shí)別結(jié)果，包括：

8、對(duì)所述中控界面的文字內(nèi)容進(jìn)行光學(xué)字符識(shí)別，得到文本識(shí)別結(jié)果，所述文本識(shí)別結(jié)果包括所述中控界面的文本內(nèi)容和所述文本內(nèi)容對(duì)應(yīng)的位置信息；

9、對(duì)所述中控界面的圖標(biāo)進(jìn)行識(shí)別，得到圖標(biāo)識(shí)別結(jié)果，所述圖標(biāo)識(shí)別結(jié)果包括所述中控界面的圖標(biāo)內(nèi)容和所述圖標(biāo)內(nèi)容對(duì)應(yīng)的位置信息。

10、根據(jù)本發(fā)明提供的一種車載語音交互方法，所述對(duì)所述識(shí)別結(jié)果進(jìn)行語義分析，得到第一語義識(shí)別結(jié)果，包括：

11、對(duì)所述文本識(shí)別結(jié)果和所述圖標(biāo)識(shí)別結(jié)果進(jìn)行語義分析，得到所述文本識(shí)別結(jié)果中各文本的類別，以及所述圖標(biāo)識(shí)別結(jié)果中各圖標(biāo)的類別；

12、基于各所述文本的類別和各所述圖標(biāo)的類別，將所述中控界面劃分為多個(gè)模塊，各所述模塊用于實(shí)現(xiàn)不同的功能；

13、為各所述模塊分別生成功能標(biāo)簽。

14、根據(jù)本發(fā)明提供的一種車載語音交互方法，在所述執(zhí)行所述動(dòng)作指令，并在所述中控界面上顯示相應(yīng)動(dòng)作之后，還包括：

15、基于相關(guān)模塊在所述動(dòng)作指令執(zhí)行前后的變化情況，確定所述動(dòng)作指令的執(zhí)行結(jié)果，所述執(zhí)行結(jié)果表征所述動(dòng)作指令是否成功執(zhí)行；

16、基于所述執(zhí)行結(jié)果，進(jìn)行語音播報(bào)。

17、根據(jù)本發(fā)明提供的一種車載語音交互方法，所述車載語音交互方法還包括：

18、若所述執(zhí)行結(jié)果表征所述動(dòng)作指令執(zhí)行失敗，則記錄用戶的操作信息；

19、基于所述操作信息對(duì)所述第一語義模型、所述第二語義模型和所述生成模型進(jìn)行優(yōu)化。

20、根據(jù)本發(fā)明提供的一種車載語音交互方法，所述動(dòng)作指令包括移動(dòng)光標(biāo)、點(diǎn)擊、雙擊、滑動(dòng)、放大和縮小中的至少一種。

21、本發(fā)明還提供一種車載語音交互裝置，包括如下模塊：

22、第一識(shí)別模塊，用于：對(duì)中控界面進(jìn)行識(shí)別，得到所述中控界面的識(shí)別結(jié)果后，使用第一語義模型對(duì)所述識(shí)別結(jié)果進(jìn)行語義分析，得到第一語義識(shí)別結(jié)果，所述識(shí)別結(jié)果包括文本識(shí)別結(jié)果和圖標(biāo)識(shí)別結(jié)果；

23、第二識(shí)別模塊，用于：對(duì)用戶語音進(jìn)行語音識(shí)別，得到語音識(shí)別結(jié)果后，使用第二語義模型對(duì)所述語音識(shí)別結(jié)果進(jìn)行解析，得到第二語義識(shí)別結(jié)果；

24、指令生成模塊，用于：基于所述第一語義識(shí)別結(jié)果和所述第二語義識(shí)別結(jié)果，使用生成模型生成動(dòng)作指令；

25、指令執(zhí)行模塊，用于：執(zhí)行所述動(dòng)作指令，并在所述中控界面上顯示相應(yīng)動(dòng)作。

26、本發(fā)明還提供一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一種所述車載語音交互方法。

27、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述車載語音交互方法。

28、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述車載語音交互方法。

29、本發(fā)明提供的車載語音交互方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)，對(duì)中控界面進(jìn)行識(shí)別，得到所述中控界面的識(shí)別結(jié)果后，使用第一語義模型對(duì)所述識(shí)別結(jié)果進(jìn)行語義分析，得到第一語義識(shí)別結(jié)果，所述識(shí)別結(jié)果包括文本識(shí)別結(jié)果和圖標(biāo)識(shí)別結(jié)果；對(duì)用戶語音進(jìn)行語音識(shí)別，得到語音識(shí)別結(jié)果后，使用第二語義模型對(duì)所述語音識(shí)別結(jié)果進(jìn)行解析，得到第二語義識(shí)別結(jié)果；基于所述第一語義識(shí)別結(jié)果和所述第二語義識(shí)別結(jié)果，使用生成模型生成動(dòng)作指令；執(zhí)行所述動(dòng)作指令，并在所述中控界面上顯示相應(yīng)動(dòng)作。本發(fā)明對(duì)中控界面的內(nèi)容進(jìn)行識(shí)別與語義分析，從而可以直接從中控界面的截圖中提取出文本內(nèi)容和圖標(biāo)，在對(duì)用戶的語音識(shí)別、解析之后，即可結(jié)合兩者生成動(dòng)作指令，一方面，無需用戶通過特定指令進(jìn)行語音交互，系統(tǒng)可以對(duì)用戶語音進(jìn)行解析，獲取其意圖，進(jìn)而生成控制指令，提高語音交互的靈活性，提升用戶使用體驗(yàn)，另一方面，通過語義分析的方式生成動(dòng)作指令，適用于任意品牌、任意車型，無需針對(duì)不同的車型、不同的品牌設(shè)計(jì)接口api，提高了車載語音交互系統(tǒng)的適配性；此外，在執(zhí)行動(dòng)作指令時(shí)，在中控界面上顯示相應(yīng)的動(dòng)作，使得用戶可以通過中控屏幕了解指令的執(zhí)行過程，可以實(shí)時(shí)確認(rèn)系統(tǒng)是否操作正確，減少誤操作的風(fēng)險(xiǎn)。

技術(shù)特征：

1.一種車載語音交互方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的車載語音交互方法，其特征在于，所述對(duì)中控界面進(jìn)行識(shí)別，得到所述中控界面的識(shí)別結(jié)果，包括：

3.根據(jù)權(quán)利要求2所述的車載語音交互方法，其特征在于，所述對(duì)所述識(shí)別結(jié)果進(jìn)行語義分析，得到第一語義識(shí)別結(jié)果，包括：

4.根據(jù)權(quán)利要求3所述的車載語音交互方法，其特征在于，在所述執(zhí)行所述動(dòng)作指令，并在所述中控界面上顯示相應(yīng)動(dòng)作之后，還包括：

5.根據(jù)權(quán)利要求4所述的車載語音交互方法，其特征在于，所述車載語音交互方法還包括：

6.根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的車載語音交互方法，其特征在于，所述動(dòng)作指令包括移動(dòng)光標(biāo)、點(diǎn)擊、雙擊、滑動(dòng)、放大和縮小中的至少一種。

7.一種車載語音交互裝置，其特征在于，包括：

8.一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并在所述處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述車載語音交互方法。

9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述車載語音交互方法。

10.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述車載語音交互方法。

技術(shù)總結(jié)
本發(fā)明提供一種車載語音交互方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)，屬于語音識(shí)別技術(shù)領(lǐng)域，所述方法包括：對(duì)中控界面進(jìn)行識(shí)別，得到所述中控界面的識(shí)別結(jié)果后，使用第一語義模型對(duì)所述識(shí)別結(jié)果進(jìn)行語義分析，得到第一語義識(shí)別結(jié)果，所述識(shí)別結(jié)果包括文本識(shí)別結(jié)果和圖標(biāo)識(shí)別結(jié)果；對(duì)用戶語音進(jìn)行語音識(shí)別，得到語音識(shí)別結(jié)果后，使用第二語義模型對(duì)所述語音識(shí)別結(jié)果進(jìn)行解析，得到第二語義識(shí)別結(jié)果；基于所述第一語義識(shí)別結(jié)果和所述第二語義識(shí)別結(jié)果，使用生成模型生成動(dòng)作指令；執(zhí)行所述動(dòng)作指令，并在所述中控界面上顯示相應(yīng)動(dòng)作。本發(fā)明提供的車載語音交互方法可以提高語音交互的靈活性，提升用戶使用體驗(yàn)，并且適用于任意品牌、任意車型。

技術(shù)研發(fā)人員：楊宵,杜靜雯,馮奕杰,魏敬珂,張浩,王澤釗
受保護(hù)的技術(shù)使用者：中國重汽集團(tuán)濟(jì)南動(dòng)力有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/5/8

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊宵,杜靜雯,馮奕杰,魏敬珂,張浩,王澤釗
技術(shù)所有人：中國重汽集團(tuán)濟(jì)南動(dòng)力有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

車載語音交互方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

車載語音交互方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程