本發(fā)明涉及語音識(shí)別?,尤其涉及一種車載語音交互方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著商用車智能化程度的提高,中控臺(tái)提供的功能日趨復(fù)雜,包括但不限于導(dǎo)航、音頻控制、空調(diào)調(diào)節(jié)、車況監(jiān)控等多種功能。當(dāng)前的商用車中控系統(tǒng)主要通過觸摸屏、按鈕或旋鈕操作來實(shí)現(xiàn)功能切換和設(shè)置。然而駕駛員在高速公路或長(zhǎng)途運(yùn)輸中,常需要對(duì)這些功能進(jìn)行頻繁的調(diào)整或查看。傳統(tǒng)的中控操作通常需要駕駛員低頭查看觸摸屏,或者通過旋鈕、按鈕等物理方式進(jìn)行調(diào)整,容易分散駕駛員的注意力。尤其是對(duì)于大型商用車司機(jī)而言,這種短暫的分神可能帶來嚴(yán)重的安全風(fēng)險(xiǎn)。
2、目前,語音控制技術(shù)已經(jīng)應(yīng)用于車載系統(tǒng)中。然而現(xiàn)有的語音控制功能多為基于預(yù)設(shè)的、固定的指令集,例如,駕駛員只能通過指定的指令形式來激活導(dǎo)航、播放音樂等功能,無法智能響應(yīng)當(dāng)前中控臺(tái)顯示的具體內(nèi)容。當(dāng)駕駛員需要在復(fù)雜的界面中找到特定的功能時(shí),語音系統(tǒng)的響應(yīng)能力較為有限,語音交互的體驗(yàn)不佳,并且系統(tǒng)僅在執(zhí)行完指令后語音返回結(jié)果,駕駛員無法了解指令執(zhí)行過程。同時(shí)傳統(tǒng)的語音系統(tǒng)往往與特定系統(tǒng)的中控所綁定,不同的車型不同的品牌所預(yù)留的接口api一般不同,對(duì)于車企或者語音軟件開發(fā)公司來說,不同的車型不同的品牌往往意味著重新適配,而且后續(xù)新增軟件的語音控制功能或者指令往往需要通過軟件更新來完成,無法實(shí)時(shí)適應(yīng)用戶需求的變化。
3、因此,亟需一種車載語音交互方法以解決現(xiàn)有技術(shù)中控制指令固定、執(zhí)行過程不可見,以及語音控制功能適配性差的問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種車載語音交互方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),用以解決現(xiàn)有技術(shù)中語音控制的控制指令固定、執(zhí)行過程不可見,以及語音控制功能適配性差的缺陷。
2、本發(fā)明提供一種車載語音交互方法,包括如下步驟:
3、對(duì)中控界面進(jìn)行識(shí)別,得到所述中控界面的識(shí)別結(jié)果后,使用第一語義模型對(duì)所述識(shí)別結(jié)果進(jìn)行語義分析,得到第一語義識(shí)別結(jié)果,所述識(shí)別結(jié)果包括文本識(shí)別結(jié)果和圖標(biāo)識(shí)別結(jié)果;
4、對(duì)用戶語音進(jìn)行語音識(shí)別,得到語音識(shí)別結(jié)果后,使用第二語義模型對(duì)所述語音識(shí)別結(jié)果進(jìn)行解析,得到第二語義識(shí)別結(jié)果;
5、基于所述第一語義識(shí)別結(jié)果和所述第二語義識(shí)別結(jié)果,使用生成模型生成動(dòng)作指令;
6、執(zhí)行所述動(dòng)作指令,并在所述中控界面上顯示相應(yīng)動(dòng)作。
7、根據(jù)本發(fā)明提供的一種車載語音交互方法,所述對(duì)中控界面進(jìn)行識(shí)別,得到所述中控界面的識(shí)別結(jié)果,包括:
8、對(duì)所述中控界面的文字內(nèi)容進(jìn)行光學(xué)字符識(shí)別,得到文本識(shí)別結(jié)果,所述文本識(shí)別結(jié)果包括所述中控界面的文本內(nèi)容和所述文本內(nèi)容對(duì)應(yīng)的位置信息;
9、對(duì)所述中控界面的圖標(biāo)進(jìn)行識(shí)別,得到圖標(biāo)識(shí)別結(jié)果,所述圖標(biāo)識(shí)別結(jié)果包括所述中控界面的圖標(biāo)內(nèi)容和所述圖標(biāo)內(nèi)容對(duì)應(yīng)的位置信息。
10、根據(jù)本發(fā)明提供的一種車載語音交互方法,所述對(duì)所述識(shí)別結(jié)果進(jìn)行語義分析,得到第一語義識(shí)別結(jié)果,包括:
11、對(duì)所述文本識(shí)別結(jié)果和所述圖標(biāo)識(shí)別結(jié)果進(jìn)行語義分析,得到所述文本識(shí)別結(jié)果中各文本的類別,以及所述圖標(biāo)識(shí)別結(jié)果中各圖標(biāo)的類別;
12、基于各所述文本的類別和各所述圖標(biāo)的類別,將所述中控界面劃分為多個(gè)模塊,各所述模塊用于實(shí)現(xiàn)不同的功能;
13、為各所述模塊分別生成功能標(biāo)簽。
14、根據(jù)本發(fā)明提供的一種車載語音交互方法,在所述執(zhí)行所述動(dòng)作指令,并在所述中控界面上顯示相應(yīng)動(dòng)作之后,還包括:
15、基于相關(guān)模塊在所述動(dòng)作指令執(zhí)行前后的變化情況,確定所述動(dòng)作指令的執(zhí)行結(jié)果,所述執(zhí)行結(jié)果表征所述動(dòng)作指令是否成功執(zhí)行;
16、基于所述執(zhí)行結(jié)果,進(jìn)行語音播報(bào)。
17、根據(jù)本發(fā)明提供的一種車載語音交互方法,所述車載語音交互方法還包括:
18、若所述執(zhí)行結(jié)果表征所述動(dòng)作指令執(zhí)行失敗,則記錄用戶的操作信息;
19、基于所述操作信息對(duì)所述第一語義模型、所述第二語義模型和所述生成模型進(jìn)行優(yōu)化。
20、根據(jù)本發(fā)明提供的一種車載語音交互方法,所述動(dòng)作指令包括移動(dòng)光標(biāo)、點(diǎn)擊、雙擊、滑動(dòng)、放大和縮小中的至少一種。
21、本發(fā)明還提供一種車載語音交互裝置,包括如下模塊:
22、第一識(shí)別模塊,用于:對(duì)中控界面進(jìn)行識(shí)別,得到所述中控界面的識(shí)別結(jié)果后,使用第一語義模型對(duì)所述識(shí)別結(jié)果進(jìn)行語義分析,得到第一語義識(shí)別結(jié)果,所述識(shí)別結(jié)果包括文本識(shí)別結(jié)果和圖標(biāo)識(shí)別結(jié)果;
23、第二識(shí)別模塊,用于:對(duì)用戶語音進(jìn)行語音識(shí)別,得到語音識(shí)別結(jié)果后,使用第二語義模型對(duì)所述語音識(shí)別結(jié)果進(jìn)行解析,得到第二語義識(shí)別結(jié)果;
24、指令生成模塊,用于:基于所述第一語義識(shí)別結(jié)果和所述第二語義識(shí)別結(jié)果,使用生成模型生成動(dòng)作指令;
25、指令執(zhí)行模塊,用于:執(zhí)行所述動(dòng)作指令,并在所述中控界面上顯示相應(yīng)動(dòng)作。
26、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一種所述車載語音交互方法。
27、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述車載語音交互方法。
28、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述車載語音交互方法。
29、本發(fā)明提供的車載語音交互方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),對(duì)中控界面進(jìn)行識(shí)別,得到所述中控界面的識(shí)別結(jié)果后,使用第一語義模型對(duì)所述識(shí)別結(jié)果進(jìn)行語義分析,得到第一語義識(shí)別結(jié)果,所述識(shí)別結(jié)果包括文本識(shí)別結(jié)果和圖標(biāo)識(shí)別結(jié)果;對(duì)用戶語音進(jìn)行語音識(shí)別,得到語音識(shí)別結(jié)果后,使用第二語義模型對(duì)所述語音識(shí)別結(jié)果進(jìn)行解析,得到第二語義識(shí)別結(jié)果;基于所述第一語義識(shí)別結(jié)果和所述第二語義識(shí)別結(jié)果,使用生成模型生成動(dòng)作指令;執(zhí)行所述動(dòng)作指令,并在所述中控界面上顯示相應(yīng)動(dòng)作。本發(fā)明對(duì)中控界面的內(nèi)容進(jìn)行識(shí)別與語義分析,從而可以直接從中控界面的截圖中提取出文本內(nèi)容和圖標(biāo),在對(duì)用戶的語音識(shí)別、解析之后,即可結(jié)合兩者生成動(dòng)作指令,一方面,無需用戶通過特定指令進(jìn)行語音交互,系統(tǒng)可以對(duì)用戶語音進(jìn)行解析,獲取其意圖,進(jìn)而生成控制指令,提高語音交互的靈活性,提升用戶使用體驗(yàn),另一方面,通過語義分析的方式生成動(dòng)作指令,適用于任意品牌、任意車型,無需針對(duì)不同的車型、不同的品牌設(shè)計(jì)接口api,提高了車載語音交互系統(tǒng)的適配性;此外,在執(zhí)行動(dòng)作指令時(shí),在中控界面上顯示相應(yīng)的動(dòng)作,使得用戶可以通過中控屏幕了解指令的執(zhí)行過程,可以實(shí)時(shí)確認(rèn)系統(tǒng)是否操作正確,減少誤操作的風(fēng)險(xiǎn)。
1.一種車載語音交互方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的車載語音交互方法,其特征在于,所述對(duì)中控界面進(jìn)行識(shí)別,得到所述中控界面的識(shí)別結(jié)果,包括:
3.根據(jù)權(quán)利要求2所述的車載語音交互方法,其特征在于,所述對(duì)所述識(shí)別結(jié)果進(jìn)行語義分析,得到第一語義識(shí)別結(jié)果,包括:
4.根據(jù)權(quán)利要求3所述的車載語音交互方法,其特征在于,在所述執(zhí)行所述動(dòng)作指令,并在所述中控界面上顯示相應(yīng)動(dòng)作之后,還包括:
5.根據(jù)權(quán)利要求4所述的車載語音交互方法,其特征在于,所述車載語音交互方法還包括:
6.根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的車載語音交互方法,其特征在于,所述動(dòng)作指令包括移動(dòng)光標(biāo)、點(diǎn)擊、雙擊、滑動(dòng)、放大和縮小中的至少一種。
7.一種車載語音交互裝置,其特征在于,包括:
8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述車載語音交互方法。
9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述車載語音交互方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述車載語音交互方法。