一種語(yǔ)音實(shí)時(shí)識(shí)別方法、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：41838337發(fā)布日期：2025-05-09 12:14閱讀：11來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種語(yǔ)音實(shí)時(shí)識(shí)別方法、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

本申請(qǐng)屬于語(yǔ)音處理，特別涉及一種語(yǔ)音實(shí)時(shí)識(shí)別方法、電子設(shè)備及存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、語(yǔ)音識(shí)別(asr,automatic?speech?recognition)技術(shù)已經(jīng)在智能助手、會(huì)議記錄、字幕生成等領(lǐng)域得到廣泛應(yīng)用?，F(xiàn)有的語(yǔ)音識(shí)別系統(tǒng)通常依賴深度學(xué)習(xí)模型，如transformer、lstm或cnn-lstm等，對(duì)音頻信號(hào)進(jìn)行特征提取和識(shí)別。這些系統(tǒng)在實(shí)現(xiàn)基本功能的同時(shí)，仍面臨一些關(guān)鍵技術(shù)挑戰(zhàn)，包括實(shí)時(shí)性、精確性及上下文處理。

2、大部分現(xiàn)有的語(yǔ)音識(shí)別技術(shù)采用滑動(dòng)時(shí)間窗口機(jī)制對(duì)連續(xù)音頻流進(jìn)行處理，將音頻信號(hào)分片后逐片輸入模型，生成實(shí)時(shí)文本結(jié)果。此外，在實(shí)時(shí)交互的應(yīng)用中，如醫(yī)療場(chǎng)景中醫(yī)生對(duì)語(yǔ)音轉(zhuǎn)文字不僅要求低延遲，而且對(duì)轉(zhuǎn)錄的精確度也有很高的要求。目前的滑動(dòng)時(shí)間窗口的識(shí)別方法無(wú)法滿足實(shí)時(shí)以及準(zhǔn)確的更高要求。

技術(shù)實(shí)現(xiàn)思路

1、為了解決所述現(xiàn)有技術(shù)的不足，本申請(qǐng)?zhí)峁┝艘环N語(yǔ)音實(shí)時(shí)識(shí)別方法、電子設(shè)備及存儲(chǔ)介質(zhì)，該方法可以解決現(xiàn)有技術(shù)中針對(duì)語(yǔ)音的滑動(dòng)時(shí)間窗口的識(shí)別方法無(wú)法滿足實(shí)時(shí)以及準(zhǔn)確的更高要求的技術(shù)問題。

2、本申請(qǐng)所要達(dá)到的技術(shù)效果通過以下方案實(shí)現(xiàn)：

3、第一方面，本申請(qǐng)?zhí)峁┮环N語(yǔ)音實(shí)時(shí)識(shí)別方法，包括：

4、從語(yǔ)音采集設(shè)備獲取實(shí)時(shí)的原始音頻數(shù)據(jù)流；

5、預(yù)處理模塊對(duì)所述原始音頻數(shù)據(jù)流進(jìn)行初步處理，獲得三個(gè)待處理音頻數(shù)據(jù)流；

6、利用語(yǔ)音模型對(duì)三個(gè)所述待處理音頻數(shù)據(jù)流進(jìn)行多層次實(shí)時(shí)識(shí)別，獲得識(shí)別結(jié)果；

7、基于所述識(shí)別結(jié)果獲得目標(biāo)文本；

8、將所述目標(biāo)文本通過輸出模塊展示給用戶。

9、在一些實(shí)施例中，所述預(yù)處理模塊對(duì)所述原始音頻數(shù)據(jù)流進(jìn)行初步處理，獲得三個(gè)待處理音頻數(shù)據(jù)流，包括：

10、將所述原始音頻數(shù)據(jù)流拷貝三份，其中每一份都單獨(dú)作為一個(gè)待處理音頻數(shù)據(jù)流，總共有三個(gè)待處理音頻數(shù)據(jù)流。

11、在一些實(shí)施例中，三個(gè)所述待處理音頻數(shù)據(jù)流分別為第一待處理數(shù)據(jù)流、第二待處理數(shù)據(jù)流和第三待處理數(shù)據(jù)流，所述第一待處理數(shù)據(jù)流中包括第一時(shí)長(zhǎng)音頻隊(duì)列，所述第二待處理數(shù)據(jù)流中包括第二時(shí)長(zhǎng)音頻隊(duì)列，所述第三待處理數(shù)據(jù)流中包括第三時(shí)長(zhǎng)音頻隊(duì)列；其中，第一時(shí)長(zhǎng)小于第二時(shí)長(zhǎng)，第二時(shí)長(zhǎng)小于第三時(shí)長(zhǎng)。

12、在一些實(shí)施例中，所述利用語(yǔ)音模型對(duì)三個(gè)所述待處理音頻數(shù)據(jù)流進(jìn)行多層次實(shí)時(shí)識(shí)別，獲得識(shí)別結(jié)果，包括：

13、利用語(yǔ)音模型對(duì)所述第一時(shí)長(zhǎng)音頻隊(duì)列進(jìn)行實(shí)時(shí)識(shí)別，獲得第一識(shí)別結(jié)果；

14、利用語(yǔ)音模型對(duì)所述第二時(shí)長(zhǎng)音頻隊(duì)列進(jìn)行實(shí)時(shí)識(shí)別，獲得第二識(shí)別結(jié)果；

15、利用語(yǔ)音模型對(duì)所述第一時(shí)長(zhǎng)音頻隊(duì)列進(jìn)行實(shí)時(shí)識(shí)別，獲得第三識(shí)別結(jié)果。

16、在一些實(shí)施例中，所述基于所述識(shí)別結(jié)果獲得目標(biāo)文本，包括：

17、利用所述第二識(shí)別結(jié)果對(duì)所述第一識(shí)別結(jié)果進(jìn)行調(diào)整，糾正所述第一識(shí)別結(jié)果中的錯(cuò)誤內(nèi)容，得到初步文本；

18、利用所述第三識(shí)別結(jié)果對(duì)所述初步文本進(jìn)行篩選和去重，獲得目標(biāo)文本。

19、在一些實(shí)施例中，所述第一時(shí)長(zhǎng)為3秒、第二時(shí)長(zhǎng)為9秒以及第三時(shí)長(zhǎng)為24秒；或者，

20、第一時(shí)長(zhǎng)、第二時(shí)長(zhǎng)以及第三時(shí)長(zhǎng)是動(dòng)態(tài)調(diào)整的。

21、在一些實(shí)施例中，所述語(yǔ)音采集設(shè)備包括麥克風(fēng)、錄音筆、usb麥克風(fēng)和智能手機(jī)中的任意一種。

22、在一些實(shí)施例中，所述語(yǔ)音模型包括whisper或者xtts-v2。

23、第二方面，本申請(qǐng)?zhí)峁┮环N電子設(shè)備，所述電子設(shè)備包括：存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)前述任一方法。

24、第三方面，本申請(qǐng)?zhí)峁┮环N計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序，所述一個(gè)或者多個(gè)程序可被一個(gè)或者多個(gè)處理器執(zhí)行，以實(shí)現(xiàn)前述任一方法。

25、通過本申請(qǐng)?zhí)峁┑恼Z(yǔ)音實(shí)時(shí)識(shí)別方法、電子設(shè)備及存儲(chǔ)介質(zhì)，結(jié)合分層識(shí)別的處理機(jī)制、結(jié)合動(dòng)態(tài)糾錯(cuò)算法及實(shí)時(shí)交互功能，進(jìn)而獲得實(shí)時(shí)且準(zhǔn)確的識(shí)別結(jié)果，能夠滿足復(fù)雜場(chǎng)景下的語(yǔ)音識(shí)別需求。

技術(shù)特征：

1.一種語(yǔ)音實(shí)時(shí)識(shí)別方法，其特征在于，包括：

2.如權(quán)利要求1所述的語(yǔ)音實(shí)時(shí)識(shí)別方法，其特征在于，所述預(yù)處理模塊對(duì)所述原始音頻數(shù)據(jù)流進(jìn)行初步處理，獲得三個(gè)待處理音頻數(shù)據(jù)流，包括：

3.如權(quán)利要求2所述的語(yǔ)音實(shí)時(shí)識(shí)別方法，其特征在于，三個(gè)所述待處理音頻數(shù)據(jù)流分別為第一待處理數(shù)據(jù)流、第二待處理數(shù)據(jù)流和第三待處理數(shù)據(jù)流，所述第一待處理數(shù)據(jù)流中包括第一時(shí)長(zhǎng)音頻隊(duì)列，所述第二待處理數(shù)據(jù)流中包括第二時(shí)長(zhǎng)音頻隊(duì)列，所述第三待處理數(shù)據(jù)流中包括第三時(shí)長(zhǎng)音頻隊(duì)列；其中，第一時(shí)長(zhǎng)小于第二時(shí)長(zhǎng)，第二時(shí)長(zhǎng)小于第三時(shí)長(zhǎng)。

4.如權(quán)利要求3所述的語(yǔ)音實(shí)時(shí)識(shí)別方法，其特征在于，所述利用語(yǔ)音模型對(duì)三個(gè)所述待處理音頻數(shù)據(jù)流進(jìn)行多層次實(shí)時(shí)識(shí)別，獲得識(shí)別結(jié)果，包括：

5.如權(quán)利要求4所述的語(yǔ)音實(shí)時(shí)識(shí)別方法，其特征在于，所述基于所述識(shí)別結(jié)果獲得目標(biāo)文本，包括：

6.如權(quán)利要求3或5所述的語(yǔ)音實(shí)時(shí)識(shí)別方法，其特征在于，所述第一時(shí)長(zhǎng)為3秒、第二時(shí)長(zhǎng)為9秒以及第三時(shí)長(zhǎng)為24秒；或者，

7.如權(quán)利要求1所述的語(yǔ)音實(shí)時(shí)識(shí)別方法，其特征在于，所述語(yǔ)音采集設(shè)備包括麥克風(fēng)、錄音筆、usb麥克風(fēng)和智能手機(jī)中的任意一種。

8.如權(quán)利要求6所述的語(yǔ)音實(shí)時(shí)識(shí)別方法，其特征在于，所述語(yǔ)音模型包括whisper或者xtts-v2。

9.一種電子設(shè)備，所述電子設(shè)備包括：存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至8中任意一項(xiàng)所述的方法。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序，所述一個(gè)或者多個(gè)程序可被一個(gè)或者多個(gè)處理器執(zhí)行，以實(shí)現(xiàn)如權(quán)利要求1至8任意一項(xiàng)所述的方法。

技術(shù)總結(jié)
本申請(qǐng)公開了一種語(yǔ)音實(shí)時(shí)識(shí)別方法、電子設(shè)備及存儲(chǔ)介質(zhì)，屬于語(yǔ)音處理技術(shù)領(lǐng)域，該方法：從語(yǔ)音采集設(shè)備獲取實(shí)時(shí)的原始音頻數(shù)據(jù)流；預(yù)處理模塊對(duì)原始音頻數(shù)據(jù)流進(jìn)行初步處理，獲得三個(gè)待處理音頻數(shù)據(jù)流；利用語(yǔ)音模型對(duì)三個(gè)所述待處理音頻數(shù)據(jù)流進(jìn)行多層次實(shí)時(shí)識(shí)別，獲得識(shí)別結(jié)果；基于所述識(shí)別結(jié)果獲得目標(biāo)文本；將所述目標(biāo)文本通過輸出模塊展示給用戶。本申請(qǐng)采用分層識(shí)別的處理機(jī)制、結(jié)合動(dòng)態(tài)糾錯(cuò)算法及實(shí)時(shí)交互功能，進(jìn)而獲得實(shí)時(shí)且準(zhǔn)確的識(shí)別結(jié)果，能夠滿足復(fù)雜場(chǎng)景下的語(yǔ)音識(shí)別需求。

技術(shù)研發(fā)人員：馬利軍,魯杭杭
受保護(hù)的技術(shù)使用者：北京同象千方科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/5/8

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馬利軍,魯杭杭
技術(shù)所有人：北京同象千方科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

一種語(yǔ)音實(shí)時(shí)識(shí)別方法、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

一種語(yǔ)音實(shí)時(shí)識(shí)別方法、電子設(shè)備及存儲(chǔ)介質(zhì)與流程