成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

一種語(yǔ)音實(shí)時(shí)識(shí)別方法、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):41838337發(fā)布日期:2025-05-09 12:14閱讀:11來(lái)源:國(guó)知局
一種語(yǔ)音實(shí)時(shí)識(shí)別方法、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

本申請(qǐng)屬于語(yǔ)音處理,特別涉及一種語(yǔ)音實(shí)時(shí)識(shí)別方法、電子設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、語(yǔ)音識(shí)別(asr,automatic?speech?recognition)技術(shù)已經(jīng)在智能助手、會(huì)議記錄、字幕生成等領(lǐng)域得到廣泛應(yīng)用?,F(xiàn)有的語(yǔ)音識(shí)別系統(tǒng)通常依賴深度學(xué)習(xí)模型,如transformer、lstm或cnn-lstm等,對(duì)音頻信號(hào)進(jìn)行特征提取和識(shí)別。這些系統(tǒng)在實(shí)現(xiàn)基本功能的同時(shí),仍面臨一些關(guān)鍵技術(shù)挑戰(zhàn),包括實(shí)時(shí)性、精確性及上下文處理。

2、大部分現(xiàn)有的語(yǔ)音識(shí)別技術(shù)采用滑動(dòng)時(shí)間窗口機(jī)制對(duì)連續(xù)音頻流進(jìn)行處理,將音頻信號(hào)分片后逐片輸入模型,生成實(shí)時(shí)文本結(jié)果。此外,在實(shí)時(shí)交互的應(yīng)用中,如醫(yī)療場(chǎng)景中醫(yī)生對(duì)語(yǔ)音轉(zhuǎn)文字不僅要求低延遲,而且對(duì)轉(zhuǎn)錄的精確度也有很高的要求。目前的滑動(dòng)時(shí)間窗口的識(shí)別方法無(wú)法滿足實(shí)時(shí)以及準(zhǔn)確的更高要求。


技術(shù)實(shí)現(xiàn)思路

1、為了解決所述現(xiàn)有技術(shù)的不足,本申請(qǐng)?zhí)峁┝艘环N語(yǔ)音實(shí)時(shí)識(shí)別方法、電子設(shè)備及存儲(chǔ)介質(zhì),該方法可以解決現(xiàn)有技術(shù)中針對(duì)語(yǔ)音的滑動(dòng)時(shí)間窗口的識(shí)別方法無(wú)法滿足實(shí)時(shí)以及準(zhǔn)確的更高要求的技術(shù)問題。

2、本申請(qǐng)所要達(dá)到的技術(shù)效果通過以下方案實(shí)現(xiàn):

3、第一方面,本申請(qǐng)?zhí)峁┮环N語(yǔ)音實(shí)時(shí)識(shí)別方法,包括:

4、從語(yǔ)音采集設(shè)備獲取實(shí)時(shí)的原始音頻數(shù)據(jù)流;

5、預(yù)處理模塊對(duì)所述原始音頻數(shù)據(jù)流進(jìn)行初步處理,獲得三個(gè)待處理音頻數(shù)據(jù)流;

6、利用語(yǔ)音模型對(duì)三個(gè)所述待處理音頻數(shù)據(jù)流進(jìn)行多層次實(shí)時(shí)識(shí)別,獲得識(shí)別結(jié)果;

7、基于所述識(shí)別結(jié)果獲得目標(biāo)文本;

8、將所述目標(biāo)文本通過輸出模塊展示給用戶。

9、在一些實(shí)施例中,所述預(yù)處理模塊對(duì)所述原始音頻數(shù)據(jù)流進(jìn)行初步處理,獲得三個(gè)待處理音頻數(shù)據(jù)流,包括:

10、將所述原始音頻數(shù)據(jù)流拷貝三份,其中每一份都單獨(dú)作為一個(gè)待處理音頻數(shù)據(jù)流,總共有三個(gè)待處理音頻數(shù)據(jù)流。

11、在一些實(shí)施例中,三個(gè)所述待處理音頻數(shù)據(jù)流分別為第一待處理數(shù)據(jù)流、第二待處理數(shù)據(jù)流和第三待處理數(shù)據(jù)流,所述第一待處理數(shù)據(jù)流中包括第一時(shí)長(zhǎng)音頻隊(duì)列,所述第二待處理數(shù)據(jù)流中包括第二時(shí)長(zhǎng)音頻隊(duì)列,所述第三待處理數(shù)據(jù)流中包括第三時(shí)長(zhǎng)音頻隊(duì)列;其中,第一時(shí)長(zhǎng)小于第二時(shí)長(zhǎng),第二時(shí)長(zhǎng)小于第三時(shí)長(zhǎng)。

12、在一些實(shí)施例中,所述利用語(yǔ)音模型對(duì)三個(gè)所述待處理音頻數(shù)據(jù)流進(jìn)行多層次實(shí)時(shí)識(shí)別,獲得識(shí)別結(jié)果,包括:

13、利用語(yǔ)音模型對(duì)所述第一時(shí)長(zhǎng)音頻隊(duì)列進(jìn)行實(shí)時(shí)識(shí)別,獲得第一識(shí)別結(jié)果;

14、利用語(yǔ)音模型對(duì)所述第二時(shí)長(zhǎng)音頻隊(duì)列進(jìn)行實(shí)時(shí)識(shí)別,獲得第二識(shí)別結(jié)果;

15、利用語(yǔ)音模型對(duì)所述第一時(shí)長(zhǎng)音頻隊(duì)列進(jìn)行實(shí)時(shí)識(shí)別,獲得第三識(shí)別結(jié)果。

16、在一些實(shí)施例中,所述基于所述識(shí)別結(jié)果獲得目標(biāo)文本,包括:

17、利用所述第二識(shí)別結(jié)果對(duì)所述第一識(shí)別結(jié)果進(jìn)行調(diào)整,糾正所述第一識(shí)別結(jié)果中的錯(cuò)誤內(nèi)容,得到初步文本;

18、利用所述第三識(shí)別結(jié)果對(duì)所述初步文本進(jìn)行篩選和去重,獲得目標(biāo)文本。

19、在一些實(shí)施例中,所述第一時(shí)長(zhǎng)為3秒、第二時(shí)長(zhǎng)為9秒以及第三時(shí)長(zhǎng)為24秒;或者,

20、第一時(shí)長(zhǎng)、第二時(shí)長(zhǎng)以及第三時(shí)長(zhǎng)是動(dòng)態(tài)調(diào)整的。

21、在一些實(shí)施例中,所述語(yǔ)音采集設(shè)備包括麥克風(fēng)、錄音筆、usb麥克風(fēng)和智能手機(jī)中的任意一種。

22、在一些實(shí)施例中,所述語(yǔ)音模型包括whisper或者xtts-v2。

23、第二方面,本申請(qǐng)?zhí)峁┮环N電子設(shè)備,所述電子設(shè)備包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)前述任一方法。

24、第三方面,本申請(qǐng)?zhí)峁┮环N計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序,所述一個(gè)或者多個(gè)程序可被一個(gè)或者多個(gè)處理器執(zhí)行,以實(shí)現(xiàn)前述任一方法。

25、通過本申請(qǐng)?zhí)峁┑恼Z(yǔ)音實(shí)時(shí)識(shí)別方法、電子設(shè)備及存儲(chǔ)介質(zhì),結(jié)合分層識(shí)別的處理機(jī)制、結(jié)合動(dòng)態(tài)糾錯(cuò)算法及實(shí)時(shí)交互功能,進(jìn)而獲得實(shí)時(shí)且準(zhǔn)確的識(shí)別結(jié)果,能夠滿足復(fù)雜場(chǎng)景下的語(yǔ)音識(shí)別需求。



技術(shù)特征:

1.一種語(yǔ)音實(shí)時(shí)識(shí)別方法,其特征在于,包括:

2.如權(quán)利要求1所述的語(yǔ)音實(shí)時(shí)識(shí)別方法,其特征在于,所述預(yù)處理模塊對(duì)所述原始音頻數(shù)據(jù)流進(jìn)行初步處理,獲得三個(gè)待處理音頻數(shù)據(jù)流,包括:

3.如權(quán)利要求2所述的語(yǔ)音實(shí)時(shí)識(shí)別方法,其特征在于,三個(gè)所述待處理音頻數(shù)據(jù)流分別為第一待處理數(shù)據(jù)流、第二待處理數(shù)據(jù)流和第三待處理數(shù)據(jù)流,所述第一待處理數(shù)據(jù)流中包括第一時(shí)長(zhǎng)音頻隊(duì)列,所述第二待處理數(shù)據(jù)流中包括第二時(shí)長(zhǎng)音頻隊(duì)列,所述第三待處理數(shù)據(jù)流中包括第三時(shí)長(zhǎng)音頻隊(duì)列;其中,第一時(shí)長(zhǎng)小于第二時(shí)長(zhǎng),第二時(shí)長(zhǎng)小于第三時(shí)長(zhǎng)。

4.如權(quán)利要求3所述的語(yǔ)音實(shí)時(shí)識(shí)別方法,其特征在于,所述利用語(yǔ)音模型對(duì)三個(gè)所述待處理音頻數(shù)據(jù)流進(jìn)行多層次實(shí)時(shí)識(shí)別,獲得識(shí)別結(jié)果,包括:

5.如權(quán)利要求4所述的語(yǔ)音實(shí)時(shí)識(shí)別方法,其特征在于,所述基于所述識(shí)別結(jié)果獲得目標(biāo)文本,包括:

6.如權(quán)利要求3或5所述的語(yǔ)音實(shí)時(shí)識(shí)別方法,其特征在于,所述第一時(shí)長(zhǎng)為3秒、第二時(shí)長(zhǎng)為9秒以及第三時(shí)長(zhǎng)為24秒;或者,

7.如權(quán)利要求1所述的語(yǔ)音實(shí)時(shí)識(shí)別方法,其特征在于,所述語(yǔ)音采集設(shè)備包括麥克風(fēng)、錄音筆、usb麥克風(fēng)和智能手機(jī)中的任意一種。

8.如權(quán)利要求6所述的語(yǔ)音實(shí)時(shí)識(shí)別方法,其特征在于,所述語(yǔ)音模型包括whisper或者xtts-v2。

9.一種電子設(shè)備,所述電子設(shè)備包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至8中任意一項(xiàng)所述的方法。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序,所述一個(gè)或者多個(gè)程序可被一個(gè)或者多個(gè)處理器執(zhí)行,以實(shí)現(xiàn)如權(quán)利要求1至8任意一項(xiàng)所述的方法。


技術(shù)總結(jié)
本申請(qǐng)公開了一種語(yǔ)音實(shí)時(shí)識(shí)別方法、電子設(shè)備及存儲(chǔ)介質(zhì),屬于語(yǔ)音處理技術(shù)領(lǐng)域,該方法:從語(yǔ)音采集設(shè)備獲取實(shí)時(shí)的原始音頻數(shù)據(jù)流;預(yù)處理模塊對(duì)原始音頻數(shù)據(jù)流進(jìn)行初步處理,獲得三個(gè)待處理音頻數(shù)據(jù)流;利用語(yǔ)音模型對(duì)三個(gè)所述待處理音頻數(shù)據(jù)流進(jìn)行多層次實(shí)時(shí)識(shí)別,獲得識(shí)別結(jié)果;基于所述識(shí)別結(jié)果獲得目標(biāo)文本;將所述目標(biāo)文本通過輸出模塊展示給用戶。本申請(qǐng)采用分層識(shí)別的處理機(jī)制、結(jié)合動(dòng)態(tài)糾錯(cuò)算法及實(shí)時(shí)交互功能,進(jìn)而獲得實(shí)時(shí)且準(zhǔn)確的識(shí)別結(jié)果,能夠滿足復(fù)雜場(chǎng)景下的語(yǔ)音識(shí)別需求。

技術(shù)研發(fā)人員:馬利軍,魯杭杭
受保護(hù)的技術(shù)使用者:北京同象千方科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/8
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1