本申請(qǐng)屬于語(yǔ)音處理,特別涉及一種語(yǔ)音實(shí)時(shí)識(shí)別方法、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、語(yǔ)音識(shí)別(asr,automatic?speech?recognition)技術(shù)已經(jīng)在智能助手、會(huì)議記錄、字幕生成等領(lǐng)域得到廣泛應(yīng)用?,F(xiàn)有的語(yǔ)音識(shí)別系統(tǒng)通常依賴深度學(xué)習(xí)模型,如transformer、lstm或cnn-lstm等,對(duì)音頻信號(hào)進(jìn)行特征提取和識(shí)別。這些系統(tǒng)在實(shí)現(xiàn)基本功能的同時(shí),仍面臨一些關(guān)鍵技術(shù)挑戰(zhàn),包括實(shí)時(shí)性、精確性及上下文處理。
2、大部分現(xiàn)有的語(yǔ)音識(shí)別技術(shù)采用滑動(dòng)時(shí)間窗口機(jī)制對(duì)連續(xù)音頻流進(jìn)行處理,將音頻信號(hào)分片后逐片輸入模型,生成實(shí)時(shí)文本結(jié)果。此外,在實(shí)時(shí)交互的應(yīng)用中,如醫(yī)療場(chǎng)景中醫(yī)生對(duì)語(yǔ)音轉(zhuǎn)文字不僅要求低延遲,而且對(duì)轉(zhuǎn)錄的精確度也有很高的要求。目前的滑動(dòng)時(shí)間窗口的識(shí)別方法無(wú)法滿足實(shí)時(shí)以及準(zhǔn)確的更高要求。
技術(shù)實(shí)現(xiàn)思路
1、為了解決所述現(xiàn)有技術(shù)的不足,本申請(qǐng)?zhí)峁┝艘环N語(yǔ)音實(shí)時(shí)識(shí)別方法、電子設(shè)備及存儲(chǔ)介質(zhì),該方法可以解決現(xiàn)有技術(shù)中針對(duì)語(yǔ)音的滑動(dòng)時(shí)間窗口的識(shí)別方法無(wú)法滿足實(shí)時(shí)以及準(zhǔn)確的更高要求的技術(shù)問題。
2、本申請(qǐng)所要達(dá)到的技術(shù)效果通過以下方案實(shí)現(xiàn):
3、第一方面,本申請(qǐng)?zhí)峁┮环N語(yǔ)音實(shí)時(shí)識(shí)別方法,包括:
4、從語(yǔ)音采集設(shè)備獲取實(shí)時(shí)的原始音頻數(shù)據(jù)流;
5、預(yù)處理模塊對(duì)所述原始音頻數(shù)據(jù)流進(jìn)行初步處理,獲得三個(gè)待處理音頻數(shù)據(jù)流;
6、利用語(yǔ)音模型對(duì)三個(gè)所述待處理音頻數(shù)據(jù)流進(jìn)行多層次實(shí)時(shí)識(shí)別,獲得識(shí)別結(jié)果;
7、基于所述識(shí)別結(jié)果獲得目標(biāo)文本;
8、將所述目標(biāo)文本通過輸出模塊展示給用戶。
9、在一些實(shí)施例中,所述預(yù)處理模塊對(duì)所述原始音頻數(shù)據(jù)流進(jìn)行初步處理,獲得三個(gè)待處理音頻數(shù)據(jù)流,包括:
10、將所述原始音頻數(shù)據(jù)流拷貝三份,其中每一份都單獨(dú)作為一個(gè)待處理音頻數(shù)據(jù)流,總共有三個(gè)待處理音頻數(shù)據(jù)流。
11、在一些實(shí)施例中,三個(gè)所述待處理音頻數(shù)據(jù)流分別為第一待處理數(shù)據(jù)流、第二待處理數(shù)據(jù)流和第三待處理數(shù)據(jù)流,所述第一待處理數(shù)據(jù)流中包括第一時(shí)長(zhǎng)音頻隊(duì)列,所述第二待處理數(shù)據(jù)流中包括第二時(shí)長(zhǎng)音頻隊(duì)列,所述第三待處理數(shù)據(jù)流中包括第三時(shí)長(zhǎng)音頻隊(duì)列;其中,第一時(shí)長(zhǎng)小于第二時(shí)長(zhǎng),第二時(shí)長(zhǎng)小于第三時(shí)長(zhǎng)。
12、在一些實(shí)施例中,所述利用語(yǔ)音模型對(duì)三個(gè)所述待處理音頻數(shù)據(jù)流進(jìn)行多層次實(shí)時(shí)識(shí)別,獲得識(shí)別結(jié)果,包括:
13、利用語(yǔ)音模型對(duì)所述第一時(shí)長(zhǎng)音頻隊(duì)列進(jìn)行實(shí)時(shí)識(shí)別,獲得第一識(shí)別結(jié)果;
14、利用語(yǔ)音模型對(duì)所述第二時(shí)長(zhǎng)音頻隊(duì)列進(jìn)行實(shí)時(shí)識(shí)別,獲得第二識(shí)別結(jié)果;
15、利用語(yǔ)音模型對(duì)所述第一時(shí)長(zhǎng)音頻隊(duì)列進(jìn)行實(shí)時(shí)識(shí)別,獲得第三識(shí)別結(jié)果。
16、在一些實(shí)施例中,所述基于所述識(shí)別結(jié)果獲得目標(biāo)文本,包括:
17、利用所述第二識(shí)別結(jié)果對(duì)所述第一識(shí)別結(jié)果進(jìn)行調(diào)整,糾正所述第一識(shí)別結(jié)果中的錯(cuò)誤內(nèi)容,得到初步文本;
18、利用所述第三識(shí)別結(jié)果對(duì)所述初步文本進(jìn)行篩選和去重,獲得目標(biāo)文本。
19、在一些實(shí)施例中,所述第一時(shí)長(zhǎng)為3秒、第二時(shí)長(zhǎng)為9秒以及第三時(shí)長(zhǎng)為24秒;或者,
20、第一時(shí)長(zhǎng)、第二時(shí)長(zhǎng)以及第三時(shí)長(zhǎng)是動(dòng)態(tài)調(diào)整的。
21、在一些實(shí)施例中,所述語(yǔ)音采集設(shè)備包括麥克風(fēng)、錄音筆、usb麥克風(fēng)和智能手機(jī)中的任意一種。
22、在一些實(shí)施例中,所述語(yǔ)音模型包括whisper或者xtts-v2。
23、第二方面,本申請(qǐng)?zhí)峁┮环N電子設(shè)備,所述電子設(shè)備包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)前述任一方法。
24、第三方面,本申請(qǐng)?zhí)峁┮环N計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序,所述一個(gè)或者多個(gè)程序可被一個(gè)或者多個(gè)處理器執(zhí)行,以實(shí)現(xiàn)前述任一方法。
25、通過本申請(qǐng)?zhí)峁┑恼Z(yǔ)音實(shí)時(shí)識(shí)別方法、電子設(shè)備及存儲(chǔ)介質(zhì),結(jié)合分層識(shí)別的處理機(jī)制、結(jié)合動(dòng)態(tài)糾錯(cuò)算法及實(shí)時(shí)交互功能,進(jìn)而獲得實(shí)時(shí)且準(zhǔn)確的識(shí)別結(jié)果,能夠滿足復(fù)雜場(chǎng)景下的語(yǔ)音識(shí)別需求。
1.一種語(yǔ)音實(shí)時(shí)識(shí)別方法,其特征在于,包括:
2.如權(quán)利要求1所述的語(yǔ)音實(shí)時(shí)識(shí)別方法,其特征在于,所述預(yù)處理模塊對(duì)所述原始音頻數(shù)據(jù)流進(jìn)行初步處理,獲得三個(gè)待處理音頻數(shù)據(jù)流,包括:
3.如權(quán)利要求2所述的語(yǔ)音實(shí)時(shí)識(shí)別方法,其特征在于,三個(gè)所述待處理音頻數(shù)據(jù)流分別為第一待處理數(shù)據(jù)流、第二待處理數(shù)據(jù)流和第三待處理數(shù)據(jù)流,所述第一待處理數(shù)據(jù)流中包括第一時(shí)長(zhǎng)音頻隊(duì)列,所述第二待處理數(shù)據(jù)流中包括第二時(shí)長(zhǎng)音頻隊(duì)列,所述第三待處理數(shù)據(jù)流中包括第三時(shí)長(zhǎng)音頻隊(duì)列;其中,第一時(shí)長(zhǎng)小于第二時(shí)長(zhǎng),第二時(shí)長(zhǎng)小于第三時(shí)長(zhǎng)。
4.如權(quán)利要求3所述的語(yǔ)音實(shí)時(shí)識(shí)別方法,其特征在于,所述利用語(yǔ)音模型對(duì)三個(gè)所述待處理音頻數(shù)據(jù)流進(jìn)行多層次實(shí)時(shí)識(shí)別,獲得識(shí)別結(jié)果,包括:
5.如權(quán)利要求4所述的語(yǔ)音實(shí)時(shí)識(shí)別方法,其特征在于,所述基于所述識(shí)別結(jié)果獲得目標(biāo)文本,包括:
6.如權(quán)利要求3或5所述的語(yǔ)音實(shí)時(shí)識(shí)別方法,其特征在于,所述第一時(shí)長(zhǎng)為3秒、第二時(shí)長(zhǎng)為9秒以及第三時(shí)長(zhǎng)為24秒;或者,
7.如權(quán)利要求1所述的語(yǔ)音實(shí)時(shí)識(shí)別方法,其特征在于,所述語(yǔ)音采集設(shè)備包括麥克風(fēng)、錄音筆、usb麥克風(fēng)和智能手機(jī)中的任意一種。
8.如權(quán)利要求6所述的語(yǔ)音實(shí)時(shí)識(shí)別方法,其特征在于,所述語(yǔ)音模型包括whisper或者xtts-v2。
9.一種電子設(shè)備,所述電子設(shè)備包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至8中任意一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序,所述一個(gè)或者多個(gè)程序可被一個(gè)或者多個(gè)處理器執(zhí)行,以實(shí)現(xiàn)如權(quán)利要求1至8任意一項(xiàng)所述的方法。