本發(fā)明屬于語音識別,具體涉及一種頭戴式vr/ar設備的語音控制信息識別方法及系統(tǒng)。
背景技術:
1、隨著虛擬現(xiàn)實vr和增強現(xiàn)實ar技術的快速發(fā)展,頭戴式設備已成為現(xiàn)代人類交互方式的重要組成部分。這些設備能夠提供沉浸式的視覺、聽覺的交互體驗,在娛樂、教育、醫(yī)療、工業(yè)設計等領域得到廣泛應用。為提升用戶體驗,頭戴式vr/ar設備的信息交互方式需要持續(xù)優(yōu)化,其中語音控制技術因其自然、直觀且無需額外設備的特點,成為推動vr/ar人機交互的重要研究方向。
2、傳統(tǒng)頭戴式vr/ar設備的交互方式主要依賴手柄、遙控器以及手勢識別進行交互,但這些方式的準確性和用戶體驗容易受到環(huán)境光線、攝像頭精度以及用戶動作習慣差異的影響。而語音控制具有解放雙手、實時響應和支持復雜操作指令的優(yōu)勢,更符合自然的人機交互邏輯。通過將語音交互與vr/ar技術相結合,可以讓用戶在全沉浸式場景中實現(xiàn)更高效的控制,進一步拓寬應用邊界。然而,如何在復雜的環(huán)境中,準確識別用戶語音,提升語音控制的識別精度并降低響應時延,依然是亟待解決的關鍵技術問題。
技術實現(xiàn)思路
1、為解決現(xiàn)有技術中存在的上述問題,本發(fā)明提供了一種頭戴式vr/ar設備的語音控制信息識別方法及系統(tǒng),
2、本發(fā)明的目的可以通過以下技術方案實現(xiàn):
3、一種頭戴式vr/ar設備的語音控制信息識別方法,包括:
4、通過語音信號獲取器采集語音信號,根據(jù)所述語音信號通過信號預處理模型得到語音預處理信號;
5、根據(jù)所述語音預處理信號通過特征提取模型得到幀頻率特征;
6、根據(jù)所述幀頻率特征通過語音識別模型得到需求指令;
7、根據(jù)所述需求指令通過控制識別轉換模型得到控制指令。
8、優(yōu)選的,所述根據(jù)所述語音信號通過信號預處理模型得到語音預處理信號包括:
9、根據(jù)所述語音信號通過小波變換降噪得到降噪語音信號;
10、根據(jù)所述降噪語音信號通過一階高通濾波器進行預加重得到所述語音預處理信號。
11、優(yōu)選的,所述根據(jù)所述語音預處理信號通過特征提取模型得到幀頻率特征包括:
12、根據(jù)所述語音預處理信號通過分幀加窗得到加重高頻穩(wěn)定降噪語音幀;
13、根據(jù)所述加重高頻穩(wěn)定降噪語音幀通過快速傅里葉變換提取頻率特征得到幀頻譜特征;
14、根據(jù)所述幀頻譜特征通過梅爾濾波器轉換得到所述幀頻率特征。
15、優(yōu)選的,所述根據(jù)所述幀頻率特征通過語音識別模型得到需求指令包括:
16、通過卷積下采樣對所述幀頻率特征進行下采樣得到下采樣語音頻率特征;
17、根據(jù)所述下采樣語音頻率特征通過卷積增強模型得到局部語音特征;
18、根據(jù)所述下采樣語音頻率特征通過fastformer模型得到全局語音特征;
19、根據(jù)所述局部語音特征和所述全局語音特征通過深度可分離卷積進行合并得到融合語音特征;
20、根據(jù)所述融合語音特征通過前饋神經(jīng)網(wǎng)絡提取得到殘差語音特征;
21、將所述殘差語音特征加至所述語音信號得到所述需求指令。
22、優(yōu)選的,所述根據(jù)所述下采樣語音頻率特征通過卷積增強模型得到局部語音特征包括:
23、通過對所述下采樣語音頻率特征進行分組劃分得到分組頻率語音特征;
24、根據(jù)所述分組頻率語音特征通過多尺度卷積進行分組得到分組語音特征;
25、根據(jù)所述分組語音特征通過senet模型進行權重分配得到分組權重語音特征;
26、通過將所述分組權重語音特征加至所述下采樣語音頻率特征得到所述局部語音特征。
27、優(yōu)選的,所述根據(jù)所述下采樣語音頻率特征通過fastformer模型得到全局語音特征包括:
28、根據(jù)所述下采樣語音頻率特征通過線性計算得到查詢矩陣、鍵矩陣、值矩陣;
29、根據(jù)所述鍵矩陣通過令牌計算得到全局令牌;
30、根據(jù)所述查詢矩陣和所述全局令牌通過全局交互得到全局交互輸出;
31、根據(jù)所述全局交互輸出和所述值矩陣通過元素級交互得到元素交互輸出;
32、根據(jù)所述元素交互輸出通過線性變化恢復原始維度得到所述全局語音特征。
33、優(yōu)選的,所述根據(jù)所述需求指令通過控制識別轉換模型得到控制指令包括:
34、所述控制器包括語音轉換模塊和文字識別模塊;
35、根據(jù)所述明確需求指令通過所述語音轉換模塊得到文字信號;
36、根據(jù)所述文字信號通過文字增強模型得到增強文字信號;
37、根據(jù)所述增強文字信號通過所述文字識別模塊轉換得到所述控制指令。
38、優(yōu)選的,所根據(jù)所述文字信號通過文字增強模型得到增強文字信號包括:
39、根據(jù)所述文字信號通過bert大語言模型得到字符信息和詞匯信息;
40、根據(jù)所述字符信息和所述詞匯信息通過加權求和得到融合向量;
41、獲取類標簽信息和類描述信息,將所述類標簽信息和所述類描述信息加至所述融合向量得到信息增強融合向量;
42、根據(jù)所述信息增強融合向量通過開始位置分類器和結束位置分類器預測實體位置得到實體第一單詞概率和實體最后單詞概率;
43、根據(jù)所述實體第一單詞概率和所述實體最后單詞概率通過目標函數(shù)訓練所述開始位置分類器和所述結束位置分類器得到所述增強文字信號。
44、一種頭戴式vr/ar設備的語音控制信息識別系統(tǒng),包括信號預處理模塊、特征提取模塊、語音識別模塊、控制轉換模塊,包括:
45、所述信號預處理模塊,用于通過語音信號獲取器采集語音信號,根據(jù)所述語音信號通過信號預處理模型得到語音預處理信號;
46、所述特征提取模塊,用于根據(jù)所述語音預處理信號通過特征提取模型得到幀頻率特征;
47、所述語音識別模塊,用于根據(jù)所述幀頻率特征通過語音識別模型得到需求指令;
48、所述控制轉換模塊,用于根據(jù)所述需求指令通過控制識別轉換模型得到控制指令。
49、一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)上述頭戴式vr/ar設備的語音控制信息識別方法。
50、一種包含計算機可執(zhí)行指令的存儲介質,所述計算機可執(zhí)行指令在由計算機處理器執(zhí)行時用于執(zhí)行上述頭戴式vr/ar設備的語音控制信息識別方法。
51、本發(fā)明的有益效果為:
52、(1)通過小波變換對語音信號進行降噪,有效去除環(huán)境噪聲并提高信噪比;同時結合一階高通濾波器對語音信號進行預加重,增加高頻分量,提高了語音信號的清晰度,為后續(xù)特征提取提供了高質量的數(shù)據(jù)輸入。
53、(2)通過分幀加窗操作,將語音信號分成短時穩(wěn)定的幀,同時利用快速傅里葉變換提取頻域特征,并結合梅爾濾波器貼合人耳聽覺特性提取幀頻率特征。實現(xiàn)了語音頻率特征的精準提取,有效提升了后續(xù)模型的語音識別能力。
54、(3)通過卷積下采樣減少特征維度并保留關鍵信息,利用卷積增強模型提取局部特征,結合fastformer模型捕獲全局語音特征,最終通過深度可分離卷積實現(xiàn)局部與全局特征的融合,提升了語音識別的準確性和效率。
55、(4)通過語音轉換模塊將明確需求指令轉化為文字信號,再利用bert模型提取字符和詞匯信息,經(jīng)過加權求和與增強機制生成信息增強融合向量,最終通過分類器預測實體位置并生成控制指令,強化了文字信號的上下文關聯(lián)性,提高了語義識別的精度和魯棒性,確保生成的控制指令精準可靠。