本發(fā)明涉及信息轉(zhuǎn)換技術(shù),尤其涉及一種語音文字的轉(zhuǎn)換方法及設(shè)備。
背景技術(shù):
手機作為智能終端,智能化水平越來越高,人機交互性的需求也越來越強。語音作為人機交互的一種基本媒介,具有無可替代的作用。新一代的語音手機,持有人完全可以通過語音命令控制手機的各種操作,如撥打電話,讀寫短信,打開應(yīng)用等,如何深挖語音的潛能必將成為語音產(chǎn)品的一種趨勢。
隨著手機的錄音芯片模數(shù)轉(zhuǎn)換器(ADC,Analog-to-Digital Converter)性能的提升,麥克風(fēng)信噪比的提高,通過合理的設(shè)計布局,在手機上也能實現(xiàn)專業(yè)錄音筆達到的高清錄音水平,錄音質(zhì)量得到了保障,配合語音轉(zhuǎn)文字引擎識別率較高,錄音轉(zhuǎn)文字完全達到了商業(yè)化的程度。
目前手機語音轉(zhuǎn)文字的功能主要簡單,只能粗略的將一段語音轉(zhuǎn)化為文字,由于硬件或軟件的性能限制,識別率不是很高。無法完成對說話人進行識別,多人同時說話轉(zhuǎn)文字,無法完成分類標(biāo)識。對一段長錄音,如會議錄音,課堂演講,小組討論等場景的錄音,只能轉(zhuǎn)化為一段文字,無條例性,更無法分離語音,完全不符合高質(zhì)量,高效的設(shè)計理念,降低了人機交互性。
并且,目前的手機安裝了語音轉(zhuǎn)文字的應(yīng)用(APP,APPlication),主要是通過麥克風(fēng)采集語音后,通過網(wǎng)絡(luò)上傳到云端,通過云端的引擎進行轉(zhuǎn)文字。實際轉(zhuǎn)文字識別率,采集距離短及轉(zhuǎn)化效果一般,用戶體驗較差。
綜上所述,目前手機中語音轉(zhuǎn)文字功能只能解決單一人聲的語音文字轉(zhuǎn)化,同時需要連接云端服務(wù)器,且識別率不高,無法進行多人同時說話的識別與剔除,且無法進行分類轉(zhuǎn)化。
技術(shù)實現(xiàn)要素:
為解決上述技術(shù)問題,本發(fā)明實施例提供了一種語音文字的轉(zhuǎn)換方法及設(shè)備。
本發(fā)明實施例提供的語音文字的轉(zhuǎn)換方法包括:
利用兩個以上麥克風(fēng)采集一個以上用戶的語音信息;
對所述各麥克風(fēng)采集到的語音信息進行分析處理,得到各用戶的聲源特征參量;
根據(jù)所述各用戶的聲源特征參量,對采集到的語音信息進行分類,得到各用戶分別對應(yīng)的語音信息;
將所述各用戶分別對應(yīng)的語音信息轉(zhuǎn)化為對應(yīng)的文字信息。
在本發(fā)明一實施例中,所述對所述各麥克風(fēng)采集到的語音信息進行分析處理之前,所述方法還包括:
濾除所述各麥克風(fēng)采集到的語音信息中的背景噪聲。
在本發(fā)明一實施例中,所述對所述各麥克風(fēng)采集到的語音信息進行分析處理,得到各用戶的聲源特征參量,包括:
對所述各麥克風(fēng)采集到的語音信息進行分析,得到各麥克風(fēng)接收到并發(fā)語音的時間差;
根據(jù)所述各麥克風(fēng)接收到并發(fā)語音的時間差,計算得到各用戶的聲源特征參量。
在本發(fā)明一實施例中,所述將所述各用戶分別對應(yīng)的語音信息轉(zhuǎn)化為對應(yīng)的文字信息之后,所述方法還包括:
分類顯示所述各用戶分別對應(yīng)的文字信息。
在本發(fā)明一實施例中,所述將所述各用戶分別對應(yīng)的語音信息轉(zhuǎn)化為對應(yīng)的文字信息之后,所述方法還包括:
按照選擇的用戶標(biāo)識,分類顯示一個或多個用戶分別對應(yīng)的文字信息。
本發(fā)明實施例提供的語音文字的轉(zhuǎn)換設(shè)備包括:
信息采集單元,用于利用兩個以上麥克風(fēng)采集一個以上用戶的語音信息;
語音分析單元,用于對所述各麥克風(fēng)采集到的語音信息進行分析處理,得到各用戶的聲源特征參量;根據(jù)所述各用戶的聲源特征參量,對采集到的語音信息進行分類,得到各用戶分別對應(yīng)的語音信息;
語音文字轉(zhuǎn)換單元,用于將所述各用戶分別對應(yīng)的語音信息轉(zhuǎn)化為對應(yīng)的文字信息。
在本發(fā)明一實施例中,,所述設(shè)備還包括:
濾噪單元,用于濾除所述各麥克風(fēng)采集到的語音信息中的背景噪聲。
在本發(fā)明一實施例中,,所述語音分析單元包括:
分析子單元,用于對所述各麥克風(fēng)采集到的語音信息進行分析,得到各麥克風(fēng)接收到并發(fā)語音的時間差;
計算子單元,用于根據(jù)所述各麥克風(fēng)接收到并發(fā)語音的時間差,計算得到各用戶的聲源特征參量。
在本發(fā)明一實施例中,所述設(shè)備還包括:
顯示單元,用于分類顯示所述各用戶分別對應(yīng)的文字信息。
在本發(fā)明一實施例中,所述設(shè)備還包括:
顯示單元,用于按照選擇的用戶標(biāo)識,分類顯示一個或多個用戶分別對應(yīng)的文字信息。
本發(fā)明實施例的技術(shù)方案中,語音文字的轉(zhuǎn)換設(shè)備中具有高性能的硬件,包括:N個(N≥2)合理布局的高信噪比的麥克風(fēng),形成麥克風(fēng)陣列;高性能的ADC,高性能的數(shù)字信號處理器(DSP,Digital Signal Processing)。設(shè)備能夠采集到高清的語音信息,在采集語音信息時,通過計算用戶的角度、距離等聲源特征參量,區(qū)分用戶說話的內(nèi)容,當(dāng)另一人同時說話時,計算另一聲源特征參量,以示區(qū)別,如此,根據(jù)不同的聲源特征參量將各用戶的語音信息進行分離。在語音轉(zhuǎn)文字時,通過本地的語音引擎,無需連接云端,即可實現(xiàn)將各用戶的語音信息分類轉(zhuǎn)換為對應(yīng)的文字,從而解決了多人同時講話的場景下根據(jù)用戶分類將語音轉(zhuǎn)化為對應(yīng)的文字的問題。
附圖說明
圖1為本發(fā)明實施例的語音文字的轉(zhuǎn)換方法的流程示意圖;
圖2為本發(fā)明實施例的語音采集場景示意圖;
圖3為本發(fā)明實施例的分類的文字轉(zhuǎn)換界面示意圖一;
圖4為本發(fā)明實施例的分類的文字轉(zhuǎn)換界面示意圖二;
圖5為本發(fā)明實施例的分類的文字轉(zhuǎn)換界面示意圖三;
圖6為本發(fā)明實施例的語音文字的轉(zhuǎn)換設(shè)備的結(jié)構(gòu)組成示意圖。
具體實施方式
為了能夠更加詳盡地了解本發(fā)明實施例的特點與技術(shù)內(nèi)容,下面結(jié)合附圖對本發(fā)明實施例的實現(xiàn)進行詳細闡述,所附附圖僅供參考說明之用,并非用來限定本發(fā)明實施例。
圖1為本發(fā)明實施例的語音文字的轉(zhuǎn)換方法的流程示意圖,本示例中的語音文字的轉(zhuǎn)換方法應(yīng)用于語音文字的轉(zhuǎn)換設(shè)備,如圖1所示,所述語音文字的轉(zhuǎn)換方法包括以下步驟:
步驟101:利用兩個以上麥克風(fēng)采集一個以上用戶的語音信息。
本發(fā)明實施例中,所述語音文字的轉(zhuǎn)換設(shè)備可以是手機、平板電腦、筆記本電腦等電子設(shè)備。
本發(fā)明實施例中,語音文字的轉(zhuǎn)換設(shè)備中具有高性能的硬件,包括:N個(N≥2)合理布局的高信噪比的麥克風(fēng),形成麥克風(fēng)陣列;高性能的ADC,高性能的DSP。
本發(fā)明實施例中,當(dāng)一個以上用戶同時向語音文字的轉(zhuǎn)換設(shè)備輸入語音信息時,語音文字的轉(zhuǎn)換設(shè)備中的兩個以上麥克風(fēng)采都啟動并采集一個以上用戶的語音信息。可見,對于每個麥克風(fēng),采集到的語音信息為多個用戶混雜在一起的語音信息,本發(fā)明示例旨在分離不同用戶的語音信息,以分別對各用戶的語音信息進行語音文字轉(zhuǎn)化處理。
步驟102:對所述各麥克風(fēng)采集到的語音信息進行分析處理,得到各用戶 的聲源特征參量。
本發(fā)明實施例中,對所述各麥克風(fēng)采集到的語音信息進行分析處理之前,濾除所述各麥克風(fēng)采集到的語音信息中的背景噪聲。這里,為了消除非人聲噪音,對語音信息中的背景噪聲進行濾除。
本發(fā)明實施例中,對所述各麥克風(fēng)采集到的語音信息進行分析,得到各麥克風(fēng)接收到并發(fā)語音的時間差;根據(jù)所述各麥克風(fēng)接收到并發(fā)語音的時間差,計算得到各用戶的聲源特征參量。
具體地,并發(fā)語音是指相同的語音,例如,用戶A說出“你好”的語音,語音文字的轉(zhuǎn)換設(shè)備中具有兩個麥克風(fēng),由于麥克風(fēng)1和麥克風(fēng)2的位置不同,因此,麥克風(fēng)1接收到“你好”語音和麥克風(fēng)2接收到“你好”語音的時刻不同,具有時間差。這里,麥克風(fēng)1和麥克風(fēng)2中的兩個“你好”語音為并發(fā)語音。假設(shè)用戶A的位置坐標(biāo)為(x1,y1),已知麥克風(fēng)1和麥克風(fēng)2的位置以及分析出來的并發(fā)語音的時間差,可計算得到用戶A的位置,進而確定出聲源特征參量。這里,聲源特征參量可以是用戶相對于麥克風(fēng)的角度、距離等參數(shù),可用用戶的位置坐標(biāo)表征這些參數(shù)。同理,用戶B說出“漂亮”的語音,語音文字的轉(zhuǎn)換設(shè)備中具有兩個麥克風(fēng),由于麥克風(fēng)1和麥克風(fēng)2的位置不同,因此,麥克風(fēng)1接收到“漂亮”語音和麥克風(fēng)2接收到“漂亮”語音的時刻不同,具有時間差。這里,麥克風(fēng)1和麥克風(fēng)2中的兩個“漂亮”語音為并發(fā)語音。假設(shè)用戶B的位置坐標(biāo)為(x2,y2),已知麥克風(fēng)1和麥克風(fēng)2的位置以及分析出來的并發(fā)語音的時間差,可計算得到用戶B的位置,進而確定出聲源特征參量。
步驟103:根據(jù)所述各用戶的聲源特征參量,對采集到的語音信息進行分類,得到各用戶分別對應(yīng)的語音信息。
本發(fā)明實施例中,不同的用戶的地理位置不同,因此不同用戶的聲源特征參量不同,因此,可以根據(jù)聲源特征參量對混雜的多個用戶的語音信息進行分類,從而得到不同用戶所對應(yīng)的語音信息。
步驟104:將所述各用戶分別對應(yīng)的語音信息轉(zhuǎn)化為對應(yīng)的文字信息。
本發(fā)明實施例中,可通過本地的語音引擎將各用戶分別對應(yīng)的語音信息轉(zhuǎn)化為對應(yīng)的文字信息。
本發(fā)明實施例中,將所述各用戶分別對應(yīng)的語音信息轉(zhuǎn)化為對應(yīng)的文字信息之后,分類顯示所述各用戶分別對應(yīng)的文字信息。這里,可以按不同用戶的發(fā)言時間,分別識別出各用戶語音對應(yīng)的文字信息,為當(dāng)前顯示的文字信息設(shè)置用戶標(biāo)識,實現(xiàn)分別顯示的目的。
或者,按照選擇的用戶標(biāo)識,分類顯示一個或多個用戶分別對應(yīng)的文字信息。這里,直接按用戶標(biāo)識對語音識別的文字分別進行顯示。即每個用戶標(biāo)識之后對應(yīng)著對其語音識別的所有文字信息。
本發(fā)明實施例的技術(shù)方案在語音轉(zhuǎn)文字時,通過語音引擎,無需連接云端,即可實現(xiàn)將各用戶的語音信息分類轉(zhuǎn)換為對應(yīng)的文字,從而解決了多人同時講話的場景下根據(jù)用戶分類將語音轉(zhuǎn)化為對應(yīng)的文字的問題。
下面結(jié)合具體應(yīng)用場景對本發(fā)明實施例的語音文字的轉(zhuǎn)換方法做進一步闡述。
參照圖2,多人會議場景,三人或三人以上,以A、B、C三人為例說明,采用本發(fā)明實施例提供的語音文字的轉(zhuǎn)換方法的語音文字轉(zhuǎn)換設(shè)備設(shè)備(如手機)包含麥克風(fēng)1與麥克風(fēng)2,當(dāng)A、B兩人交替討論,或A、B、C三人交替發(fā)言。利用本發(fā)明實施例的語音文字的轉(zhuǎn)換設(shè)備,將采集到的語音信息依次分析處理,得到各用戶的聲源特征參量;根據(jù)各用戶的聲源特征參量,對采集到的語音信息進行分類,得到各用戶分別對應(yīng)的語音信息;再將各用戶分別對應(yīng)的語音信息轉(zhuǎn)化為對應(yīng)的文字信息。該設(shè)備可以分別將A、B、C三人的語音及文字進行分離及文字分類進行顯示,用戶可以選擇生成A、或B、或C的語音及文字。形成圖3所示的分類處理文字結(jié)果。
參照圖2,會議演講場景或者主題發(fā)言場景,如A作為主講人,當(dāng)轉(zhuǎn)文字需要將A作為主講人,B、C的聲音進行抑制時,利用本發(fā)明實施例的技術(shù)方案可以只保留主講人A的聲音,只將A的聲音轉(zhuǎn)化為文字,剔出B、C的聲音。形成圖4所示的分類處理文字結(jié)果。
參照圖2,會議提問互動環(huán)節(jié),如A作為主講人,發(fā)言時可能需要與其他成員進行一個互動,此時可以將主講人A和提問人B的互動情況,按照時間先后順序進行語音采集和文字轉(zhuǎn)換。形成圖5所示的分類處理文字結(jié)果。
圖6為本發(fā)明實施例的語音文字的轉(zhuǎn)換設(shè)備的結(jié)構(gòu)組成示意圖,如圖6所示,所述設(shè)備包括:
信息采集單元61,用于利用兩個以上麥克風(fēng)采集一個以上用戶的語音信息;
語音分析單元62,用于對所述各麥克風(fēng)采集到的語音信息進行分析處理,得到各用戶的聲源特征參量;根據(jù)所述各用戶的聲源特征參量,對采集到的語音信息進行分類,得到各用戶分別對應(yīng)的語音信息;
語音文字轉(zhuǎn)換單元63,用于將所述各用戶分別對應(yīng)的語音信息轉(zhuǎn)化為對應(yīng)的文字信息。
在本發(fā)明實施例中,所述設(shè)備還包括:
濾噪單元64,用于濾除所述各麥克風(fēng)采集到的語音信息中的背景噪聲。
在本發(fā)明實施例中,所述語音分析單元62包括:
分析子單元621,用于對所述各麥克風(fēng)采集到的語音信息進行分析,得到各麥克風(fēng)接收到并發(fā)語音的時間差;
計算子單元622,用于根據(jù)所述各麥克風(fēng)接收到并發(fā)語音的時間差,計算得到各用戶的聲源特征參量;
分類子單元623,用于根據(jù)所述各用戶的聲源特征參量,對采集到的語音信息進行分類,得到各用戶分別對應(yīng)的語音信息。
在本發(fā)明實施例中,所述設(shè)備還包括:
顯示單元65,用于分類顯示所述各用戶分別對應(yīng)的文字信息。
所述顯示單元65,還用于按照選擇的用戶標(biāo)識,分類顯示一個或多個用戶分別對應(yīng)的文字信息。
本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,圖6所示的語音文字的轉(zhuǎn)換設(shè)備中的各單元及其子單元的實現(xiàn)功能可參照前述語音文字的轉(zhuǎn)換方法的相關(guān)描述而理解。
在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的設(shè)備和方法,可以通過其它的方式實現(xiàn)。以上所描述的設(shè)備實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,如:多個單元或組件可以結(jié)合,或可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另外,所顯示或討論的各組成部分相互之間的耦合、或直接耦合、或通信連接可以是通過一些接口,設(shè)備或單元的間接耦合或通信連接,可以是電性的、機械的或其它形式的。
上述作為分離部件說明的單元可以是、或也可以不是物理上分開的,作為單元顯示的部件可以是、或也可以不是物理單元,即可以位于一個地方,也可以分布到多個網(wǎng)絡(luò)單元上;可以根據(jù)實際的需要選擇其中的部分或全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明各實施例中的各功能單元可以全部集成在一個處理單元中,也可以是各單元分別單獨作為一個單元,也可以兩個或兩個以上單元集成在一個單元中;上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用硬件加軟件功能單元的形式實現(xiàn)。
本領(lǐng)域普通技術(shù)人員可以理解:實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質(zhì)包括:移動存儲設(shè)備、只讀存儲器(ROM,Read Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
或者,本發(fā)明上述集成的單元如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質(zhì)中。基于這樣的理解,本發(fā)明實施例的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機、服務(wù)器、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分。而前述的存儲介質(zhì)包 括:移動存儲設(shè)備、只讀存儲器(ROM,Read Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)以所述權(quán)利要求的保護范圍為準。