成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

一種機(jī)器人交互方法及機(jī)器人系統(tǒng)的制作方法

文檔序號:10487896閱讀:500來源:國知局
一種機(jī)器人交互方法及機(jī)器人系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種機(jī)器人交互方法以及機(jī)器人系統(tǒng)。本發(fā)明的方法包括:采集多模態(tài)的外界輸入信息,所述外界輸入信息包含文字信息、圖像信息、聲音信息、機(jī)器人自檢信息和感應(yīng)信息;分析所述外界輸入信息以獲取交互輸入信息、交互對象特征信息以及交互環(huán)境特征信息;對所述交互對象特征信息以及所述交互環(huán)境特征信息進(jìn)行分析以獲取匹配的交互情景限定;對所述交互輸入信息進(jìn)行語義解析以獲取交互對象的交互意圖;在所述交互情景限定下,根據(jù)所述交互意圖進(jìn)行多模態(tài)的交互行為輸出。與現(xiàn)有技術(shù)相比,本發(fā)明的方法及系統(tǒng)可以更好的模擬人與人交互過程中人類交互行為的分析生成過程,從而獲得更加自然生動(dòng)的交互輸出,大大提高了機(jī)器人的應(yīng)用體驗(yàn)。
【專利說明】
一種機(jī)器人交互方法及機(jī)器人系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及機(jī)器人領(lǐng)域,具體說涉及一種機(jī)器人交互方法及機(jī)器人系統(tǒng)。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展以及人工智能技術(shù)的不斷進(jìn)步。在家用領(lǐng)域小型智能機(jī)器人的應(yīng)用也越來越廣泛,面向家用的小型智能機(jī)器人正在迅猛發(fā)展。
[0003]現(xiàn)有面向家用的小型機(jī)器人,多數(shù)是單一的語音或文本的交互方式,某些機(jī)器人采用肢體動(dòng)作與用戶交互。雖然這在一定程度上豐富了交互形式,但是由于交互應(yīng)答機(jī)制是固化的,機(jī)器人的交互應(yīng)答千篇一律,在多次交互過程中,機(jī)器人往往采用單一的應(yīng)答回應(yīng)用戶不同狀態(tài)下的交互請求。這很容易讓用戶產(chǎn)生厭倦,大大降低了用戶體驗(yàn)。
[0004]因此,為了讓機(jī)器人的應(yīng)答更自然生動(dòng),提高機(jī)器人的用戶體驗(yàn),需要一種一種新的機(jī)器人交互方法。

【發(fā)明內(nèi)容】

[0005]為了讓機(jī)器人的應(yīng)答更自然生動(dòng),提高機(jī)器人的用戶體驗(yàn),本發(fā)明提供了一種機(jī)器人交互方法,所述方法包括以下步驟:
[0006]采集多模態(tài)的外界輸入信息所述外界輸入信息包含文字信息、圖像信息、聲音信息、機(jī)器人自檢信息和感應(yīng)信息;
[0007]分析所述外界輸入信息以獲取交互輸入信息、交互對象特征信息以及交互環(huán)境特征信息;
[0008]對所述交互對象特征信息以及所述交互環(huán)境特征信息進(jìn)行分析以獲取匹配的交互情景限定;
[0009]對所述交互輸入信息進(jìn)行語義解析以獲取交互對象的交互意圖;
[0010]在所述交互情景限定下,根據(jù)所述交互意圖進(jìn)行多模態(tài)的交互行為輸出。
[0011 ]在一實(shí)施例中,分析所述外界輸入信息以確定交互對象特征信息,包括:
[0012]監(jiān)測所述圖像信息中是否包含人形以確定當(dāng)前是否存在可以交互的對象。
[0013]在一實(shí)施例中,分析所述外界輸入信息以確定交互對象特征信息,包括:
[0014]當(dāng)所述圖像信息中包含人形時(shí)從所述圖像信息中解析交互對象面部圖像;
[0015]定位所述交互對象面部圖像。
[0016]在一實(shí)施例中,分析所述外界輸入信息以確定交互對象特征信息,包括:
[0017]當(dāng)所述圖像信息中包含人形時(shí)從所述圖像信息中解析交互對象面部圖像;
[0018]從所述交互對象面部圖像中提取并分析面部特征信息;
[0019]確定所述面部特征信息所表征的交互對象情緒或交互對象身份。
[0020]在一實(shí)施例中,分析所述外界輸入信息以確定交互對象特征信息,包括:
[0021]監(jiān)測所述聲音信息中是否包含交互對象語音以確定當(dāng)前是否存在可以交互的對象。
[0022]在一實(shí)施例中,分析所述外界輸入信息以確定交互對象特征信息,包括:
[0023]當(dāng)所述聲音信息中包含交互對象語音時(shí)分離所述交互對象語音;
[0024]解析所述交互對象語音以確定所述交互對象語音所表征的交互對象情緒或用戶身份。
[0025]本發(fā)明還提出了一種機(jī)器人系統(tǒng),所述系統(tǒng)包括:
[0026]采集模塊,其配置為采集多模態(tài)的外界輸入信息,所述采集模塊包含文字信息采集裝置、圖像信息采集裝置、聲音信息采集裝置、機(jī)器人自檢信息采集裝置和感應(yīng)信息采集裝置;
[0027]輸入分析模塊,其配置為分析所述外界輸入信息以獲取交互輸入信息、交互對象特征信息以及交互環(huán)境特征信息;
[0028]交互情景生成模塊,其配置為對所述交互對象特征信息以及所述交互環(huán)境特征信息進(jìn)行分析以獲取匹配的交互情景限定;
[0029]語義解析模塊,其配置為對所述交互輸入信息進(jìn)行語義解析以獲取交互對象的交互意圖;
[0030]交互輸出模塊,其配置為在所述交互情景限定下,根據(jù)所述交互意圖進(jìn)行多模態(tài)的交互行為輸出。
[0031]在一實(shí)施例中,所述輸入分析模塊包含人形確認(rèn)裝置,所述人形確認(rèn)裝置配置為監(jiān)測所述圖像信息中是否包含人形以確定當(dāng)前是否存在交互對象。
[0032]在一實(shí)施例中,所述輸入分析模塊還包含面部圖像定位裝置,所述面部圖像定位裝置配置為:
[0033]當(dāng)所述圖像信息中包含人形時(shí)從所述圖像信息中解析交互對象面部圖像;
[0034]定位所述交互對象面部圖像。
[0035]在一實(shí)施例中,所述輸入分析模塊還包含面部圖像解析裝置,所述面部圖像解析裝置配置為:
[0036]從所述交互對象面部圖像中提取并分析面部特征信息;
[0037]確定所述面部特征信息所表征的交互對象情緒或交互對象身份。
[0038]與現(xiàn)有技術(shù)相比,本發(fā)明的方法及系統(tǒng)可以更好的模擬人與人交互過程中人類交互行為的分析生成過程,從而獲得更加自然生動(dòng)的交互輸出,大大提高了機(jī)器人的應(yīng)用體驗(yàn)。
[0039]本發(fā)明的其它特征或優(yōu)點(diǎn)將在隨后的說明書中闡述。并且,本發(fā)明的部分特征或優(yōu)點(diǎn)將通過說明書而變得顯而易見,或者通過實(shí)施本發(fā)明而被了解。本發(fā)明的目的和部分優(yōu)點(diǎn)可通過在說明書、權(quán)利要求書以及附圖中所特別指出的步驟來實(shí)現(xiàn)或獲得。
【附圖說明】
[0040]附圖用來提供對本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實(shí)施例共同用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:
[0041 ]圖1是根據(jù)本發(fā)明一實(shí)施例的方法流程圖;
[0042]圖2、圖4以及圖6分別是根據(jù)本發(fā)明的不同實(shí)施例獲取交互對象特征信息的流程圖;
[0043]圖3以及圖5分別是根據(jù)本發(fā)明的不同實(shí)施例獲取交互環(huán)境特征信息的流程圖;
[0044]圖7是根據(jù)本發(fā)明一實(shí)施例的系統(tǒng)結(jié)構(gòu)簡圖。
【具體實(shí)施方式】
[0045]以下將結(jié)合附圖及實(shí)施例來詳細(xì)說明本發(fā)明的實(shí)施方式,借此本發(fā)明的實(shí)施人員可以充分理解本發(fā)明如何應(yīng)用技術(shù)手段來解決技術(shù)問題,并達(dá)成技術(shù)效果的實(shí)現(xiàn)過程并依據(jù)上述實(shí)現(xiàn)過程具體實(shí)施本發(fā)明。需要說明的是,只要不構(gòu)成沖突,本發(fā)明中的各個(gè)實(shí)施例以及各實(shí)施例中的各個(gè)特征可以相互結(jié)合,所形成的技術(shù)方案均在本發(fā)明的保護(hù)范圍之內(nèi)。
[0046]在本說明書描述中所涉及到的機(jī)器人由執(zhí)行機(jī)構(gòu)、驅(qū)動(dòng)裝置、控制系統(tǒng)和感知系統(tǒng)構(gòu)成。在執(zhí)行機(jī)構(gòu)中主要包括頭部、上肢部、軀干和下肢部,在驅(qū)動(dòng)裝置中,包括電驅(qū)動(dòng)裝置、液壓驅(qū)動(dòng)裝置和氣壓驅(qū)動(dòng)裝置??刂葡到y(tǒng)作為機(jī)器人的核心部分,類似于人的大腦,其主要包括處理器和關(guān)節(jié)伺服控制器。
[0047]感知系統(tǒng)包括內(nèi)部傳感器和外部傳感器。外部傳感器包括攝像頭、麥克風(fēng)、超聲波(或激光雷達(dá)、紅外)裝置,用以感知外界多種信息。攝像頭可以設(shè)置在頭部,類似于人眼。超聲波(或激光雷達(dá)、紅外)裝置可以設(shè)置在軀干的任意部位上,或者其它位置,用以輔助攝像頭感應(yīng)物體的存在或者外界環(huán)境。機(jī)器人具有聽覺、視覺采集能力。
[0048]這里需要說明的是,本發(fā)明所涉及的機(jī)器人的具體結(jié)構(gòu)并不限于上述描述。根據(jù)實(shí)際需要,機(jī)器人在可實(shí)現(xiàn)本發(fā)明所述的方法的基礎(chǔ)上,可以采用任意的其他硬件結(jié)構(gòu)。
[0049]進(jìn)一步的,本發(fā)明的方法描述的是在計(jì)算機(jī)系統(tǒng)中實(shí)現(xiàn)的。該計(jì)算機(jī)系統(tǒng)例如可以設(shè)置在機(jī)器人的控制核心處理器中。例如,本文所述的方法可以實(shí)現(xiàn)為能以控制邏輯來執(zhí)行的軟件,其由機(jī)器人控制系統(tǒng)中的CPU來執(zhí)行。本文所述的功能可以實(shí)現(xiàn)為存儲(chǔ)在非暫時(shí)性有形計(jì)算機(jī)可讀介質(zhì)中的程序指令集合。當(dāng)以這種方式實(shí)現(xiàn)時(shí),該計(jì)算機(jī)程序包括一組指令,當(dāng)該組指令由計(jì)算機(jī)運(yùn)行時(shí)其促使計(jì)算機(jī)執(zhí)行能實(shí)施上述功能的方法。可編程邏輯可以暫時(shí)或永久地安裝在非暫時(shí)性有形計(jì)算機(jī)可讀介質(zhì)中,例如只讀存儲(chǔ)器芯片、計(jì)算機(jī)存儲(chǔ)器、磁盤或其他存儲(chǔ)介質(zhì)。除了以軟件來實(shí)現(xiàn)之外,本文所述的邏輯可利用分立部件、集成電路、與可編程邏輯設(shè)備(諸如,現(xiàn)場可編程門陣列(FPGA)或微處理器)結(jié)合使用的可編程邏輯,或者包括它們?nèi)我饨M合的任何其他設(shè)備來體現(xiàn)。所有此類實(shí)施例旨在落入本發(fā)明的范圍之內(nèi)。
[0050]現(xiàn)有面向家用的小型機(jī)器人,多數(shù)是單一的語音或文本的交互方式,容易令人厭倦。為了提高用戶體驗(yàn),目前某些機(jī)器人采用肢體動(dòng)作與用戶交互。雖然這在一定程度上豐富了交互形式,但是由于交互應(yīng)答機(jī)制是固化的,機(jī)器人的交互應(yīng)答千篇一律,在多次交互過程中,機(jī)器人往往采用單一的應(yīng)答回應(yīng)用戶不同狀態(tài)下的交互請求。這很容易讓用戶產(chǎn)生厭倦,大大降低了用戶體驗(yàn)。
[0051]為了讓機(jī)器人的應(yīng)答更自然生動(dòng),提高機(jī)器人的用戶體驗(yàn),本發(fā)明提出了一種機(jī)器人交互方法。根據(jù)本發(fā)明的方法首先對人與人的交互行為進(jìn)行深入分析。在人與人的交互過程中,最直接最簡單的就是通過語言進(jìn)行交談,進(jìn)一步的則是通過文字、圖像以及肢體語言進(jìn)行交談。而對應(yīng)模擬上述交互方式,現(xiàn)有技術(shù)中的機(jī)器人采用語音、文本、圖像或肢體動(dòng)作的交互方式。
[0052]進(jìn)一步考慮人人交互的復(fù)雜情況,在進(jìn)行交談的過程中,交互參與者會(huì)首先對來自交互對象的交互信息(語言、文字、圖像以及肢體語言)進(jìn)行的語義理解,了解對方到底想要表達(dá)什么意思,然后做出相應(yīng)的回答。在上述過程中,交互參與者并不是針對交互對象的語義簡單直接的做出單純的應(yīng)答,而是根據(jù)當(dāng)前所處的交互環(huán)境以及交互對象的具體情況對應(yīng)答做出針對性的修飾調(diào)整。
[0053]舉例來說,針對“最近過得怎么樣”這個(gè)問題,如果交互對象是工作上的朋友(不是很親密),簡單的“很忙,天天忙著處理公司事務(wù)”就可以算合適的回答。而如果交互對象是親密的朋友或家人,則需要進(jìn)一步具體“忙,天天忙著工作,最近都開始頭暈了,今天……”,這樣才能顯得親近。
[0054]另一個(gè)例子,同樣是針對“最近過得怎么樣”這個(gè)問題,如果是在路上偶遇并且交互對象明顯有事要做,簡單的“天天忙著處理公司事務(wù),等閑下來找個(gè)機(jī)會(huì)我們一起吃個(gè)飯”就可以完成對話。而如果當(dāng)前是在公園散步并且交互對象明顯也很無聊,則可以詳細(xì)的交談“忙,天天忙著工作,最近都開始頭暈了,今天……”。
[0055]也就是說,在人與人的交互中,交互參與者會(huì)分析當(dāng)前的環(huán)境獲取用于輔助交互的交互情景限定(例如交互對象身份、交互對象狀態(tài)以及當(dāng)前所處環(huán)境),根據(jù)交互情景限定調(diào)整自身的交互方式以及交互內(nèi)容。
[0056]基于上述分析,為了讓機(jī)器人的應(yīng)答更自然生動(dòng),根據(jù)本發(fā)明的方法的機(jī)器人在交互過程中會(huì)分析當(dāng)前的交互情景限定,并根據(jù)交互情景限定生成匹配的交互行為輸出。
[0057]接下來基于流程圖詳細(xì)描述根據(jù)本發(fā)明實(shí)施例的方法的具體實(shí)施步驟。附圖的流程圖中示出的步驟可以在包含諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行。雖然在流程圖中示出了各步驟的邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0058]如圖1所示,在根據(jù)本發(fā)明方法的一實(shí)施例中,首先執(zhí)行步驟S100,采集外界輸入信息。為了獲取準(zhǔn)確有效的情景限定,在步驟SlOO中,采集的外界輸入信息不僅包含用戶(機(jī)器人交互對象)的交互輸入(語音輸入、動(dòng)作指示、文字輸入等),而且包含與用戶以及當(dāng)前交互環(huán)境相關(guān)的其他信息。具體的,在本實(shí)施例中,機(jī)器人采集多模態(tài)的外界輸入信息,夕卜界輸入信息包含文字信息、圖像信息(其中包含用戶的動(dòng)作信息)、聲音信息、機(jī)器人自檢信息(例如機(jī)器人自身的姿態(tài)信息)和感應(yīng)信息(例如紅外感應(yīng)測距信息)。
[0059]接下來執(zhí)行步驟S110,對外界輸入信息進(jìn)行分析。在步驟SllO中,主要是分析外界輸入信息所包含的具體含義(與交互行為相關(guān)的具體含義),并接下來基于外界輸入信息的分析結(jié)果執(zhí)行步驟Slll(獲取交互輸入信息)、步驟S112(獲取交互對象特征信息)以及步驟S113 (獲取交互環(huán)境特征信息)。
[0060]在本實(shí)施例的步驟111、112、113中:
[0061]交互輸入信息是指用戶向機(jī)器人發(fā)出的交互內(nèi)容(語音輸入、動(dòng)作指示、文字輸入等),交互輸入信息是機(jī)器人做出相應(yīng)的交互回應(yīng)的基礎(chǔ);
[0062]交互對象特征信息主要描述用戶的特征屬性(用戶身份、用戶情緒、用戶當(dāng)前的身體狀態(tài)等);
[0063]交互環(huán)境特征信息主要描述機(jī)器人以及用戶當(dāng)前所處的環(huán)境。
[0064]當(dāng)獲取到交互對象特征信息和交互環(huán)境特征信息后(步驟112、113)就可以執(zhí)行步驟S130,獲取交互情景限定步驟,對交互對象特征信息以及交互環(huán)境特征信息進(jìn)行分析以獲取匹配的交互情景限定。當(dāng)獲取到交互輸入信息后(步驟S111)就可以執(zhí)行步驟S120,語義解析步驟,對交互輸入信息進(jìn)行語義解析以獲取交互對象的交互意圖。最后執(zhí)行步驟S140,交互行為輸出步驟,在交互情景限定下,根據(jù)交互意圖進(jìn)行多模態(tài)的交互行為輸出。
[0065]需要說明的是,在理想情況下,基于外界輸入信息的分析結(jié)果可以確定全部的上述信息。但在某些情況下,由于外界輸入信息的缺失或是機(jī)器人處于特定的狀態(tài)/環(huán)境,基于外界輸入信息的分析結(jié)果只能確定一部分上述信息(例如,當(dāng)前并沒有用戶,則不存在交互輸入信息,并且交互對象特征信息僅包含不存在用戶的標(biāo)記信息)。在這種情況下,則是根據(jù)獲取的信息執(zhí)行步驟S120、130,并基于執(zhí)行結(jié)果進(jìn)行相應(yīng)的交互行為輸出(S140)。
[0066]例如,在不存在交互輸入信息,并且交互對象特征信息僅包含不存在用戶的標(biāo)記信息的情況下,進(jìn)入待機(jī)狀態(tài),輸出對應(yīng)待機(jī)狀態(tài)的交互行為。
[0067]綜上,根據(jù)本發(fā)明的方法,可以更好的模擬人與人交互過程中人類交互行為的分析生成過程,從而獲得更加自然生動(dòng)的交互輸出,大大提高了機(jī)器人的應(yīng)用體驗(yàn)。接下來基于具體實(shí)施例進(jìn)一步描述本發(fā)明的方法的具體實(shí)施細(xì)節(jié)。
[0068]在機(jī)器人獲取到的外界輸入信息中,圖像信息是一種很重要的信息。在本發(fā)明一實(shí)施例中,基于圖像信息不僅可以分析獲取用戶的交互輸入信息(例如用戶的手勢指令),而且可以基于圖像分析獲取交互對象特征信息和交互環(huán)境特征信息。
[0069]如圖2所示,在步驟S200中采集圖像信息并接下來對圖像信息進(jìn)行分析。在本實(shí)施例中,首先可以基于圖像信息監(jiān)測當(dāng)前是否存在可以交互的對象(用戶)。即執(zhí)行步驟S210,人形檢測步驟,檢測獲取到的圖像信息中是否存在人形。進(jìn)一步的,為了避免圖片、模型等類似物體對人形檢測的影響(將圖片中的人像、人體模型檢測為人形),在步驟S210中還包含活體檢測步驟,檢測圖像信息中的人形是否為活體。
[0070]如果不存在人形,則說明當(dāng)前機(jī)器人可視范圍內(nèi)不存在可以交互的對象,此時(shí)執(zhí)行步驟S240,輸出交互對象特征信息。在這種情況下,輸出的交互對象特征信息中標(biāo)記著當(dāng)前不存在交互對象。這樣在之后的交互行為輸出步驟中,機(jī)器人就可以根據(jù)交互對象特征信息(不存在交互對象的標(biāo)記)輸出針對沒有交互對象而預(yù)設(shè)的交互行為。
[0071]當(dāng)存在交互對象時(shí)則對交互對象的交互對象特征做進(jìn)一步分析,首先執(zhí)行步驟S220,分離面部圖像步驟,從步驟S210中所確認(rèn)的人形圖像中解析交互對象面部圖像。接下來執(zhí)行步驟S231,定位面部圖像步驟,對交互對象面部圖像進(jìn)行定位(也就是對當(dāng)前交互對象的面部/頭部進(jìn)行定位)。在步驟S240完成后就可以執(zhí)行步驟S240,輸出包含交互對象面部圖像定位信息(交互對象面部/頭部定位信息)的交互對象特征信息。這樣在之后的交互行為輸出步驟中,機(jī)器人就可以根據(jù)交互對象面部圖像定位信息輸出相應(yīng)的交互行為(例如轉(zhuǎn)動(dòng)機(jī)器人頭部使得機(jī)器人面部/眼睛正對交互對象的面部/頭部)。
[0072]在本實(shí)施例中,對交互對象面部圖像還做進(jìn)一步分析。在步驟S220之后,還可以執(zhí)行步驟S232,解析面部圖像確定交互對象身份,具體的:
[0073]當(dāng)圖像信息中包含人形時(shí)從圖像信息中解析交互對象面部圖像;
[0074]從交互對象面部圖像中提取并分析面部特征信息;
[0075]確定面部特征信息所表征的交互對象身份。
[0076]在步驟S232之后就可以執(zhí)行步驟S240,輸出包含交互對象身份信息的交互對象特征信息。這樣在之后的交互行為輸出步驟中,機(jī)器人就可以根據(jù)交互對象身份信息輸出相應(yīng)的交互行為(例如針對機(jī)器人擁有者和陌生人采用不同的交互策略)。
[0077]進(jìn)一步的,在步驟S220之后,還可以執(zhí)行步驟S233,解析面部圖像確定交互對象情緒,具體的:
[0078]當(dāng)圖像信息中包含人形時(shí)從圖像信息中解析交互對象面部圖像;
[0079]從交互對象面部圖像中提取并分析面部特征信息;
[0080]確定面部特征信息所表征的交互對象情緒。
[0081 ]在步驟S233之后就可以執(zhí)行步驟S240,輸出包含交互對象情緒信息的交互對象特征信息。這樣在之后的交互行為輸出步驟中,機(jī)器人就可以根據(jù)交互對象情緒信息輸出相應(yīng)的交互行為(例如當(dāng)交互對象生氣或是悲傷時(shí)分別采用不同的交互策略)。
[0082]進(jìn)一步的,在根據(jù)本發(fā)明方法的一實(shí)施例中,還可以基于對圖像信息的分析獲取交互環(huán)境特征信息。如圖3所示,首先執(zhí)行步驟S300采集圖像信息。然后執(zhí)行步驟S310,從圖像信息中分離出交互對象圖像之外的背景圖像。接著解析背景圖像信息以確認(rèn)交互對象/機(jī)器人所處的交互環(huán)境(是否處于房間中、當(dāng)前天氣狀況、燈光狀況、周圍是否有其他物體/人形等等)(步驟S320)。最后輸出包含解析結(jié)果的交互環(huán)境特征信息(步驟S330)。這樣在之后的交互行為輸出步驟中,機(jī)器人就可以根據(jù)所處的交互環(huán)境輸出相應(yīng)的交互行為(例如當(dāng)屋外陽光過強(qiáng)時(shí)提示交互對象離開時(shí)采取防曬措施)。
[0083]在機(jī)器人獲取到的外界輸入信息中,聲音信息也是一種很重要的信息。在本發(fā)明一實(shí)施例中,基于聲音信息不僅可以分析獲取用戶的交互輸入信息(例如用戶的交互語音、聲音指示),而且也可以聲音圖像分析獲取交互對象特征信息和交互環(huán)境特征信息。
[0084]如圖4所示,在步驟S400中采集聲音信息并接下來對聲音信息進(jìn)行分析。在本實(shí)施例中,首先可以基于聲音信息監(jiān)測當(dāng)前是否存在有交互需求的用戶(交互對象)。即執(zhí)行步驟S410,交互對象語音檢測步驟,檢測獲取到的聲音信息中是否包含交互對象語音。
[0085]如果不包含交互對象語音,則說明當(dāng)前機(jī)器人聲音收集范圍內(nèi)沒有發(fā)出交互語音的用戶,此時(shí)執(zhí)行步驟S440,輸出交互對象特征信息。在這種情況下,輸出的交互對象特征信息中標(biāo)記著當(dāng)前不存在交互對象。這樣在之后的交互行為輸出步驟中,機(jī)器人就可以根據(jù)交互對象特征信息(不存在交互對象的標(biāo)記)輸出針對沒有交互對象而預(yù)設(shè)的交互行為。
[0086]當(dāng)存在交互對象語音(存在交互對象)時(shí)則對交互對象的交互對象特征做進(jìn)一步分析,首先執(zhí)行步驟S420,分離交互對象語音步驟,從聲音信息中解析交互對象語音。接下來執(zhí)行步驟S431,定位交互對象,對交互對象語音進(jìn)行音源分析定位交互對象語音的發(fā)出位置(交互對象位置)。在步驟S440完成后就可以執(zhí)行步驟S440,輸出包含交互對象定位信息的交互對象特征信息。這樣在之后的交互行為輸出步驟中,機(jī)器人就可以根據(jù)交互對象定位信息輸出相應(yīng)的交互行為(例如轉(zhuǎn)動(dòng)機(jī)器人頭部使得機(jī)器人面部/眼睛正對交互對象)。
[0087]在本實(shí)施例中,對交互對象語音還做進(jìn)一步分析。在步驟S420之后,還可以執(zhí)行步驟S432,解析交互對象語音確定交互對象身份,具體的,對交互對象語音進(jìn)行聲紋分析以確定交互對象語音所對應(yīng)的用戶身份。
[0088]在步驟S432之后就可以執(zhí)行步驟S440,輸出包含交互對象身份信息的交互對象特征信息。這樣在之后的交互行為輸出步驟中,機(jī)器人就可以根據(jù)交互對象身份信息輸出相應(yīng)的交互行為(例如針對機(jī)器人擁有者和陌生人采用不同的交互策略)。
[0089]進(jìn)一步的,在步驟S420之后,還可以執(zhí)行步驟S433,解析交互對象語音確定交互對象情緒,具體的,對交互對象語音進(jìn)行聲紋分析以確定交互對象語音所表征的交互對象情緒O
[0090]在步驟S433之后就可以執(zhí)行步驟S440,輸出包含交互對象情緒信息的交互對象特征信息。這樣在之后的交互行為輸出步驟中,機(jī)器人就可以根據(jù)交互對象情緒信息輸出相應(yīng)的交互行為(例如當(dāng)交互對象生氣或是悲傷時(shí)分別采用不同的交互策略)。
[0091]進(jìn)一步的,在根據(jù)本發(fā)明方法的一實(shí)施例中,還可以基于對聲音信息的分析獲取交互環(huán)境特征信息。如圖5所示,首先執(zhí)行步驟S500采集聲音信息。然后執(zhí)行步驟S510,從聲音信息中分離出交互對象語音之外的背景聲音。接著解析背景聲音信息以確認(rèn)交互對象/機(jī)器人所處的交互環(huán)境(是處于安靜的室內(nèi)還是處于車流量大的道路附近、周圍是否有其他人等等)(步驟S520)。最后輸出包含解析結(jié)果的交互環(huán)境特征信息(步驟S530)。這樣在之后的交互行為輸出步驟中,機(jī)器人就可以根據(jù)所處的交互環(huán)境輸出相應(yīng)的交互行為(例如處于車流量大的道路附近(背景聲音信息中存在大量車輛行駛以及鳴笛聲)時(shí)提醒用戶離開時(shí)注意交通安全)。
[0092]需要說明的是,在圖3或圖4所示實(shí)施例中,最終輸出的交互對象特征信息包含是否存在交互對象的表示信息、交互對象面部定位信息、交互對象身份信息以及交互對象情緒信息。當(dāng)然的,在實(shí)際執(zhí)行過程中,根據(jù)具體的圖像信息,上述信息中的一個(gè)或多個(gè)可以為空。另外,在本發(fā)明其他實(shí)施例中,根據(jù)具體的交互需求也可以簡化步驟,取消上述一個(gè)或多個(gè)信息的生成步驟(例如在不需要針對用戶身份采取不同交互策略的場合,可以取消步驟S232或步驟S432)。
[0093]另外,在圖2-圖5所示實(shí)施例中,分別基于對圖像信息和聲音信息的分析獲取詳細(xì)的交互對象特征信息和交互環(huán)境特征信息。但這里需要指出的是,在實(shí)際執(zhí)行過程中,圖2-圖5所示實(shí)施例分別只是整體執(zhí)行流程一部分。單純的僅僅只依靠圖2-圖5所示實(shí)施例中的一個(gè)實(shí)施例并不能獲取足夠準(zhǔn)確可靠的信息。
[0094]例如,步驟S210通過檢測圖像信息中是否存在人形來判斷是否存在可以交互的對象,但是當(dāng)圖像信息中不存在人形時(shí),有可能用戶是在機(jī)器人視線以外,此時(shí)用戶依然可以基于語音和機(jī)器人交互。同樣,步驟S410通過檢測聲音信息中是否包含交互對象語音來判斷是否存在可以交互的對象,但是當(dāng)聲音信息中不存在交互對象語音時(shí),有可能用戶沒有發(fā)出任何聲音,但機(jī)器人面前是存在用戶的。
[0095]因此,步驟S210或S410的判斷結(jié)果并不是一個(gè)真正確定的結(jié)果,只能是用于輔助機(jī)器人進(jìn)行下一步的判斷。基于上述情況,在本發(fā)明一實(shí)施例中,采用了同時(shí)執(zhí)行步驟S210以及步驟S410的方式,綜合人形檢測以及交互對象語音檢測的檢測結(jié)果來判斷當(dāng)前是否存在交互對象。
[0096]如圖6所示,首先執(zhí)行步驟S600,采集圖像信息以及聲音信息。然后執(zhí)行步驟S610,人形檢測步驟(包含活體檢測步驟),檢測獲取到的圖像信息中是否存在人形。
[0097]如果存在人形,則執(zhí)行步驟S611,分離面部圖像步驟,從步驟S610中所確認(rèn)的人形圖像中解析交互對象面部圖像。接下來執(zhí)行步驟S612,解析面部圖像獲取面部圖像的解析結(jié)果。同時(shí),執(zhí)行步驟S613,定位面部圖像步驟,對交互對象面部圖像進(jìn)行定位。
[0098]在對交互對象面部圖像處理的同時(shí)(或者之前/之后),機(jī)器人針對聲音信息進(jìn)行處理。執(zhí)行步驟S630,交互對象語音檢測步驟,檢測獲取到的聲音信息中是否包含交互對象語音。
[0099]如果聲音信息中包含交互對象語音,則執(zhí)行步驟S631,分離交互對象語音,并接著執(zhí)行步驟S632,解析交互對象語音。
[0100]在交互對象語音和交互對象面部圖像解析完畢后(步驟S632以及步驟S612執(zhí)行完畢)執(zhí)行步驟S640,綜合分析圖像解析結(jié)果以及語音解析結(jié)果以確定交互對象特征信息(交互對象的身份、情緒等)。特別的,當(dāng)步驟S630中的結(jié)果是聲音信息中不包含交互對象語音,在步驟S640中只分析圖像解析結(jié)果。
[0101]在步驟S613和/或步驟S640完成后就可以執(zhí)行步驟S650,輸出交互對象特征信息(包含交互對象面部定位信息、交互對象身份和/或交互對象情緒)。
[0102]特別的,在上述過程中,如果步驟S610的檢測結(jié)果是不存在人形,則執(zhí)行步驟S620,交互對象語音檢測步驟,檢測獲取到的聲音信息中是否包含交互對象語音。如果聲音信息中不包含交互對象語音(圖像信息中也不存在人形),則說明當(dāng)前沒有交互對象,此時(shí)執(zhí)行步驟S650,輸出交互對象特征信息。在這種情況下,輸出的交互對象特征信息中標(biāo)記著當(dāng)前不存在交互對象。
[0103]當(dāng)存在交互對象語音(但是圖像信息中不存在人形)時(shí)則對交互對象語音做進(jìn)一步分析,首先執(zhí)行步驟S621,分離交互對象語音步驟,從聲音信息中解析交互對象語音。接下來執(zhí)行步驟S622,定位交互對象,對交互對象語音進(jìn)行音源分析定位交互對象語音的發(fā)出位置(交互對象位置)。
[0104]在步驟S622完成后就可以輸出包含交互對象定位信息的交互對象特征信息。機(jī)器人就可以根據(jù)交互對象定位信息轉(zhuǎn)動(dòng)頭部使得機(jī)器人眼睛(采集圖像信息的攝像頭)正對交互對象(執(zhí)行步驟S623)。這樣,再次進(jìn)行人形檢測(執(zhí)行步驟S624),此時(shí)機(jī)器人眼睛(采集圖像信息的攝像頭)獲取的圖像信息中就包含人形(用戶圖像)。
[0105]接下來執(zhí)行步驟S661,分離面部圖像(步驟S611);進(jìn)一步執(zhí)行步驟S662定位面部圖像(步驟S613)以及步驟S663解析面部圖像(步驟S612),同時(shí)執(zhí)行步驟S625解析交互對象語音(步驟S632);最后執(zhí)行步驟S664綜合分析圖像/語音解析結(jié)果(步驟S640)。最終,在步驟S650中輸出交互對象特征信息。
[0106]特別的,如果再次進(jìn)行人形檢測(步驟S624)時(shí),機(jī)器人獲取的圖像信息中依然不包含人形(用戶圖像)(由于視線受遮擋等原因),則直接執(zhí)行步驟S625,解析當(dāng)前的用戶語音(步驟632)并最終把語音解析的結(jié)果通過步驟S650輸出。
[0107]進(jìn)一步的,在本發(fā)明一實(shí)施例中,在分析獲取交互環(huán)境特征信息時(shí)也采用了綜合背景圖像(圖3所示實(shí)施例)和背景聲音(圖5所示實(shí)施例)的分析結(jié)果來分析獲取交互環(huán)境特征信息。
[0108]基于本發(fā)明的交互方法本發(fā)明還提出了一種機(jī)器人系統(tǒng)。如圖7所示,在本發(fā)明一實(shí)施例中,機(jī)器人系統(tǒng)包括采集模塊700、輸入分析模塊710、交互情景生成模塊730、語義解析模塊720以及交互輸出模塊740。
[0109]采集模塊700配置為采集多模態(tài)的外界輸入信息。在本實(shí)施例中,采集模塊700包含文字信息采集裝置701、圖像信息采集裝置702、聲音信息采集裝置703和感應(yīng)信息采集裝置704。進(jìn)一步的,采集模塊700還包括機(jī)器人自檢信息采集裝置。機(jī)器人自檢信息采集裝置可通過機(jī)器人硬件部件中的自檢部件實(shí)現(xiàn),或以軟硬件結(jié)合方式實(shí)現(xiàn),并不局限。
[0110]需要指出的是,根據(jù)具體需求,在本發(fā)明其他實(shí)施例中,采集模塊700中可以構(gòu)造上述裝置中的一個(gè)或幾個(gè),或者構(gòu)造具有其他采集功能的裝置。
[0111]輸入分析模塊710配置為分析外界輸入信息以確定交互輸入信息、交互對象特征信息以及交互環(huán)境特征信息。交互情景生成模塊730配置為對交互對象特征信息以及交互環(huán)境特征信息進(jìn)行分析以獲取匹配的交互情景限定。語義解析模塊720配置為對交互輸入信息進(jìn)行語義解析以獲取交互對象的交互意圖。交互輸出模塊740配置為在交互情景限定下,根據(jù)交互意圖進(jìn)行多模態(tài)的交互行為輸出。
[0112]與現(xiàn)有技術(shù)相比,本發(fā)明的系統(tǒng)可以更好的模擬人與人交互過程中人類交互行為的分析生成過程,從而獲得更加自然生動(dòng)的交互輸出,大大提高了機(jī)器人的應(yīng)用體驗(yàn)。
[0113]具體的,在本實(shí)施例中,輸入分析模塊710包含針對圖像信息的人形確認(rèn)裝置711、面部圖像定位裝置712以及面部圖像解析裝置713。其中,人形確認(rèn)裝置711配置為監(jiān)測圖像信息中是否包含人形以確定當(dāng)前是否存在交互對象。面部圖像定位裝置712配置為:當(dāng)圖像信息中包含人形時(shí)從圖像信息中解析交互對象面部圖像;定位交互對象面部圖像。面部圖像解析裝置713配置為:從交互對象面部圖像中提取并分析面部特征信息;確定面部特征信息所表征的交互對象情緒或交互對象身份。
[0114]輸入分析模塊710還包含針對聲音信息的交互對象語音確認(rèn)裝置714、語音定位裝置715以及交互對象語音解析裝置716。其中,交互對象語音確認(rèn)裝置714配置為監(jiān)測聲音信息中是否包含交互對象語音以確定當(dāng)前是否存在交互對象。語音定位裝置715配置為:當(dāng)聲音信息中包含交互對象語音時(shí)對交互對象語音進(jìn)行音源定位以確定交互對象位置。交互對象語音解析裝置716配置為對交互對象語音進(jìn)行聲紋解析以確定交互對象語音所表征的交互對象情緒或交互對象身份。
[0115]這里需要說明的是,根據(jù)具體需求,在本發(fā)明其他實(shí)施例中,輸入分析模塊710中可以構(gòu)造上述裝置中的一個(gè)或幾個(gè),或者構(gòu)造具有其他分析功能的裝置。
[0116]雖然本發(fā)明所公開的實(shí)施方式如上,但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實(shí)施方式,并非用以限定本發(fā)明。本發(fā)明所述的方法還可有其他多種實(shí)施例。在不背離本發(fā)明實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變或變形,但這些相應(yīng)的改變或變形都應(yīng)屬于本發(fā)明的權(quán)利要求的保護(hù)范圍。
【主權(quán)項(xiàng)】
1.一種機(jī)器人交互方法,其特征在于,所述方法包括以下步驟: 采集多模態(tài)的外界輸入信息,所述外界輸入信息包含文字信息、圖像信息、聲音信息、機(jī)器人自檢信息和感應(yīng)信息; 分析所述外界輸入信息以獲取交互輸入信息、交互對象特征信息以及交互環(huán)境特征信息; 對所述交互對象特征信息以及所述交互環(huán)境特征信息進(jìn)行分析以獲取匹配的交互情景限定; 對所述交互輸入信息進(jìn)行語義解析以獲取交互對象的交互意圖; 在所述交互情景限定下,根據(jù)所述交互意圖進(jìn)行多模態(tài)的交互行為輸出。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,分析所述外界輸入信息以確定交互對象特征信息,包括: 監(jiān)測所述圖像信息中是否包含人形以確定當(dāng)前是否存在可以交互的對象。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,分析所述外界輸入信息以確定交互對象特征信息,包括: 當(dāng)所述圖像信息中包含人形時(shí)從所述圖像信息中解析交互對象面部圖像; 定位所述交互對象面部圖像。4.根據(jù)權(quán)利要求2或3所述的方法,其特征在于,分析所述外界輸入信息以確定交互對象特征信息,包括: 當(dāng)所述圖像信息中包含人形時(shí)從所述圖像信息中解析交互對象面部圖像; 從所述交互對象面部圖像中提取并分析面部特征信息; 確定所述面部特征信息所表征的交互對象情緒或交互對象身份。5.根據(jù)權(quán)利要求1-4中任一項(xiàng)中所述的方法,其特征在于,分析所述外界輸入信息以確定交互對象特征信息,包括: 監(jiān)測所述聲音信息中是否包含交互對象語音以確定當(dāng)前是否存在可以交互的對象。6.根據(jù)權(quán)利要求5中所述的方法,其特征在于,分析所述外界輸入信息以確定交互對象特征信息,包括: 當(dāng)所述聲音信息中包含交互對象語音時(shí)分離所述交互對象語音; 解析所述交互對象語音以確定所述交互對象語音所表征的交互對象情緒或用戶身份。7.一種機(jī)器人系統(tǒng),其特征在于,所述系統(tǒng)包括: 采集模塊,其配置為采集多模態(tài)的外界輸入信息,所述采集模塊包含文字信息采集裝置、圖像信息采集裝置、聲音信息采集裝置、機(jī)器人自檢信息采集裝置和感應(yīng)信息采集裝置; 輸入分析模塊,其配置為分析所述外界輸入信息以獲取交互輸入信息、交互對象特征信息以及交互環(huán)境特征信息; 交互情景生成模塊,其配置為對所述交互對象特征信息以及所述交互環(huán)境特征信息進(jìn)行分析以獲取匹配的交互情景限定; 語義解析模塊,其配置為對所述交互輸入信息進(jìn)行語義解析以獲取交互對象的交互意圖; 交互輸出模塊,其配置為在所述交互情景限定下,根據(jù)所述交互意圖進(jìn)行多模態(tài)的交互行為輸出。8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述輸入分析模塊包含人形確認(rèn)裝置,所述人形確認(rèn)裝置配置為監(jiān)測所述圖像信息中是否包含人形以確定當(dāng)前是否存在交互對象。9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述輸入分析模塊還包含面部圖像定位裝置,所述面部圖像定位裝置配置為: 當(dāng)所述圖像信息中包含人形時(shí)從所述圖像信息中解析交互對象面部圖像; 定位所述交互對象面部圖像。10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述輸入分析模塊還包含面部圖像解析裝置,所述面部圖像解析裝置配置為: 從所述交互對象面部圖像中提取并分析面部特征信息; 確定所述面部特征信息所表征的交互對象情緒或交互對象身份。
【文檔編號】G05B19/042GK105843118SQ201610179223
【公開日】2016年8月10日
【申請日】2016年3月25日
【發(fā)明人】郭家, 石琰
【申請人】北京光年無限科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1