本發(fā)明涉及通訊技術(shù)領(lǐng)域,具體涉及一種會話場景數(shù)據(jù)庫的創(chuàng)建方法及裝置。
背景技術(shù):
目前,不管是智能聊天機器人系統(tǒng)提供的智能聊天回復內(nèi)容、還是移動通訊終端提供給通訊雙方用于選擇或智能回復的聊天回復內(nèi)容,大多是通過數(shù)據(jù)庫匹配的方式獲取,例如針對會話發(fā)起句“一起去旅游嗎?”,其回答可通過匹配與“旅游”話題對應(yīng)的數(shù)據(jù)庫獲得與之對應(yīng)的回復結(jié)果(例如“好呀,我喜歡旅游?!?,然而,針對同一個會話發(fā)起句(例如“一起去旅游嗎?”)在現(xiàn)實生活中往往需要有不同的回復結(jié)果(例如“天氣不好,下次再去,怎么樣?”、“我比較喜歡宅在家,不喜歡旅游?!薄ⅰ白罱ぷ魈α?,抽不出時間去旅游?!钡鹊?。
針對該問題,盡管可以通過在不同的數(shù)據(jù)庫中針對該會話發(fā)起句均設(shè)置會話答復句,例如針對上述會話發(fā)起句,便可以分別在關(guān)于天氣、興趣愛好、時間等數(shù)據(jù)庫中設(shè)置會話答復句,或者在同一個數(shù)據(jù)庫中針對該會話發(fā)起句設(shè)置多個會話答復句來解決。但是依然存在以下問題:1、通過在不同的數(shù)據(jù)庫中針對同一個會話發(fā)起句均設(shè)置會話答復句,勢必會增大數(shù)據(jù)庫創(chuàng)建的復雜度和工作量,從而影響數(shù)據(jù)匹配的效率;2、匹配沒有針對性,從而導致匹配精度低;3、通過在同一個數(shù)據(jù)庫中針對同一個會話發(fā)起句設(shè)置多個會話答復句容易導致設(shè)置的會話答復句不完備,從而影響匹配的精度。
技術(shù)實現(xiàn)要素:
本發(fā)明提供了一種會話場景數(shù)據(jù)庫的創(chuàng)建方法及裝置,以解決采用現(xiàn)有的會話場景數(shù)據(jù)庫匹配與會話發(fā)起句對應(yīng)的回復結(jié)果出現(xiàn)的匹配效率和匹配精度不高的技術(shù)問題。
根據(jù)本發(fā)明的一方面,提供了一種會話場景數(shù)據(jù)庫的創(chuàng)建方法,包括:
預先設(shè)定至少一個場景信息項;
建立與場景信息項對應(yīng)的初始數(shù)據(jù)庫,初始數(shù)據(jù)庫包括至少一個以場景信息項為會話主題的初始會話對,初始會話對以二元句對的形式進行保存;
獲取與初始會話對語義關(guān)聯(lián)的初始數(shù)據(jù)庫作為初始會話對的關(guān)聯(lián)數(shù)據(jù)庫;
在關(guān)聯(lián)數(shù)據(jù)庫中創(chuàng)建以關(guān)聯(lián)數(shù)據(jù)庫對應(yīng)的場景信息項為會話主題且與初始會話對中的會話發(fā)起句對應(yīng)的關(guān)聯(lián)答復句,并將會話發(fā)起句以及關(guān)聯(lián)答復句作為初始會話對的關(guān)聯(lián)會話對;
將場景信息項對應(yīng)的初始數(shù)據(jù)庫中的初始會話對,以及以初始數(shù)據(jù)庫作為關(guān)聯(lián)數(shù)據(jù)庫時在其中創(chuàng)建的關(guān)聯(lián)會話對,作為場景信息項的場景數(shù)據(jù)庫;
將場景信息項對應(yīng)的場景數(shù)據(jù)庫的集合作為會話場景數(shù)據(jù)庫。
進一步地,獲取與初始會話對語義關(guān)聯(lián)的初始數(shù)據(jù)庫,作為初始會話對的關(guān)聯(lián)數(shù)據(jù)庫包括:
選取預先設(shè)定的與初始會話對語義關(guān)聯(lián)度大于預設(shè)關(guān)聯(lián)閾值的場景信息項對應(yīng)的初始數(shù)據(jù)庫作為初始會話對的關(guān)聯(lián)數(shù)據(jù)庫。
進一步地,獲取與初始會話對語義關(guān)聯(lián)的初始數(shù)據(jù)庫,作為初始會話對的關(guān)聯(lián)數(shù)據(jù)庫包括:
采集初始會話對所屬的初始數(shù)據(jù)庫中的所有初始會話對作為樣本會話對;
計算樣本會話對中的樣本會話發(fā)起句或樣本會話答復句與除初始會話對對應(yīng)的場景信息項外的其他場景信息項之間的相似度,獲得與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項;
將與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項對應(yīng)的初始數(shù)據(jù)庫作為初始會話對的關(guān)聯(lián)數(shù)據(jù)庫。
進一步地,計算樣本會話對中的樣本會話發(fā)起句或樣本會話答復句與除初始會話對對應(yīng)的場景信息項外的其他場景信息項之間的相似度,獲得與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項包括:
對樣本會話對中的樣本會話發(fā)起句或樣本會話答復句進行預處理,獲得分詞文本,預處理包括分詞、語義消歧、詞性標注;
計算分詞文本對應(yīng)的詞向量與除初始會話對對應(yīng)的場景信息項外的其他場景信息項對應(yīng)的詞向量之間的相似度;
選取相似度大于預設(shè)相似度閾值的場景信息項作為與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項。
進一步地,選取相似度大于預設(shè)相似度閾值的場景信息項作為與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項之后還包括:
根據(jù)分詞文本對應(yīng)的詞向量與除初始會話對對應(yīng)的場景信息項外的其他場景信息項對應(yīng)的詞向量之間的相似度,創(chuàng)建分詞文本與場景信息項之間的關(guān)聯(lián)映射關(guān)系表,并保存關(guān)聯(lián)映射關(guān)系表。
進一步地,場景信息項包括:
姓名、性別、年齡、即時通訊賬號、電子郵箱地址、家庭地址、職業(yè)類別、職務(wù)、工作單位、單位地址、銀行賬號、好友印象、興趣愛好、朋友圈狀態(tài)、心情、最近關(guān)注話題、當前通訊狀態(tài)、時間、節(jié)日、季節(jié)、地理位置信息、距離、標記添加的備注信息、通訊頻率、通訊次數(shù)、通訊時長、發(fā)起歷史通訊的選擇方式,其中,選擇方式包括從通訊錄發(fā)起通訊方式、從歷史通話記錄發(fā)起通訊方式、從短信通訊模塊發(fā)起通訊方式以及從撥號盤發(fā)起通訊方式。
根據(jù)本發(fā)明的另一方面,提供了一種會話場景數(shù)據(jù)庫的創(chuàng)建裝置,包括:
預設(shè)裝置,用于預先設(shè)定至少一個場景信息項;
初始數(shù)據(jù)庫創(chuàng)建裝置,用于建立與場景信息項對應(yīng)的初始數(shù)據(jù)庫,初始數(shù)據(jù)庫包括至少一個以場景信息項為會話主題的初始會話對,初始會話對以二元句對的形式進行保存;
關(guān)聯(lián)數(shù)據(jù)庫獲取裝置,用于獲取與初始會話對語義關(guān)聯(lián)的初始數(shù)據(jù)庫作為初始會話對的關(guān)聯(lián)數(shù)據(jù)庫;
關(guān)聯(lián)答復句創(chuàng)建裝置,用于在關(guān)聯(lián)數(shù)據(jù)庫中創(chuàng)建以關(guān)聯(lián)數(shù)據(jù)庫對應(yīng)的場景信息項為會話主題且與初始會話對中的會話發(fā)起句對應(yīng)的關(guān)聯(lián)答復句,并將會話發(fā)起句以及關(guān)聯(lián)答復句作為初始會話對的關(guān)聯(lián)會話對;
場景數(shù)據(jù)庫獲取裝置,用于將場景信息項對應(yīng)的初始數(shù)據(jù)庫中的初始會話對,以及以初始數(shù)據(jù)庫作為關(guān)聯(lián)數(shù)據(jù)庫時在其中創(chuàng)建的關(guān)聯(lián)會話對作為場景信息項的場景數(shù)據(jù)庫;
會話場景數(shù)據(jù)庫獲取裝置,用于將場景信息項對應(yīng)的場景數(shù)據(jù)庫的集合作為會話場景數(shù)據(jù)庫。
進一步地,關(guān)聯(lián)數(shù)據(jù)庫獲取裝置包括:
關(guān)聯(lián)數(shù)據(jù)庫選取裝置,用于選取預先設(shè)定的與初始會話對語義關(guān)聯(lián)度大于預設(shè)關(guān)聯(lián)閾值的場景信息項對應(yīng)的初始數(shù)據(jù)庫作為初始會話對的關(guān)聯(lián)數(shù)據(jù)庫。
進一步地,關(guān)聯(lián)數(shù)據(jù)庫獲取裝置包括:
樣本會話對采集裝置,用于采集初始會話對所屬的初始數(shù)據(jù)庫中的所有初始會話對作為樣本會話對;
關(guān)聯(lián)場景信息項獲取裝置,用于計算樣本會話對中的樣本會話發(fā)起句或樣本會話答復句與除初始會話對對應(yīng)的場景信息項外的其他場景信息項之間的相似度,獲得與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項;
對應(yīng)裝置,用于將與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項對應(yīng)的初始數(shù)據(jù)庫作為初始會話對的關(guān)聯(lián)數(shù)據(jù)庫。
進一步地,關(guān)聯(lián)場景信息項獲取裝置包括:
預處理裝置,用于對樣本會話對中的樣本會話發(fā)起句或樣本會話答復句進行預處理,獲得分詞文本,預處理包括分詞、語義消歧、詞性標注;
相似度計算裝置,用于計算分詞文本對應(yīng)的詞向量與除初始會話對對應(yīng)的場景信息項外的其他場景信息項對應(yīng)的詞向量之間的相似度;
相似度選取裝置,用于選取相似度大于預設(shè)相似度閾值的場景信息項作為與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項。
本發(fā)明具有以下有益效果:
本發(fā)明提供了一種會話場景數(shù)據(jù)庫的創(chuàng)建方法及裝置,該方法通過獲取與初始數(shù)據(jù)庫中的初始會話對語義關(guān)聯(lián)的關(guān)聯(lián)數(shù)據(jù)庫,并在獲得的關(guān)聯(lián)數(shù)據(jù)庫中均建立與關(guān)聯(lián)數(shù)據(jù)庫對應(yīng)的 場景信息項為會話主題且與初始會話對中的會話發(fā)起句對應(yīng)的關(guān)聯(lián)答復句,解決了采用現(xiàn)有的會話場景數(shù)據(jù)庫匹配與會話發(fā)起句對應(yīng)的回復結(jié)果出現(xiàn)的匹配效率和匹配精度不高的技術(shù)問題,通過在初始會話對的關(guān)聯(lián)數(shù)據(jù)庫中設(shè)置初始會話對的關(guān)聯(lián)會話對,增加了匹配與初始會話對中的會話發(fā)起句對應(yīng)的回復結(jié)果的多樣性,使得匹配獲得的回復結(jié)果更豐富,符合實際需要,增強用戶體驗,且通過僅在與初始會話對語義關(guān)聯(lián)的初始數(shù)據(jù)庫中建立關(guān)聯(lián)會話對,減小了會話場景數(shù)據(jù)庫創(chuàng)建的工作量和復雜度,從而大大地提高了匹配效率,且使得匹配更具有針對性,同時提高了匹配與會話發(fā)起句對應(yīng)的回復結(jié)果的匹配精度。
除了上面所描述的目的、特征和優(yōu)點之外,本發(fā)明還有其它的目的、特征和優(yōu)點。下面將參照圖,對本發(fā)明作進一步詳細的說明。
附圖說明
構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進一步理解,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當限定。在附圖中:
圖1是本發(fā)明優(yōu)選實施例的會話場景數(shù)據(jù)庫的創(chuàng)建方法流程圖;
圖2是本發(fā)明優(yōu)選實施例針對一個具體的實施例創(chuàng)建會話場景數(shù)據(jù)庫的方法流程圖;
圖3是基于本發(fā)明優(yōu)選實施例創(chuàng)建的會話場景數(shù)據(jù)庫獲取與會話發(fā)起句匹配的會話答復句的方法流程圖;
圖4是本發(fā)明優(yōu)選實施例的會話場景數(shù)據(jù)庫的創(chuàng)建裝置結(jié)構(gòu)框圖。
附圖標記說明:
10、預設(shè)裝置;20、初始數(shù)據(jù)庫創(chuàng)建裝置;30、關(guān)聯(lián)數(shù)據(jù)庫獲取裝置;40、關(guān)聯(lián)答復句創(chuàng)建裝置、50、場景數(shù)據(jù)庫獲取裝置;60、會話場景數(shù)據(jù)庫獲取裝置。
具體實施方式
以下結(jié)合附圖對本發(fā)明的實施例進行詳細說明,但是本發(fā)明可以由權(quán)利要求限定和覆蓋的多種不同方式實施。
參照圖1,本發(fā)明的優(yōu)選實施例提供了一種會話場景數(shù)據(jù)庫的創(chuàng)建方法,包括:
步驟S101,預先設(shè)定至少一個場景信息項;
步驟S102,建立與場景信息項對應(yīng)的初始數(shù)據(jù)庫,初始數(shù)據(jù)庫包括至少一個以場景信息項為會話主題的初始會話對,初始會話對以二元句對的形式進行保存;
步驟S103,獲取與初始會話對語義關(guān)聯(lián)的初始數(shù)據(jù)庫作為初始會話對的關(guān)聯(lián)數(shù)據(jù)庫;
步驟S104,在關(guān)聯(lián)數(shù)據(jù)庫中創(chuàng)建以關(guān)聯(lián)數(shù)據(jù)庫對應(yīng)的場景信息項為會話主題且與初始會話對中的會話發(fā)起句對應(yīng)的關(guān)聯(lián)答復句,并將會話發(fā)起句以及關(guān)聯(lián)答復句作為初始會話對的關(guān)聯(lián)會話對;
步驟S105,將場景信息項對應(yīng)的初始數(shù)據(jù)庫中的初始會話對,以及以初始數(shù)據(jù)庫作為關(guān) 聯(lián)數(shù)據(jù)庫時在其中創(chuàng)建的關(guān)聯(lián)會話對作為場景信息項的場景數(shù)據(jù)庫;
步驟S106,將場景信息項對應(yīng)的場景數(shù)據(jù)庫的集合作為會話場景數(shù)據(jù)庫。
本發(fā)明優(yōu)選實施例的會話場景數(shù)據(jù)庫的創(chuàng)建方法,通過獲取與初始數(shù)據(jù)庫中的初始會話對語義關(guān)聯(lián)的關(guān)聯(lián)數(shù)據(jù)庫,并在獲得的關(guān)聯(lián)數(shù)據(jù)庫中均建立與關(guān)聯(lián)數(shù)據(jù)庫對應(yīng)的場景信息項為會話主題且與初始會話對中的會話發(fā)起句對應(yīng)的關(guān)聯(lián)答復句,解決了采用現(xiàn)有的會話場景數(shù)據(jù)庫匹配與會話發(fā)起句對應(yīng)的回復結(jié)果出現(xiàn)的匹配效率和匹配精度不高的技術(shù)問題,通過在初始會話對的關(guān)聯(lián)數(shù)據(jù)庫中設(shè)置初始會話對的關(guān)聯(lián)會話對,增加了匹配與初始會話對中的會話發(fā)起句對應(yīng)的回復結(jié)果的多樣性,使得匹配獲得的回復結(jié)果更豐富,符合實際需要,增強用戶體驗,且通過僅在與初始會話對語義關(guān)聯(lián)的初始數(shù)據(jù)庫中建立關(guān)聯(lián)會話對,減小了會話場景數(shù)據(jù)庫創(chuàng)建的工作量和復雜度,從而大大地提高了匹配效率,且使得匹配更具有針對性,同時提高了匹配與會話發(fā)起句對應(yīng)的回復結(jié)果的匹配精度。
需要說明的是,本實施例中所指的語義關(guān)聯(lián)可以通過多種方式對其進行度量,例如采用文本相似度的方式度量語義關(guān)聯(lián)度、或采用人為預設(shè)關(guān)聯(lián)度的方式度量語義關(guān)聯(lián)度等等。
可選地,獲取與初始會話對語義關(guān)聯(lián)的初始數(shù)據(jù)庫作為初始會話對的關(guān)聯(lián)數(shù)據(jù)庫包括:
選取預先設(shè)定的與初始會話對語義關(guān)聯(lián)度大于預設(shè)關(guān)聯(lián)閾值的場景信息項對應(yīng)的初始數(shù)據(jù)庫作為初始會話對的關(guān)聯(lián)數(shù)據(jù)庫。
本實施例通過預先設(shè)定初始會話對與初始數(shù)據(jù)庫的語義關(guān)聯(lián)度獲得與初始會話對語義關(guān)聯(lián)的初始數(shù)據(jù)庫,其中預設(shè)的語義關(guān)聯(lián)度是根據(jù)日常生活經(jīng)驗人為設(shè)置的。參照表1,表1給出了幾種不同的初始會話對(表1僅僅取初始會話對的會話發(fā)起句)及人為預設(shè)的與其對應(yīng)的關(guān)聯(lián)場景信息項。例如,如果初始會話對包含“旅游”這種分詞文本的話,那么就預設(shè)該初始會話對與場景信息項(時間、天氣、地點、興趣愛好)的語義關(guān)聯(lián)度大于預設(shè)關(guān)聯(lián)閾值,具體地,可以設(shè)置語義關(guān)聯(lián)度為“0”或“1”,預設(shè)關(guān)聯(lián)閾值為“0”,這主要是基于在日常生活經(jīng)驗中,當涉及到初始會話對包含“旅游”的分詞文本時,人們在思考與該初始會話對對應(yīng)的回復結(jié)果時,務(wù)必會考慮天氣好壞的因素、有沒有時間的因素、地點因素以及是否有旅游興趣愛好因素等等,而當初始會話對包含“發(fā)郵件”的分詞文本時,則人們在思考與該初始會話對對應(yīng)的回復結(jié)果時,務(wù)必會考慮電子郵箱發(fā)送或接收的電子郵箱地址因素,而基本不會考慮天氣好壞的因素。
表1
需要說明的是,本實施例中所指的語義關(guān)聯(lián)度是人為賦予的關(guān)聯(lián)度,且本實施例針對不同的初始會話對預設(shè)的語義關(guān)聯(lián)度并非是精確的絕對值,而僅僅是根據(jù)日常經(jīng)驗以及人們思考問題的邏輯思維方式所賦予的相對精準的估計值。
可選地,獲取與初始會話對語義關(guān)聯(lián)的初始數(shù)據(jù)庫作為初始會話對的關(guān)聯(lián)數(shù)據(jù)庫包括:
采集初始會話對所屬的初始數(shù)據(jù)庫中的所有初始會話對作為樣本會話對;
計算樣本會話對中的樣本會話發(fā)起句或樣本會話答復句與除初始會話對對應(yīng)的場景信息項外的其他場景信息項之間的相似度,獲得與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項;
將與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項對應(yīng)的初始數(shù)據(jù)庫作為初始會話對的關(guān)聯(lián)數(shù)據(jù)庫。
具體地,假設(shè)本實施例的場景信息項包括m個場景信息項,表示為{t1、t2、…、tm},初始會話對表示為chat1,且chat1所屬的初始數(shù)據(jù)庫為S1(對應(yīng)的場景信息項為t1),且假設(shè)初始數(shù)據(jù)庫為S1包括的樣本會話對為N個,具體表示為{chat1、chat2、…、chatN},則在計算樣本會話對中的樣本會話發(fā)起句或樣本會話答復句與除初始會話對對應(yīng)的場景信息項外的其他場景信息項之間的相似度具體是分別計算樣本會話對chat2、…、chatN與場景信息項t2、t3、…、tm之間的相似度。
由于通過人為預設(shè)語義關(guān)聯(lián)度的方式獲取初始會話對的關(guān)聯(lián)數(shù)據(jù)庫,可能出現(xiàn)預設(shè)工作量太大,人工智能化程度低以及由于人工預設(shè)語義關(guān)聯(lián)度主觀性太強導致后續(xù)數(shù)據(jù)庫匹配準確度不高的問題,故本實施例通過計算樣本會話發(fā)起句或樣本會話答復句與除初始會話對對應(yīng)的場景信息項外的其他場景信息項之間的相似度,獲得與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項。由于樣本會話發(fā)起句或樣本會話答復句與初始會話對同屬于一個會話主題,且樣本會話答復句更是樣本會話發(fā)起句的答案指向內(nèi)容,故其對獲取與初始會話對關(guān)聯(lián)的場景數(shù)據(jù)庫有很大的輔助作用,故本實施例較新穎地通過計算樣本會話發(fā)起句或樣本會話答復句與除初始會話對對應(yīng)的場景信息項外的其他場景信息項之間的相似度,獲得與初始會話對語義關(guān)聯(lián)的初始數(shù)據(jù)庫。
本實施例通過從樣本會話發(fā)起句或樣本會話答復句出發(fā)獲得與初始會話對關(guān)聯(lián)的場景信息項,一方面充分考慮了針對初始會話對中的會話發(fā)起句的日常常見的回復結(jié)果,從而能獲取較完備的關(guān)聯(lián)場景項,為后續(xù)數(shù)據(jù)庫匹配奠定了基礎(chǔ),另一方面,提高了關(guān)聯(lián)數(shù)據(jù)庫獲取的準確度,從而提高了后續(xù)會話場景數(shù)據(jù)匹配的匹配精度,相對于人為預先設(shè)置語義關(guān)聯(lián)度的效率和精確度更高。
可選地,計算樣本會話對中的樣本會話發(fā)起句或樣本會話答復句與除初始會話對對應(yīng)的 場景信息項外的其他場景信息項之間的相似度,獲得與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項包括:
對樣本會話對中的樣本會話發(fā)起句或樣本會話答復句進行預處理,獲得分詞文本,預處理包括分詞、語義消歧、詞性標注;
計算分詞文本對應(yīng)的詞向量與除初始會話對對應(yīng)的場景信息項外的其他場景信息項對應(yīng)的詞向量之間的相似度;
選取相似度大于預設(shè)相似度閾值的場景信息項作為與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項。
具體地,本實施例在計算分詞文本對應(yīng)的詞向量與除初始會話對對應(yīng)的場景信息項外的其他場景信息項對應(yīng)的詞向量之間的相似度時,是計算每一個分詞文本對應(yīng)的詞向量與其他場景信息項(除去初始會話對對應(yīng)的場景信息項)對應(yīng)的詞向量之間的相似度,例如假設(shè)本實施例初始會話對包含的分詞文本為{t1、t2、t3},且場景信息項包括{c1、c2、c3、c4},其中c1為初始會話對對應(yīng)的場景信息項,則分別計算分詞文本{t1、t2、t3}與場景信息項{c2、c3、c4}對應(yīng)的詞向量之間的相似度。
本實施例中的相似度是指分詞文本與場景信息項之間的相似程度,具體指語義的相似程度,通過與分詞文本和場景信息項對應(yīng)的詞向量之間的距離來表示。兩個詞向量的距離越短,說明該兩個詞向量對應(yīng)的詞的相似度越大,進一步說明兩個詞在語義更為接近。常用的描述向量距離的方式有歐氏距離、余弦夾角等。通過計算兩個詞向量的夾角余弦值來表示該詞向量對應(yīng)的兩個詞的相似度的計算公式為:其中,X、Y分別表示詞向量X和詞向量Y。cosθ的取值范圍為[0,1],cosθ越接近1時,則表示兩詞語之間的相似度越高,反之,cosθ值越接近0,則表示兩詞語之間的相似度越低。通過計算詞向量的夾角余弦值能夠較為直觀的反映出分詞文本與場景信息項的相似度,從而獲得與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項。
此外,本實施例在計算完分詞文本與場景信息項對應(yīng)的詞向量之間的相似度后,選取相似度大于預設(shè)相似度閾值的場景信息項作為與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項,本實施例不限于采用與預設(shè)相似度閾值比較的方式選取關(guān)聯(lián)場景信息項,例如還可以通過對計算出的所有分詞文本與場景信息項之間的相似度進行由高到低的順序排序,并選取預設(shè)數(shù)目的關(guān)聯(lián)場景項,具體地,假設(shè)預設(shè)數(shù)目為1,則本實施例只選擇一個與初始會話對對應(yīng)的場景信息項關(guān)聯(lián)的關(guān)聯(lián)場景信息項,即最大的相似度對應(yīng)的場景信息項。
可選地,選取相似度大于預設(shè)相似度閾值的場景信息項作為與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項之后還包括:
根據(jù)分詞文本對應(yīng)的詞向量與除初始會話對對應(yīng)的場景信息項外的其他場景信息項對應(yīng)的詞向量之間的相似度,創(chuàng)建分詞文本與場景信息項之間的關(guān)聯(lián)映射關(guān)系表,并保存關(guān)聯(lián)映射關(guān)系表。
本實施例創(chuàng)建分詞文本與場景信息項之間的映射關(guān)系表是為了方便后續(xù)采用本實施例創(chuàng)建的會話場景數(shù)據(jù)庫進行數(shù)據(jù)匹配時,快速獲取與分詞文本關(guān)聯(lián)的關(guān)聯(lián)場景信息項。
可選地,場景信息項包括:
姓名、性別、年齡、即時通訊賬號、電子郵箱地址、家庭地址、職業(yè)類別、職務(wù)、工作單位、單位地址、銀行賬號、好友印象、興趣愛好、朋友圈狀態(tài)、心情、最近關(guān)注話題、當前通訊狀態(tài)、時間、節(jié)日、季節(jié)、地理位置信息、距離、標記添加的備注信息、通訊頻率、通訊次數(shù)、通訊時長、發(fā)起歷史通訊的選擇方式,其中,選擇方式包括從通訊錄發(fā)起通訊方式、從歷史通話記錄發(fā)起通訊方式、從短信通訊模塊發(fā)起通訊方式以及從撥號盤發(fā)起通訊方式。
本實施例的場景信息項不限于只包括上述的場景信息項,同時也不限于包括上述全部的場景信息項,具體由用戶自定義或根據(jù)需要和系統(tǒng)設(shè)計復雜度和設(shè)計精度進行選取。本實施例中的發(fā)起歷史通訊的選擇方式具體包括從通訊錄發(fā)起通訊方式、從歷史通話記錄發(fā)起通訊方式、從短信通訊模塊發(fā)起通訊方式、從撥號盤發(fā)起通訊方式,這主要是基于在日常通訊場景中,通訊發(fā)起方向通訊接收方發(fā)起通訊主要包括四種選擇方式,具體為從通訊錄、從歷史通話記錄、從短信通訊模塊、從撥號盤對通訊接收方發(fā)起通訊,而根據(jù)經(jīng)驗可知,通訊發(fā)起方對于聯(lián)系較密切的通訊接收方大多數(shù)時候會選擇從歷史通話記錄發(fā)起通訊、而對于聯(lián)系較少或不常聯(lián)系的通訊接收方,則大多數(shù)時候會選擇從通訊錄對通訊接收方發(fā)起通訊,本實施例較新穎地利用這種概率事件,將發(fā)起歷史通訊的選擇方式作為一個場景信息項,不僅增加了場景信息項的選取范疇,而且使得獲取的場景信息項更全面和更準確。
下面針對一個具體的實施例對本發(fā)明實施例的會話場景數(shù)據(jù)庫的創(chuàng)建方法進行更進一步說明,參照圖2,該會話場景數(shù)據(jù)庫的創(chuàng)建具體步驟包括:
步驟S201,預先設(shè)定至少一個場景信息項。具體地,假設(shè)本實施例預先設(shè)定的場景信息項包括{a1=旅游、a2=時間、a3=天氣、a4=電子郵箱地址}。需要說明的是,本實施例針對不管是并列關(guān)系,還是從屬關(guān)系的場景信息項,創(chuàng)建會話場景數(shù)據(jù)庫的方法和步驟都一樣。例如不管是對于并列關(guān)系的場景信息項{a1=旅游、a2=時間、a3=天氣、a4=電子郵箱地址},還是對于從屬關(guān)系的場景信息項{a1=旅游、a2=海邊旅游、a3=自然風景區(qū)旅游、a4=國內(nèi)旅游場景、a5=國外旅游場景},后續(xù)創(chuàng)建會話場景數(shù)據(jù)庫的方法和步驟都一樣。
步驟S202,建立與場景信息項對應(yīng)的初始數(shù)據(jù)庫,初始數(shù)據(jù)庫包括至少一個以場景信息項為會話主題的初始會話對,初始會話對以二元句對的形式進行保存。具體地,假設(shè)本實施例中的初始數(shù)據(jù)庫均只包括一個以二元句對形式保存的初始會話對,具體見表2。
表2
步驟S203,選取預先設(shè)定的與初始會話對語義關(guān)聯(lián)度大于預設(shè)關(guān)聯(lián)閾值的場景信息項對應(yīng)的初始數(shù)據(jù)庫作為初始會話對的關(guān)聯(lián)數(shù)據(jù)庫。由于本實施例初始數(shù)據(jù)庫中的初始會話對的數(shù)量較少(僅為1),故若采用計算樣本會話答復句與場景信息項之間的相似度獲取關(guān)聯(lián)場景數(shù)據(jù)庫,將導致獲取的關(guān)聯(lián)場景數(shù)據(jù)庫的數(shù)量也少,從而影響后續(xù)匹配精度,故本實施例采用預設(shè)語義關(guān)聯(lián)度的方法獲取關(guān)聯(lián)數(shù)據(jù)庫。
具體地,假設(shè)本實施例中的初始會話對為a1=旅游場景信息項對應(yīng)的初始對話對(—想去旅游嗎?/—好呀,我最近很想去旅游。)時,預先設(shè)置與其語義關(guān)聯(lián)度大于預設(shè)關(guān)聯(lián)閾值的場景信息項為{a2=時間、a3=天氣},則初始會話對(—想去旅游嗎?/—好呀,我最近很想去旅游。)的關(guān)聯(lián)數(shù)據(jù)庫為場景信息項{a2=時間、a3=天氣}分別對應(yīng)的初始數(shù)據(jù)庫。
步驟S204,在關(guān)聯(lián)數(shù)據(jù)庫中創(chuàng)建以關(guān)聯(lián)數(shù)據(jù)庫對應(yīng)的場景信息項為會話主題且與初始會話對中的會話發(fā)起句對應(yīng)的關(guān)聯(lián)答復句,并將會話發(fā)起句以及關(guān)聯(lián)答復句作為初始會話對的關(guān)聯(lián)會話對。本實施例假設(shè)在初始會話對(—想去旅游嗎?/—好呀,我最近很想去旅游。)的關(guān)聯(lián)數(shù)據(jù)庫,即{a2=時間、a3=天氣}場景信息項對應(yīng)的初始數(shù)據(jù)庫中分別創(chuàng)建以{a2=時間、a3=天氣}為會話主題且與初始會話對中的會話發(fā)起句(—想去旅游嗎?)對應(yīng)的關(guān)聯(lián)答復句。具體地,本實施例首先在a2=時間場景信息項對應(yīng)的初始數(shù)據(jù)庫中創(chuàng)建關(guān)聯(lián)對話對,具體見表二(—想去旅游嗎?/—最近工作比較忙,沒時間去。),該關(guān)聯(lián)對話對中的關(guān)聯(lián)答復句是以a2=時間場景信息項為會話主題,且與初始會話對中的會話發(fā)起句(—想去旅游嗎?)對應(yīng)。同樣地,在a3=天氣場景信息項對應(yīng)的初始數(shù)據(jù)庫中創(chuàng)建關(guān)聯(lián)對話對,具體見表二(—想去旅游嗎?/—天氣不錯,去旅游是個不錯的建議。),該關(guān)聯(lián)對話對中的關(guān)聯(lián)答復句是以a3=天氣場景信息項為會話主題,且與初始會話對中的會話發(fā)起句(—想去旅游嗎?)對應(yīng)。
需要說明的是,本實施例僅以一個初始會話對進行說明,而在實際操作過程中,需要對所有的場景信息項對應(yīng)的初始數(shù)據(jù)庫中的所有初始會話對,均在與初始會話對關(guān)聯(lián)的關(guān)聯(lián)數(shù)據(jù)庫中創(chuàng)建以關(guān)聯(lián)數(shù)據(jù)庫對應(yīng)的場景信息項為會話主題且與初始會話對中的會話發(fā)起句對應(yīng)的關(guān)聯(lián)答復句。
步驟S205,將場景信息項對應(yīng)的初始數(shù)據(jù)庫中的初始會話對,以及以初始數(shù)據(jù)庫作為關(guān)聯(lián)數(shù)據(jù)庫時在其中創(chuàng)建的關(guān)聯(lián)會話對作為場景信息項的場景數(shù)據(jù)庫。具體地,本實施例最終獲取的與每一個場景信息項對應(yīng)的場景數(shù)據(jù)庫由兩部分組成,分別是與該場景信息項對應(yīng)的初始數(shù)據(jù)庫中的初始會話對,以及以初始數(shù)據(jù)庫作為關(guān)聯(lián)數(shù)據(jù)庫時在其中創(chuàng)建的關(guān)聯(lián)會話對。
步驟S206,將場景信息項對應(yīng)的場景數(shù)據(jù)庫的集合作為會話場景數(shù)據(jù)庫。
本發(fā)明優(yōu)選實施例的會話場景數(shù)據(jù)庫的創(chuàng)建方法,通過獲取與初始數(shù)據(jù)庫中的初始會話 對語義關(guān)聯(lián)的關(guān)聯(lián)數(shù)據(jù)庫,并在獲得的關(guān)聯(lián)數(shù)據(jù)庫中均建立與關(guān)聯(lián)數(shù)據(jù)庫對應(yīng)的場景信息項為會話主題且與初始會話對中的會話發(fā)起句對應(yīng)的關(guān)聯(lián)答復句,解決了采用現(xiàn)有的會話場景數(shù)據(jù)庫匹配與會話發(fā)起句對應(yīng)的回復結(jié)果出現(xiàn)的匹配效率和匹配精度不高的技術(shù)問題,通過在初始會話對的關(guān)聯(lián)數(shù)據(jù)庫中設(shè)置初始會話對的關(guān)聯(lián)會話對,增加了匹配與初始會話對中的會話發(fā)起句對應(yīng)的回復結(jié)果的多樣性,使得匹配獲得的回復結(jié)果更豐富,符合實際需要,增強用戶體驗,且通過僅在與初始會話對語義關(guān)聯(lián)的初始數(shù)據(jù)庫中建立關(guān)聯(lián)會話對,減小了會話場景數(shù)據(jù)庫創(chuàng)建的工作量和復雜度,從而大大地提高了匹配效率,且使得匹配更具有針對性,同時提高了匹配與會話發(fā)起句對應(yīng)的回復結(jié)果的匹配精度。
為了說明采用本實施例創(chuàng)建的會話場景數(shù)據(jù)庫在匹配與會話發(fā)起句對應(yīng)的回復結(jié)果時具有更高的匹配效率和匹配精度,本實施例對基于本實施例創(chuàng)建的會話場景數(shù)據(jù)庫進行數(shù)據(jù)匹配的方法進行說明。參照圖3,假設(shè)本實施例需要進行匹配的會話發(fā)起句為(“去哪吃飯?”),則基于本實施例創(chuàng)建的會話場景數(shù)據(jù)庫匹配與會話發(fā)起句對應(yīng)的回復結(jié)果的步驟包括:
步驟S301,對會話發(fā)起句進行預處理獲得分詞文本,預處理包括分詞、語義消歧、去除停用詞。具體地,本實施例針會話發(fā)起句進行預處理獲得的分詞文本分別為{“去”、“哪”、“吃飯”},再去除停用詞后提取出分詞文本為{“吃飯”}。
步驟S302,獲得與分詞文本關(guān)聯(lián)的場景數(shù)據(jù)庫。具體地,本實施例可以通過人為預設(shè)分詞文本與場景信息項的語義關(guān)聯(lián)度獲取,也可以通過查詢創(chuàng)建會話場景數(shù)據(jù)庫時系統(tǒng)保存的分詞文本與場景信息項的關(guān)聯(lián)映射關(guān)系表獲得,假設(shè)本實施例獲得的與分詞文本{“吃飯”}對應(yīng)的關(guān)聯(lián)場景信息項為{“時間場景信息項”、“地點場景信息項”、“朋友場景信息項”、“興趣愛好場景信息項”}。
步驟S303,在與分詞文本關(guān)聯(lián)的場景數(shù)據(jù)庫對會話發(fā)起句進行匹配,獲得與會話發(fā)起句匹配的回復結(jié)果。
通過對基于本實施例創(chuàng)建的會話場景數(shù)據(jù)庫進行數(shù)據(jù)匹配,可以發(fā)現(xiàn)采用本實施例創(chuàng)建的會話場景數(shù)據(jù)庫對會話發(fā)起句進行數(shù)據(jù)匹配,一方面,能獲得針對同一個會話發(fā)起句不同的回復結(jié)果,從而擴大了回復結(jié)果的可選范圍,符合實際生活情景需要,提高了用戶體驗,另一方面,通過只在與分詞文本關(guān)聯(lián)的場景數(shù)據(jù)庫中對會話發(fā)起句進行數(shù)據(jù)匹配,大大提高了數(shù)據(jù)匹配的匹配效率和匹配精度。
參照圖4,本發(fā)明的優(yōu)選實施例提供的會話場景數(shù)據(jù)庫的創(chuàng)建裝置,包括:
預設(shè)裝置10,用于預先設(shè)定至少一個場景信息項;
初始數(shù)據(jù)庫創(chuàng)建裝置20,用于建立與場景信息項對應(yīng)的初始數(shù)據(jù)庫,初始數(shù)據(jù)庫包括至少一個以場景信息項為會話主題的初始會話對,初始會話對以二元句對的形式進行保存;
關(guān)聯(lián)數(shù)據(jù)庫獲取裝置30,用于獲取與初始會話對語義關(guān)聯(lián)的初始數(shù)據(jù)庫作為初始會話對的關(guān)聯(lián)數(shù)據(jù)庫;
關(guān)聯(lián)答復句創(chuàng)建裝置40,用于在關(guān)聯(lián)數(shù)據(jù)庫中創(chuàng)建以關(guān)聯(lián)數(shù)據(jù)庫對應(yīng)的場景信息項為會話主題且與初始會話對中的會話發(fā)起句對應(yīng)的關(guān)聯(lián)答復句,并將會話發(fā)起句以及關(guān)聯(lián)答復句作為初始會話對的關(guān)聯(lián)會話對;
場景數(shù)據(jù)庫獲取裝置50,用于將場景信息項對應(yīng)的初始數(shù)據(jù)庫中的初始會話對,以及以初始數(shù)據(jù)庫作為關(guān)聯(lián)數(shù)據(jù)庫時在其中創(chuàng)建的關(guān)聯(lián)會話對作為場景信息項的場景數(shù)據(jù)庫;
會話場景數(shù)據(jù)庫獲取裝置60,用于將場景信息項對應(yīng)的場景數(shù)據(jù)庫的集合作為會話場景數(shù)據(jù)庫。
可選地,關(guān)聯(lián)數(shù)據(jù)庫獲取裝置30包括:
關(guān)聯(lián)數(shù)據(jù)庫選取裝置,用于選取預先設(shè)定的與初始會話對語義關(guān)聯(lián)度大于預設(shè)關(guān)聯(lián)閾值的場景信息項對應(yīng)的初始數(shù)據(jù)庫作為初始會話對的關(guān)聯(lián)數(shù)據(jù)庫。
可選地,關(guān)聯(lián)數(shù)據(jù)庫獲取裝置30包括:
樣本會話對采集裝置,用于采集初始會話對所屬的初始數(shù)據(jù)庫中的所有初始會話對作為樣本會話對;
關(guān)聯(lián)場景信息項獲取裝置,用于計算樣本會話對中的樣本會話發(fā)起句或樣本會話答復句與除初始會話對對應(yīng)的場景信息項外的其他場景信息項之間的相似度,獲得與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項;
對應(yīng)裝置,用于將與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項對應(yīng)的初始數(shù)據(jù)庫作為初始會話對的關(guān)聯(lián)數(shù)據(jù)庫。
可選地,關(guān)聯(lián)場景信息項獲取裝置包括:
預處理裝置,用于對樣本會話對中的樣本會話發(fā)起句或樣本會話答復句進行預處理,獲得分詞文本,預處理包括分詞、語義消歧、詞性標注;
相似度計算裝置,用于計算分詞文本對應(yīng)的詞向量與除初始會話對對應(yīng)的場景信息項外的其他場景信息項對應(yīng)的詞向量之間的相似度;
相似度選取裝置,用于選取相似度大于預設(shè)相似度閾值的場景信息項作為與初始會話對對應(yīng)的場景信息項的關(guān)聯(lián)場景信息項。
本發(fā)明提供的會話場景數(shù)據(jù)庫的創(chuàng)建裝置,通過獲取與初始數(shù)據(jù)庫中的初始會話對語義關(guān)聯(lián)的關(guān)聯(lián)數(shù)據(jù)庫,并在獲得的關(guān)聯(lián)數(shù)據(jù)庫中均建立與關(guān)聯(lián)數(shù)據(jù)庫對應(yīng)的場景信息項為會話主題且與初始會話對中的會話發(fā)起句對應(yīng)的關(guān)聯(lián)答復句,解決了采用現(xiàn)有的會話場景數(shù)據(jù)庫匹配與會話發(fā)起句對應(yīng)的回復結(jié)果出現(xiàn)的匹配效率和匹配精度不高的技術(shù)問題,通過在初始會話對的關(guān)聯(lián)數(shù)據(jù)庫中設(shè)置初始會話對的關(guān)聯(lián)會話對,增加了匹配與初始會話對中的會話發(fā)起句對應(yīng)的回復結(jié)果的多樣性,使得匹配獲得的回復結(jié)果更豐富,符合實際需要,增強用戶體驗,且通過僅在與初始會話對語義關(guān)聯(lián)的初始數(shù)據(jù)庫中建立關(guān)聯(lián)會話對,減小了會話場景數(shù)據(jù)庫創(chuàng)建的工作量和復雜度,從而大大地提高了匹配效率,且使得匹配更具有針對性,同時提高了匹配與會話發(fā)起句對應(yīng)的回復結(jié)果的匹配精度。本實施例的會話場景數(shù)據(jù)庫的創(chuàng)建裝置的具體工作過程和工作原理可參照本實施例中的會話場景數(shù)據(jù)庫的創(chuàng)建方法的工作過程和工作原理。
以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等 同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。