成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

序列標(biāo)注工具的訓(xùn)練方法和裝置的制造方法

文檔序號:10569999閱讀:442來源:國知局
序列標(biāo)注工具的訓(xùn)練方法和裝置的制造方法
【專利摘要】本發(fā)明提出一種序列標(biāo)注工具的訓(xùn)練方法和裝置。其中,該訓(xùn)練方法包括:獲取用戶的歷史行為數(shù)據(jù),其中,歷史行為數(shù)據(jù)包括用戶對服務(wù)提供商向所述用戶提供的信息頁面的反饋行為;以及根據(jù)歷史行為數(shù)據(jù)對序列標(biāo)注工具進(jìn)行訓(xùn)練。本發(fā)明實施例的訓(xùn)練方法提高了序列標(biāo)注工具提供服務(wù)的準(zhǔn)確性,實現(xiàn)了對序列標(biāo)注工具的及時更新,提升了用戶使用體驗。
【專利說明】
序列標(biāo)注工具的訓(xùn)練方法和裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及搜索引擎技術(shù)領(lǐng)域,尤其涉及一種序列標(biāo)注工具的訓(xùn)練方法的裝置。
【背景技術(shù)】
[0002]序列標(biāo)注工具被廣泛應(yīng)用于自然語言處理,例如分詞、詞性標(biāo)注、命名實體識別等工具中,搜索引擎又依賴于自然語言處理的工具,搜索引擎在從大量網(wǎng)頁中檢索出用戶所輸入的搜索信息對應(yīng)的文檔時,搜索引擎需要先對用戶輸入的查詢搜索信息以及數(shù)據(jù)庫中的文檔進(jìn)行分詞,而分詞需要用到序列標(biāo)注工具,分詞結(jié)果的準(zhǔn)確性會在很大程度上影響搜索引擎搜索到的文檔的準(zhǔn)確性,因此,用于分詞、詞性標(biāo)注、命名實體識別等的序列標(biāo)注工具對搜索引擎的搜索結(jié)果存在至關(guān)重要的影響。
[0003]目前,現(xiàn)有的序列標(biāo)注工具主要有隱馬爾科夫模型(HMM),最大熵隱馬爾科夫模型(MEMM)以及條件隨機(jī)場模型(CRF),在訓(xùn)練這些序列標(biāo)注工具時,需要收集大量的已標(biāo)注好的語料,然后用這些語料來訓(xùn)練序列標(biāo)注工具,然而人工標(biāo)注這些語料需要花費(fèi)大量的人力和物力。
[0004]此外,通過人工標(biāo)注的語料對序列標(biāo)注工具進(jìn)行訓(xùn)練,往往不能及時地更新序列標(biāo)注工具,例如對于分詞而言,如果出現(xiàn)新的詞匯,往往需要人工重新進(jìn)行標(biāo)注,然后重新訓(xùn)練序列標(biāo)注工具后才能繼續(xù)使用。
[0005]此外,不同的搜索引擎對序列標(biāo)注工具的需求也許是不同的,例如對于分詞而言,有些搜索引擎希望分詞結(jié)果的粒度大一些,有些搜索引擎希望分詞結(jié)果的粒度小一些,然而序列標(biāo)注工具的分詞粒度完全由用于訓(xùn)練序列標(biāo)注工具的人工標(biāo)注的語料所決定,因此不能根據(jù)不同的需求做出相應(yīng)調(diào)整。

【發(fā)明內(nèi)容】

[0006]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0007]為此,本發(fā)明的第一個目的在于提出一種序列標(biāo)注工具的訓(xùn)練方法,該訓(xùn)練方法提高了序列標(biāo)注工具提供服務(wù)的準(zhǔn)確性,實現(xiàn)了對序列標(biāo)注工具的及時更新,提升了用戶使用體驗。
[0008]本發(fā)明的第二個目的在于提出一種序列標(biāo)注工具的訓(xùn)練裝置。
[0009]為達(dá)上述目的,本發(fā)明第一方面實施例提出了一種序列標(biāo)注工具的訓(xùn)練方法,包括:獲取用戶的歷史行為數(shù)據(jù),其中,所述歷史行為數(shù)據(jù)包括用戶對服務(wù)提供商向所述用戶提供的信息頁面的反饋行為;以及根據(jù)所述歷史行為數(shù)據(jù)對序列標(biāo)注工具進(jìn)行訓(xùn)練。
[0010]本發(fā)明實施例的序列標(biāo)注工具的訓(xùn)練方法,通過用戶的歷史行為數(shù)據(jù)不斷的對序列標(biāo)注工具進(jìn)行優(yōu)化,逐漸提高序列標(biāo)注工具提供服務(wù)的準(zhǔn)確性,使得訓(xùn)練標(biāo)注工具和服務(wù)提供商提供服務(wù)之間不再僅僅是被依賴和依賴關(guān)系而是相互依賴的關(guān)系,不僅序列標(biāo)注工具服務(wù)準(zhǔn)確性的提升能夠幫助服務(wù)提供商提供服務(wù)的服務(wù)質(zhì)量的提升,而且服務(wù)提供商提供服務(wù)的服務(wù)質(zhì)量的提升也能幫助序列標(biāo)注工具服務(wù)準(zhǔn)確性的提升,從而實現(xiàn)了對序列標(biāo)注工具的及時更新,提升了用戶使用體驗。
[0011]為達(dá)上述目的,本發(fā)明第二方面實施例提出了一種序列標(biāo)注工具的訓(xùn)練裝置,包括:第一獲取模塊,用于獲取用戶的歷史行為數(shù)據(jù),其中,所述歷史行為數(shù)據(jù)包括用戶對服務(wù)提供商向所述用戶提供的信息頁面的反饋行為;以及第一訓(xùn)練模塊,用于根據(jù)所述歷史行為數(shù)據(jù)對序列標(biāo)注工具進(jìn)行訓(xùn)練。
[0012]本發(fā)明實施例的序列標(biāo)注工具的訓(xùn)練裝置,通過用戶的歷史行為數(shù)據(jù)不斷的對序列標(biāo)注工具進(jìn)行優(yōu)化,逐漸提高序列標(biāo)注工具提供服務(wù)的準(zhǔn)確性,使得訓(xùn)練標(biāo)注工具和服務(wù)提供商提供服務(wù)之間不再僅僅是被依賴和依賴關(guān)系而是相互依賴的關(guān)系,不僅序列標(biāo)注工具服務(wù)準(zhǔn)確性的提升能夠幫助服務(wù)提供商提供服務(wù)的服務(wù)質(zhì)量的提升,而且服務(wù)提供商提供服務(wù)的服務(wù)質(zhì)量的提升也能幫助序列標(biāo)注工具服務(wù)準(zhǔn)確性的提升,從而實現(xiàn)了對序列標(biāo)注工具的及時更新,提升了用戶使用體驗。
[0013]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【附圖說明】
[0014]本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0015]圖1是本發(fā)明一個實施例的序列標(biāo)注工具的訓(xùn)練方法的流程圖;
[0016]圖2是本發(fā)明一個具體實施例的序列標(biāo)注工具的訓(xùn)練方法的流程圖;
[0017]圖3是本發(fā)明中單搜索引擎指導(dǎo)序列標(biāo)注工具的示意圖;
[0018]圖4是本發(fā)明中多搜索引擎指導(dǎo)序列標(biāo)注工具的示意圖;
[0019]圖5是本發(fā)明一個實施例的序列標(biāo)注工具的訓(xùn)練裝置的結(jié)構(gòu)示意圖;以及
[0020]圖6是本發(fā)明一個具體實施例的序列標(biāo)注工具的訓(xùn)練裝置的結(jié)構(gòu)示意圖
【具體實施方式】
[0021]下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0022]此外,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括一個或者更多個該特征。在本發(fā)明的描述中,“多個”的含義是兩個或兩個以上,除非另有明確具體的限定。
[0023]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
[0024]圖1是本發(fā)明一個實施例的序列標(biāo)注工具的訓(xùn)練方法的流程圖。
[0025]如圖1所示,序列標(biāo)注工具的訓(xùn)練方法包括:
[0026]SlOl,獲取用戶的歷史行為數(shù)據(jù),其中,歷史行為數(shù)據(jù)包括用戶對服務(wù)提供商向用戶提供的信息頁面的反饋行為。
[0027]其中,服務(wù)提供商向用戶提供的服務(wù)包括搜索服務(wù)、文本處理服務(wù)、推薦服務(wù)、語音識別服務(wù)等,而提供這些服務(wù)的搜索引擎、文本處理服務(wù)器、推薦服務(wù)器或者是語音識別服務(wù)器均依賴于序列標(biāo)注工具,通過序列標(biāo)注工具為這些服務(wù)器提供例如分詞,詞性標(biāo)注、語音識別等服務(wù)。
[0028]應(yīng)當(dāng)理解的是,序列標(biāo)注工具還可以接收其它依賴于序列標(biāo)注工具提供服務(wù)的產(chǎn)品提供的反饋進(jìn)行優(yōu)化訓(xùn)練,而提供給產(chǎn)品反饋的外部可以是真實的用戶,也可以是該產(chǎn)品的訓(xùn)練數(shù)據(jù)集。
[0029]在初始時,訓(xùn)練序列標(biāo)注工具所使用額語料比較少,因此上述服務(wù)器在利用訓(xùn)練標(biāo)注工具為用戶提供服務(wù)時,提供服務(wù)并不是十分精準(zhǔn)。為此,本發(fā)明中在序列標(biāo)注工具為上述服務(wù)器提供服務(wù)時,上述服務(wù)器也為序列標(biāo)注工具提供用戶的反饋,幫助對序列標(biāo)注工具進(jìn)行優(yōu)化。
[0030]具體地,在服務(wù)提供商為用戶提供服務(wù)時,上述服務(wù)器將經(jīng)過序列標(biāo)注工具處理后的信息添加至信息頁面中提供給用戶,例如,用戶在使用搜索引擎進(jìn)行搜索時,搜索引擎將搜索結(jié)果頁面返回給用戶查看,或者在用戶使用語音識別服務(wù)器進(jìn)行語音識別時,語音識別服務(wù)器將識別后的文本內(nèi)容添加至信息頁面中返回給用戶查看。進(jìn)而,服務(wù)器獲取用戶針對該頁面信息的反饋行為,例如,用戶對搜索引擎返回的搜索結(jié)果的點擊操作等,將用戶對頁面信息的反饋行為,這些反饋行為即是用戶的歷史行為數(shù)據(jù)。
[0031]S102,根據(jù)歷史行為數(shù)據(jù)對序列標(biāo)注工具進(jìn)行訓(xùn)練。
[0032]具體地,根據(jù)用戶針對頁面信息的反饋行為可以對序列標(biāo)注工具進(jìn)行進(jìn)一步的訓(xùn)練,以對序列標(biāo)注工具進(jìn)行優(yōu)化。也就是說,隨著不斷地迭代,序列標(biāo)注工具從服務(wù)器獲取到大量的用戶歷史行為數(shù)據(jù),根據(jù)歷史行為數(shù)據(jù)對序列標(biāo)注工具進(jìn)行優(yōu)化,漸漸提高序列標(biāo)注工具的分詞、詞性標(biāo)注、語音識別等功能的準(zhǔn)確性。
[0033]應(yīng)當(dāng)理解的是,上述通過服務(wù)器向序列標(biāo)注工具提供用戶的反饋行為的方式僅僅是示例性的,序列標(biāo)注工具還可以從服務(wù)器的訓(xùn)練集中獲取一個訓(xùn)練樣本,對訓(xùn)練樣本進(jìn)行處理以預(yù)測一個答案,進(jìn)而從訓(xùn)練樣本中獲得標(biāo)準(zhǔn)答案,通過比對預(yù)測的答案和標(biāo)準(zhǔn)答案進(jìn)一步對序列標(biāo)注工具進(jìn)行訓(xùn)練,從而實現(xiàn)了對序列標(biāo)注工具的優(yōu)化。
[0034]本發(fā)明實施例的序列標(biāo)注工具的訓(xùn)練方法,通過用戶的歷史行為數(shù)據(jù)不斷的對序列標(biāo)注工具進(jìn)行優(yōu)化,逐漸提高序列標(biāo)注工具提供服務(wù)的準(zhǔn)確性,使得訓(xùn)練標(biāo)注工具和服務(wù)提供商提供服務(wù)之間不再僅僅是被依賴和依賴關(guān)系而是相互依賴的關(guān)系,不僅序列標(biāo)注工具服務(wù)準(zhǔn)確性的提升能夠幫助服務(wù)提供商提供服務(wù)的服務(wù)質(zhì)量的提升,而且服務(wù)提供商提供服務(wù)的服務(wù)質(zhì)量的提升也能幫助序列標(biāo)注工具服務(wù)準(zhǔn)確性的提升,從而實現(xiàn)了對序列標(biāo)注工具的及時更新,提升了用戶使用體驗。
[0035]圖2是本發(fā)明一個具體實施例的序列標(biāo)注工具的訓(xùn)練方法的流程圖。
[0036]如圖2所示,序列標(biāo)注工具的訓(xùn)練方法包括:
[0037]S201,獲取人工標(biāo)注的語料,并根據(jù)人工標(biāo)注的語料訓(xùn)練序列標(biāo)注工具。
[0038]本發(fā)明中根據(jù)人工標(biāo)注語料和服務(wù)提供商的反饋對序列標(biāo)注工具進(jìn)行訓(xùn)練。
[0039]具體地,獲取少量的人工標(biāo)注的語料,并根據(jù)人工標(biāo)注的語料訓(xùn)練一個基本的序列標(biāo)注工具。
[0040]應(yīng)當(dāng)理解的是,根據(jù)人工標(biāo)注的語料可采用現(xiàn)有的方法實現(xiàn),為了避免冗余,此處不再復(fù)贅。
[0041 ] S202,接收服務(wù)請求,其中,服務(wù)請求包括待標(biāo)注信息。
[0042]具體地,用戶向服務(wù)提供商的服務(wù)器發(fā)送服務(wù)請求,例如,用戶向搜索引擎發(fā)送搜索請求,向推薦服務(wù)器發(fā)送推薦請求,向語音識別服務(wù)器發(fā)送語音識別請求等,服務(wù)請求中包括用戶輸入待標(biāo)注信息。服務(wù)器接收到服務(wù)請求后,根據(jù)服務(wù)請求中的待標(biāo)注信息生成需要標(biāo)注的數(shù)據(jù),并將需要標(biāo)注的數(shù)據(jù)發(fā)送給序列標(biāo)注工具,同時向序列標(biāo)注工具發(fā)送分序列標(biāo)注請求。
[0043]S203,通過序列標(biāo)注工具對待標(biāo)注信息進(jìn)行處理,并將處理結(jié)果生成信息頁面。
[0044]具體地,序列標(biāo)注工具利用自身的標(biāo)注模型,例如,隱馬爾科夫模型,最大熵隱馬爾科夫模型以及條件隨機(jī)場模型等,對需要標(biāo)注的數(shù)據(jù)進(jìn)行處理,其中,處理的方式可以包括但不限于對數(shù)據(jù)進(jìn)行切分、詞性標(biāo)注和語音識別等,進(jìn)而序列標(biāo)注工具將標(biāo)注好的數(shù)據(jù)發(fā)送給服務(wù)提供商的服務(wù)器。服務(wù)提供商的服務(wù)器根據(jù)處理后的標(biāo)注數(shù)據(jù)生成信息頁面,并將信息頁面提供給用戶查看。
[0045]在本發(fā)明的一個實施例中,當(dāng)對待標(biāo)注信息進(jìn)行分詞時,通過序列標(biāo)注工具對待標(biāo)注信息進(jìn)行處理具體包括:通過序列標(biāo)注工具對待標(biāo)注信息進(jìn)行切分,并獲取切分后的多組分詞序列,其中,每個分詞序列具有不同的優(yōu)先級。具體地,在利用序列標(biāo)注工具對待標(biāo)注信息進(jìn)行分詞處理時,會獲得多組分詞序列,每個分詞序列具有不同的優(yōu)先級。例如,搜索引擎利用序列標(biāo)注工具對用戶輸入的搜索信息“A”進(jìn)行分詞,得到分詞處理后的分詞序列“Al、A2、A3”,其中,分詞序列的優(yōu)先級為“Al”大于“A2”大于“A3”。
[0046]進(jìn)而,搜索引擎根據(jù)不同的分詞序列獲取對應(yīng)的搜索結(jié)果,將搜索結(jié)果展現(xiàn)在信息頁面上以供用戶瀏覽。例如,搜索引擎根據(jù)分詞序列“A1、A2、A3”獲得的搜索結(jié)果分別為“B1、B2、B3”,由于分詞序列的優(yōu)先級為“Al”大于“A2”大于“A3”,因此搜索結(jié)果在信息頁面上的排序應(yīng)該是“BI”在最前面,“B2”其次,而“B3”顯示在比較靠后的位置。
[0047]S204,獲取用戶的歷史行為數(shù)據(jù),其中,歷史行為數(shù)據(jù)包括用戶對服務(wù)提供商向用戶提供的信息頁面的反饋行為。
[0048]其中,用戶的反饋行為可包括用戶對信息頁面中信息的點擊操作,例如,在搜索引擎在信息頁面顯示多個搜索結(jié)果后,用戶點擊了部分搜索結(jié)果,則搜索引擎記錄用戶點擊的搜索結(jié)果,并將用戶點擊該搜索結(jié)果的操作記為用戶的歷史行為數(shù)據(jù)。
[0049]在本發(fā)明的一個實施例中,用戶的歷史行為數(shù)據(jù)可以是搜索引擎根據(jù)用戶對搜索結(jié)果的操作實時獲取的,也可以是從搜索引擎的日志中獲取的,即從搜索引擎的歷史日志中獲取用戶的歷史行為數(shù)據(jù)。
[0050]搜索引擎在獲取用戶的歷史行為數(shù)據(jù)后,將用戶的歷史行為數(shù)據(jù)發(fā)送給序列標(biāo)注工具,以對序列標(biāo)注工具的標(biāo)注模型進(jìn)行更新和改進(jìn)。
[0051]S205,根據(jù)歷史行為數(shù)據(jù)對序列標(biāo)注工具進(jìn)行訓(xùn)練。
[0052]在本發(fā)明的一個實施例中,獲取用戶對信息頁面的反饋行為,并獲取反饋行為的權(quán)重值,并根據(jù)反饋行為的權(quán)重值對多組分詞序列的優(yōu)先級進(jìn)行調(diào)整。
[0053]例如,用戶點擊一個搜索結(jié)果,說明該搜索結(jié)果符合用戶的需求,進(jìn)而根據(jù)該點擊操作的權(quán)重值調(diào)整多組分詞序列排序。例如,當(dāng)用戶點擊了搜索結(jié)果“BI”,該搜索結(jié)果“BI”對應(yīng)的分詞序列為“Al”,則說明對搜索信息“A”而言,分詞序列“Al”的分詞處理結(jié)果準(zhǔn)確率較高,此時雖然對分詞序列“Al、A2、A3”的排序不進(jìn)行調(diào)整,但是可以進(jìn)一步將分詞序列“Al”的優(yōu)先級提高。
[0054]當(dāng)用戶點擊了搜索結(jié)果“B3”,該搜索結(jié)果“B3”對應(yīng)的分詞序列為“A3”,則說明對搜索信息“A”而言,分詞序列“A3”的分詞處理結(jié)果準(zhǔn)確率較高,此時將分詞序列“A3”的優(yōu)先級提高,如果多個用戶點擊搜索結(jié)果“B3”時,當(dāng)分詞序列“A3”的優(yōu)先級高于“Al”時,將分詞序列的“A3”排序調(diào)整至分詞序列“Al”的前面,即此時分詞序列的排序為“A3、A1、A2”,即分詞序列的優(yōu)先級為“A3”大于“Al”大于“A2”。
[0055]在本發(fā)明的一個實施例中,序列標(biāo)注工具可以對應(yīng)一個服務(wù)提供商,也可以同時對應(yīng)多個服務(wù)提供商,例如,如圖3所示,以搜索引擎為例,序列標(biāo)注工具對應(yīng)一個搜索引擎,搜索引擎對應(yīng)外部的多個用戶,或者如圖4所示,序列標(biāo)注工具對應(yīng)多個搜索引擎,每個搜索引擎對應(yīng)外部的多個用戶。其中,序列標(biāo)注工具中可包括一個標(biāo)注模型,也可以包括多個標(biāo)注模型,即多個搜索引擎均依賴一個標(biāo)注模型進(jìn)行序列標(biāo)注,或者搜索引擎依賴不同的標(biāo)注模型進(jìn)行序列標(biāo)注,而多個搜索引擎同時給一個標(biāo)注模型提供反饋,或者多個搜索引擎分別給對應(yīng)的一個標(biāo)注模型提供反饋。由此,多個搜索引擎為一個標(biāo)注模型提供反饋時,序列標(biāo)注工具對自身進(jìn)行更新和改進(jìn)時受到了更加多元化的指導(dǎo),使得序列標(biāo)注工具適用于更多的應(yīng)用場景。而多個搜索引擎分別為一個標(biāo)注模型提供反饋時,序列標(biāo)注工具根據(jù)每個搜索引擎提供的反饋對對應(yīng)的標(biāo)注模型進(jìn)行更新和改進(jìn),進(jìn)而使得序列標(biāo)注工具針對不同的搜索引擎可以做相應(yīng)的調(diào)整,滿足不同搜索引擎對序列標(biāo)注的粒度不同的需求,即有些搜索引擎需要序列標(biāo)注的粒度大一些,而有些搜索引擎需要序列標(biāo)注的粒度小一些,因此序列標(biāo)注工具能夠根據(jù)不同搜索引擎對不同的標(biāo)注模型進(jìn)行更新和改進(jìn)。
[0056]應(yīng)當(dāng)理解的是,序列標(biāo)注工具受多個服務(wù)提供商提供的用戶反饋指導(dǎo)的方法和步驟與受一個服務(wù)提供商提供的用戶反饋指導(dǎo)的方法和步驟相同,為了避免冗余,此處不再復(fù)贅。
[0057]本發(fā)明實施例的序列標(biāo)注工具的訓(xùn)練方法,在初始時僅需要少量的人工標(biāo)注的語料訓(xùn)練一個基本的序列標(biāo)注工具,從而大大減少了人力和物力的開銷,進(jìn)而通過用戶的歷史行為數(shù)據(jù)不斷的對序列標(biāo)注工具進(jìn)行優(yōu)化,逐漸提高序列標(biāo)注工具提供服務(wù)的準(zhǔn)確性,從而實現(xiàn)了對序列標(biāo)注工具的及時更新和調(diào)整。此外,針對不同服務(wù)提供商的需求,序列標(biāo)注工具可以為不同的服務(wù)提供商提供不同粒度的序列標(biāo)注服務(wù),提高了序列標(biāo)注工具進(jìn)行序列標(biāo)注的靈活性。
[0058]為了實現(xiàn)上述實施例,本發(fā)明還提出一種序列標(biāo)注工具的訓(xùn)練裝置。
[0059]圖5是本發(fā)明一個實施例的序列標(biāo)注工具的訓(xùn)練裝置的結(jié)構(gòu)示意圖。
[0060]如圖5所示,序列標(biāo)注工具的訓(xùn)練裝置包括:第一獲取模塊100和第一訓(xùn)練模塊200。
[0061]其中,第一獲取模塊100用于獲取用戶的歷史行為數(shù)據(jù),其中,歷史行為數(shù)據(jù)包括用戶對服務(wù)提供商向用戶提供的信息頁面的反饋行為。
[0062]第一訓(xùn)練模塊200用于根據(jù)歷史行為數(shù)據(jù)對序列標(biāo)注工具進(jìn)行訓(xùn)練。
[0063]需要說明的是,前述對序列標(biāo)注工具的訓(xùn)練方法的實施例的解釋說明也適用于該實施例的序列標(biāo)注工具的訓(xùn)練裝置,其實現(xiàn)原理類似,此處不再贅述。
[0064]本發(fā)明實施例的序列標(biāo)注工具的訓(xùn)練裝置,通過用戶的歷史行為數(shù)據(jù)不斷的對序列標(biāo)注工具進(jìn)行優(yōu)化,逐漸提高序列標(biāo)注工具提供服務(wù)的準(zhǔn)確性,使得訓(xùn)練標(biāo)注工具和服務(wù)提供商提供服務(wù)之間不再僅僅是被依賴和依賴關(guān)系而是相互依賴的關(guān)系,不僅序列標(biāo)注工具服務(wù)準(zhǔn)確性的提升能夠幫助服務(wù)提供商提供服務(wù)的服務(wù)質(zhì)量的提升,而且服務(wù)提供商提供服務(wù)的服務(wù)質(zhì)量的提升也能幫助序列標(biāo)注工具服務(wù)準(zhǔn)確性的提升,從而實現(xiàn)了對序列標(biāo)注工具的及時更新,提升了用戶使用體驗。
[0065]圖6是本發(fā)明一個具體實施例的序列標(biāo)注工具的訓(xùn)練裝置的結(jié)構(gòu)示意圖。
[0066]如圖6所示,序列標(biāo)注工具的訓(xùn)練裝置包括:第一獲取模塊100、第一訓(xùn)練模塊200、第二獲取模塊300、第二訓(xùn)練模塊400、接收模塊500和處理模塊600。
[0067]其中,第二獲取模塊300用于獲取人工標(biāo)注的語料。
[0068]第二訓(xùn)練模塊400用于根據(jù)人工標(biāo)注的語料訓(xùn)練序列標(biāo)注工具。
[0069]接收模塊500用于接收服務(wù)請求,其中,服務(wù)請求包括待標(biāo)注信息。
[0070]處理模塊600用于通過序列標(biāo)注工具對待標(biāo)注信息進(jìn)行處理,并將處理結(jié)果生成信息頁面。其中,對待標(biāo)注信息進(jìn)行處理包括但不限于對待標(biāo)注信息進(jìn)行分詞、詞性標(biāo)注、語音識別中的一種或者多種。
[0071]在本發(fā)明的一個實施例中,當(dāng)對待標(biāo)注信息進(jìn)行分詞時,處理模塊600還用于通過序列標(biāo)注工具對待標(biāo)注信息進(jìn)行切分,并獲取切分后的多組分詞序列,其中,每個分詞序列具有不同的優(yōu)先級。
[0072]在本發(fā)明的一個實施例中,第一訓(xùn)練模塊200具體用于獲取用戶對信息頁面的反饋行為,并獲取反饋行為的權(quán)重值,并根據(jù)反饋行為的權(quán)重值對多組分詞序列的優(yōu)先級進(jìn)行調(diào)整。
[0073]需要說明的是,前述對序列標(biāo)注工具的訓(xùn)練方法的實施例的解釋說明也適用于該實施例的序列標(biāo)注工具的訓(xùn)練裝置,其實現(xiàn)原理類似,此處不再贅述。
[0074]本發(fā)明實施例的序列標(biāo)注工具的訓(xùn)練裝置,在初始時僅需要少量的人工標(biāo)注的語料訓(xùn)練一個基本的序列標(biāo)注工具,從而大大減少了人力和物力的開銷,進(jìn)而通過用戶的歷史行為數(shù)據(jù)不斷的對序列標(biāo)注工具進(jìn)行優(yōu)化,逐漸提高序列標(biāo)注工具提供服務(wù)的準(zhǔn)確性,從而實現(xiàn)了對序列標(biāo)注工具的及時更新和調(diào)整。此外,針對不同服務(wù)提供商的需求,序列標(biāo)注工具可以為不同的服務(wù)提供商提供不同粒度的序列標(biāo)注服務(wù),提高了序列標(biāo)注工具進(jìn)行序列標(biāo)注的靈活性。
[0075]應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。
[0076]在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進(jìn)行結(jié)合和組合。
[0077]盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實施例進(jìn)行變化、修改、替換和變型。
【主權(quán)項】
1.一種序列標(biāo)注工具的訓(xùn)練方法,其特征在于,包括以下步驟: 獲取用戶的歷史行為數(shù)據(jù),其中,所述歷史行為數(shù)據(jù)包括用戶對服務(wù)提供商向所述用戶提供的信息頁面的反饋行為;以及 根據(jù)所述歷史行為數(shù)據(jù)對序列標(biāo)注工具進(jìn)行訓(xùn)練。2.如權(quán)利要求1所述的序列標(biāo)注工具的訓(xùn)練方法,其特征在于,還包括: 獲取人工標(biāo)注的語料,并根據(jù)所述人工標(biāo)注的語料訓(xùn)練所述序列標(biāo)注工具。3.如權(quán)利要求1或2所述的序列標(biāo)注工具的訓(xùn)練方法,其特征在于,在獲取用戶的歷史行為數(shù)據(jù)之前,還包括: 接收服務(wù)請求,其中,所述服務(wù)請求包括待標(biāo)注信息;以及 通過所述序列標(biāo)注工具對所述待標(biāo)注信息進(jìn)行處理,并將所述處理結(jié)果生成所述信息頁面。4.如權(quán)利要求3所述的序列標(biāo)注工具的訓(xùn)練方法,其特征在于,對所述待標(biāo)注信息進(jìn)行處理包括對所述待標(biāo)注信息進(jìn)行分詞、詞性標(biāo)注、語音識別中的一種或者多種。5.如權(quán)利要求4所述的序列標(biāo)注工具的訓(xùn)練方法,其特征在于,當(dāng)對所述待標(biāo)注信息進(jìn)行分詞時,通過所述序列標(biāo)注工具對所述待標(biāo)注信息進(jìn)行處理具體包括: 通過所述序列標(biāo)注工具對所述待標(biāo)注信息進(jìn)行切分,并獲取切分后的多組分詞序列,其中,每個分詞序列具有不同的優(yōu)先級。6.如權(quán)利要求5所述的序列標(biāo)注工具的訓(xùn)練方法,其特征在于,所述根據(jù)所述歷史行為數(shù)據(jù)對序列標(biāo)注工具進(jìn)行訓(xùn)練具體包括: 獲取所述用戶對所述信息頁面的反饋行為,并獲取所述反饋行為的權(quán)重值;以及 根據(jù)所述反饋行為的權(quán)重值對所述多組分詞序列的優(yōu)先級進(jìn)行調(diào)整。7.一種序列標(biāo)注工具的訓(xùn)練裝置,其特征在于,包括: 第一獲取模塊,用于獲取用戶的歷史行為數(shù)據(jù),其中,所述歷史行為數(shù)據(jù)包括用戶對服務(wù)提供商向所述用戶提供的信息頁面的反饋行為;以及 第一訓(xùn)練模塊,用于根據(jù)所述歷史行為數(shù)據(jù)對序列標(biāo)注工具進(jìn)行訓(xùn)練。8.如權(quán)利要求7所述的序列標(biāo)注工具的訓(xùn)練裝置,其特征在于,還包括: 第二獲取模塊,用于獲取人工標(biāo)注的語料;以及 第二訓(xùn)練模塊,用于根據(jù)所述人工標(biāo)注的語料訓(xùn)練所述序列標(biāo)注工具。9.如權(quán)利要求7或8所述的序列標(biāo)注工具的訓(xùn)練裝置,其特征在于,還包括: 接收模塊,用于接收服務(wù)請求,其中,所述服務(wù)請求包括待標(biāo)注信息; 處理模塊,用于通過所述序列標(biāo)注工具對所述待標(biāo)注信息進(jìn)行處理,并將所述處理結(jié)果生成所述信息頁面。10.如權(quán)利要求9所述的序列標(biāo)注工具的訓(xùn)練裝置,其特征在于,對所述待標(biāo)注信息進(jìn)行處理包括對所述待標(biāo)注信息進(jìn)行分詞、詞性標(biāo)注、語音識別中的一種或者多種。11.如權(quán)利要求10所述的序列標(biāo)注工具的訓(xùn)練裝置,其特征在于,當(dāng)對所述待標(biāo)注信息進(jìn)行分詞時,所述處理模塊具體用于: 通過所述序列標(biāo)注工具對所述待標(biāo)注信息進(jìn)行切分,并獲取切分后的多組分詞序列,其中,每個分詞序列具有不同的優(yōu)先級。12.如權(quán)利要求11所述的序列標(biāo)注工具的訓(xùn)練裝置,其特征在于,所述第一訓(xùn)練模塊具體用于: 獲取所述用戶對所述信息頁面的反饋行為,并獲取所述反饋行為的權(quán)重值,并根據(jù)所述反饋行為的權(quán)重值對所述多組分詞序列的優(yōu)先級進(jìn)行調(diào)整。
【文檔編號】G06F17/30GK105930432SQ201610245354
【公開日】2016年9月7日
【申請日】2016年4月19日
【發(fā)明人】方曉敏, 吳澤衡, 石磊, 周坤勝, 詹金波, 王凡, 何徑舟
【申請人】北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1