成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

基于微博情感的實(shí)體識(shí)別方法

文檔序號(hào):9579240閱讀:917來(lái)源:國(guó)知局
基于微博情感的實(shí)體識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及到網(wǎng)絡(luò)中大數(shù)據(jù)的采集與分析領(lǐng)域,具體涉及一種基于微博情感的實(shí) 體識(shí)別方法。 技術(shù)背景
[0002] 在國(guó)內(nèi),由于微博是近幾年才發(fā)展起來(lái)的新型社交媒體平臺(tái),所以國(guó)內(nèi)針對(duì)微博 短文本的情感分析研究起步較晚。比較早的研究是葉強(qiáng)、張紫瓊和羅振雄三位學(xué)者建立在 普遍使用的N-P0S語(yǔ)言模型的基礎(chǔ)上進(jìn)行中文詞組的特征提取,提出了中文雙詞主觀詞組 模型2-P0S,為漢字文本內(nèi)容的情感識(shí)別墊定基礎(chǔ)。在此之后,徐軍用樸素貝葉斯以及最大 熵等機(jī)器學(xué)習(xí)的方法來(lái)進(jìn)行文本情感挖掘分類(lèi),其研究結(jié)果表明,在基于情感的中文文本 內(nèi)容分類(lèi)中利用機(jī)器學(xué)習(xí)方法可以取得比較滿(mǎn)意的效果,準(zhǔn)確率可以達(dá)到90%以上。對(duì) 于電影評(píng)論,胡熠應(yīng)用N-Gram語(yǔ)言模型、樸素貝葉斯分類(lèi)方法和支持向量機(jī)(SVM)進(jìn)行 情感分類(lèi)研究,發(fā)現(xiàn)在文本訓(xùn)練樣本有限不足的情況下,N-Gram語(yǔ)言模型的分類(lèi)準(zhǔn)確率更 高,而且具有良好的擴(kuò)展性。在這些研究的基礎(chǔ)上,基于情感的文本挖掘的研究不斷增加, 相關(guān)研究領(lǐng)域得到擴(kuò)展,如龐磊等學(xué)者通過(guò)樸素貝葉斯、SVM和最大熵三種分類(lèi)方法,對(duì)新 浪微博中的股票評(píng)論內(nèi)容進(jìn)行看漲和看跌的正負(fù)態(tài)度分類(lèi)。傅向華、孫先和馮時(shí)通過(guò)不同 的角度對(duì)中文博客進(jìn)行情感分析研究,并提出一種基于文檔主題生成模型與知網(wǎng)詞典的中 文博客多方面話題情感挖掘方法;將基于詞典統(tǒng)計(jì)的情感分析方法引入微博情感分析;提 出一種基于句法依存分析技術(shù)的算法SOAD(sentimentorientationanalysisbasedon syntacticdependency)對(duì)博文搜索結(jié)果進(jìn)行情感傾向性分析。
[0003]總體而言,隨著互聯(lián)網(wǎng)的不斷發(fā)展,近年來(lái),國(guó)外很多學(xué)者開(kāi)始在更加廣泛的領(lǐng)域 進(jìn)行情感挖掘研究,包括旅游博客、法律博客、影視評(píng)論等。情感挖掘旨在根據(jù)特殊的分類(lèi) 方法從消費(fèi)者對(duì)特定產(chǎn)品或者服務(wù)的評(píng)論中提取積極或者消極的態(tài)度,利用情感分類(lèi)的結(jié) 果,消費(fèi)者可以了解到做出購(gòu)買(mǎi)決策的必要信息,商家可以獲悉用戶(hù)的反應(yīng)以及其競(jìng)爭(zhēng)者 的表現(xiàn)。隨著計(jì)算機(jī)技術(shù)的廣泛使用,評(píng)論內(nèi)容的情感挖掘已經(jīng)成為近來(lái)研究的趨勢(shì),廣泛 應(yīng)用于各個(gè)領(lǐng)域。
[0004]命名實(shí)體識(shí)別,同時(shí)也被稱(chēng)之為實(shí)體識(shí)別或者Named-Entity-Recognition,是指 在一串文本中具有特定意義的實(shí)體,主要是指人名、地名、機(jī)構(gòu)名、專(zhuān)有名詞等。近些年來(lái), 隨著計(jì)算機(jī)信息檢索技術(shù)以及搜索引擎技術(shù)得到了極速的發(fā)展,基于中文的命名實(shí)體識(shí)別 技術(shù)已經(jīng)成為自然語(yǔ)言處理研究界的熱點(diǎn)課題,根據(jù)國(guó)內(nèi)的研究現(xiàn)狀,目前基于中文的命 名實(shí)體識(shí)別的技術(shù)方法主要有以下四種:基于統(tǒng)計(jì)的識(shí)別方法、基于規(guī)則的識(shí)別方法、規(guī)則 和統(tǒng)計(jì)相結(jié)合的識(shí)別方法、基于機(jī)器學(xué)習(xí)的識(shí)別方法。
[0005] (1)基于統(tǒng)計(jì)的方法
[0006]中文的命名實(shí)體識(shí)別采用的統(tǒng)計(jì)模型主要有:隱馬爾科夫模型、決策樹(shù)模型、支持 向量機(jī)模型、最大熵模型和條件隨機(jī)場(chǎng)模型。Asahara通過(guò)采用支持向量機(jī)的方法對(duì)中國(guó)的 人名及組織機(jī)構(gòu)的進(jìn)行了自動(dòng)識(shí)別,取得了比較好的結(jié)果。
[0007] ⑵基于規(guī)則的方法
[0008] 基于規(guī)則的命名實(shí)體識(shí)別技術(shù)主要是利用兩種信息:限制性成分和命名實(shí)體用 詞。Tan采取的是基于轉(zhuǎn)換錯(cuò)誤驅(qū)動(dòng)的方法從而獲取命名實(shí)體地名的上下文的聯(lián)系規(guī)則,然 后使用這些規(guī)則實(shí)現(xiàn)對(duì)中文地名的自動(dòng)識(shí)別,經(jīng)過(guò)一定的數(shù)據(jù)測(cè)試表明,該識(shí)別方法的準(zhǔn) 確率可以達(dá)到97%。
[0009] ⑶規(guī)則與統(tǒng)計(jì)相結(jié)合的方法
[0010] 目前主流的一些中文命名實(shí)體自動(dòng)識(shí)別系統(tǒng)將規(guī)則以及統(tǒng)計(jì)相結(jié)合起來(lái),它先 采用統(tǒng)計(jì)學(xué)的方法對(duì)實(shí)體進(jìn)行鏡像識(shí)別,然后利用規(guī)則對(duì)其進(jìn)行校正過(guò)濾。黃德根利用從 大量的真實(shí)文本數(shù)據(jù)中得到的大量的統(tǒng)計(jì)數(shù)據(jù),并計(jì)算出每個(gè)人名的持續(xù)構(gòu)詞可信度和構(gòu) 詞可信度,然后結(jié)合一定的規(guī)則對(duì)中國(guó)人名進(jìn)行自動(dòng)識(shí)別。
[0011] (4)基于機(jī)器學(xué)習(xí)的方法
[0012] 在英文中的命名實(shí)體識(shí)別技術(shù)比中文的命名實(shí)體識(shí)別技術(shù)要簡(jiǎn)單很多,因?yàn)橛⑽?沒(méi)有分詞帶來(lái)的麻煩,而中文的分詞準(zhǔn)確率是影響中文命名實(shí)體識(shí)別技術(shù)的關(guān)鍵因素。英 文里的命名實(shí)體識(shí)別技術(shù)已經(jīng)比較成熟,利用支持向量機(jī)的機(jī)器學(xué)習(xí)方法對(duì)英文單詞進(jìn)行 分類(lèi),可以達(dá)到99%以上的地名和人名識(shí)別準(zhǔn)確率。
[0013] 微博作為一種社交網(wǎng)站的主要媒體形式,越來(lái)越受到人們的青睞。人們傾向于從 微博上獲取新聞、評(píng)論、娛樂(lè)等信息,不知不覺(jué)間,微博對(duì)網(wǎng)絡(luò)輿情傳播的影響越來(lái)越嚴(yán)重。 微博信息中包含不同趨向的情感特征,挖掘這些特征對(duì)于輿情監(jiān)控、市場(chǎng)營(yíng)銷(xiāo)、謠言控制都 有重要意義。大多數(shù)的情感分析都只是把文本情感分成正中負(fù)3類(lèi),如果直接將這種粗粒 度的情感分析應(yīng)用到微博這個(gè)社交媒體,對(duì)人們的理解幫助有限,不足以達(dá)到真正的聆聽(tīng) 社會(huì)脈動(dòng),傾聽(tīng)社會(huì)情感的目的。

【發(fā)明內(nèi)容】

[0014] 針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明設(shè)計(jì)出了一種基于微博情感的實(shí)體分析技術(shù),本發(fā) 明識(shí)別精度高,處理速度快,適用于大規(guī)模數(shù)據(jù)的精確識(shí)別。
[0015] 為實(shí)現(xiàn)上述目的,本發(fā)明采用了如下的技術(shù)方案,一種基于微博情感的實(shí)體識(shí)別 方法,包括以下幾個(gè)步驟:
[0016] 步驟1.訓(xùn)練階段,選取最優(yōu)機(jī)器學(xué)習(xí)算法;
[0017] 步驟1. 1根據(jù)Circumplex環(huán)形情感模型,構(gòu)造四類(lèi)情感詞詞典;
[0018] 所述的四類(lèi)情感詞詞典映射到一個(gè)二維坐標(biāo)系之中,這四個(gè)維度的坐標(biāo)軸分別 是:快樂(lè)并活躍,快樂(lè)但不活躍,不快樂(lè)但活躍和不快樂(lè)不活躍;
[0019] 步驟1. 2使用網(wǎng)絡(luò)API采集技術(shù),以四類(lèi)情感詞為關(guān)鍵詞從微博上獲取微博數(shù)據(jù), 作為訓(xùn)練數(shù)據(jù)。
[0020] 步驟1. 3對(duì)采集到的訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理,生成規(guī)范的訓(xùn)練數(shù)據(jù)集;
[0021] 步驟1. 4對(duì)訓(xùn)練數(shù)據(jù)提取關(guān)鍵字,依據(jù)向量空間模型對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行向量化;
[0022] 將標(biāo)點(diǎn)符號(hào)和表情符號(hào)同樣作為一個(gè)標(biāo)識(shí)進(jìn)行向量化,可以更加有效和貼切的對(duì) 文本的情感進(jìn)行分析。標(biāo)點(diǎn)符號(hào)和表情符號(hào)的向量化是將表情符號(hào)和標(biāo)點(diǎn)符號(hào)替換成相應(yīng) 的英文單詞,然后再進(jìn)行單詞向量化的,例如:笑臉替換為happy,happy的詞向量(1,0,0, 1,1,2)〇
[0023] 步驟1. 5依據(jù)預(yù)設(shè)的機(jī)器學(xué)習(xí)算法,分別對(duì)向量化的訓(xùn)練數(shù)據(jù)集進(jìn)行情感分類(lèi)和 5重交叉驗(yàn)證;
[0024] 步驟1. 6計(jì)算每個(gè)機(jī)器學(xué)習(xí)算法5次交叉驗(yàn)證的準(zhǔn)確率和召回率,挑選出準(zhǔn)確率 和召回率平均值最高的機(jī)器學(xué)習(xí)算法作為最優(yōu)機(jī)器學(xué)習(xí)分類(lèi)算法。
[0025] 步驟2.實(shí)驗(yàn)階段,根據(jù)步驟1得到的最優(yōu)機(jī)器學(xué)習(xí)分類(lèi)算法,得到被識(shí)別的情感 實(shí)體。
[0026] 步驟2. 1按照步驟1中步驟1. 1至步驟1. 4相同的方法獲取向量化的實(shí)驗(yàn)數(shù)據(jù) 集;
[0027] 步驟2. 2使用步驟1中的得到的最優(yōu)機(jī)器學(xué)習(xí)分類(lèi)算法,對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行分類(lèi), 得到四類(lèi)情感數(shù)據(jù)集;
[0028] 步驟2. 3對(duì)四類(lèi)情感數(shù)據(jù)集分別進(jìn)行一次實(shí)體抽取,得到被識(shí)別的情感實(shí)體。
[0029] 進(jìn)一步的,所述的步驟1. 3中的預(yù)處理,包括修正錯(cuò)誤詞組、刪除無(wú)關(guān)詞組、修正 錯(cuò)誤詞組、刪除歧義的微博和同義詞轉(zhuǎn)換;所述的修正錯(cuò)誤詞組是指對(duì)拼寫(xiě)錯(cuò)誤的單詞進(jìn) 行修正;刪除無(wú)關(guān)詞組指對(duì)情感分析沒(méi)有任何益處的單詞進(jìn)行刪除;刪除歧義的微博指在 一個(gè)文本卻屬于不同的情感類(lèi)別的微博;同義詞轉(zhuǎn)換是指把相同意思的詞用另一個(gè)詞代 替。
[0030] 優(yōu)選的,所述的步驟1. 4中使用TF-IDF算法提取關(guān)鍵詞,如果包含表情和標(biāo)點(diǎn)符 號(hào),則將常用的表情符號(hào)和表示語(yǔ)氣的標(biāo)點(diǎn)符號(hào)轉(zhuǎn)化為相應(yīng)的單詞。
[0031] 優(yōu)選的,所述的步驟1. 4中使用word2vec開(kāi)源工具構(gòu)建詞向量,依據(jù)向量空間模 型對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行向量化。
[0032] 優(yōu)選的,所述的步驟2.3中,使用SENNA深度學(xué)習(xí)工具包,對(duì)四類(lèi)情感數(shù)據(jù)集分別 進(jìn)行一次實(shí)體抽取。
[0033] 優(yōu)選的,所述的步驟1.5中,預(yù)設(shè)的機(jī)器學(xué)習(xí)算法包括樸素貝葉斯、邏輯回歸、支 持向量機(jī)和K近鄰算法4種機(jī)器學(xué)習(xí)算法。
[0034] 本發(fā)明通過(guò)機(jī)器深度學(xué)習(xí)進(jìn)行分類(lèi)和實(shí)體識(shí)別,對(duì)微博的情感進(jìn)行更加細(xì)粒度的 實(shí)體識(shí)別,識(shí)別的精確度高,效果好。會(huì)產(chǎn)生如下的益處:
[0035] 1.將數(shù)據(jù)處理和分析后可以進(jìn)行更加細(xì)的粒度的情感分析;
[0036] 2.通過(guò)獲得的細(xì)粒度情感分析,可以反應(yīng)人們對(duì)微博這個(gè)群體的情緒狀況;
[0037] 3.有利于政府,組織,個(gè)體對(duì)社會(huì)情感的理解和把握。
【附圖說(shuō)明】
[0038] 圖1是本發(fā)明的流程圖;
【具體實(shí)施方式】
[0039] 為使本發(fā)明的技術(shù)手段,創(chuàng)作特征,達(dá)成目的與功效易于明白了解,下面結(jié)合具體 實(shí)施方式,進(jìn)一步闡述本發(fā)明。
[0040] 微博中的數(shù)據(jù)很大,依靠人工的方法對(duì)其進(jìn)行分類(lèi),將花費(fèi)大量的人力物力財(cái)力, 因此使用微博中提供的Hashtag主題標(biāo)簽作為該微博的情感。我們認(rèn)為若一個(gè)微博被該情 感類(lèi)別標(biāo)簽標(biāo)記,則該微博屬于這個(gè)情感類(lèi)別。
[0041] 一種基于微博情感的實(shí)體識(shí)別方法,包括以下幾個(gè)步驟:
[0042] 步驟1.訓(xùn)練階段,選取最優(yōu)機(jī)器學(xué)習(xí)算法;
[0043] 步驟1. 1根據(jù)Circumplex環(huán)形情感模型,構(gòu)造四類(lèi)情感詞詞典;所述的四類(lèi)情感 詞詞典映射到一個(gè)二維坐標(biāo)系之中,這四個(gè)維度的坐標(biāo)軸分別是:快樂(lè)并活躍,快樂(lè)但不活 躍,不快樂(lè)但活躍和不快樂(lè)不活躍;
[0044] 步驟1. 2使用網(wǎng)絡(luò)API采集技術(shù),以四類(lèi)情感詞為關(guān)鍵詞從微博上獲取微博數(shù)據(jù), 作為訓(xùn)練數(shù)據(jù)。
[0045] 步驟1. 3對(duì)采集到的訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理,生成規(guī)范的訓(xùn)練數(shù)據(jù)集;對(duì)數(shù)據(jù)的預(yù) 處理包括:修正錯(cuò)誤詞組,刪除無(wú)關(guān)詞組,刪除歧義數(shù)據(jù),同義詞轉(zhuǎn)換。
[0046] 修正錯(cuò)誤詞組是指對(duì)拼寫(xiě)錯(cuò)誤的單詞進(jìn)行修正,例如:eta修正為eat,刪除無(wú)關(guān) 詞組指那些對(duì)情感分析沒(méi)有任何益處的單詞進(jìn)行刪除,例如the,of等無(wú)實(shí)際意義的單詞, 刪除歧義的微博指那些一個(gè)文本卻屬于不同的情感類(lèi)別的微博。同義詞轉(zhuǎn)換是指把相同意 思的詞用一個(gè)詞代替。
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1