成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

一種多源異構(gòu)大數(shù)據(jù)的缺失源補全方法

文檔序號:10535060閱讀:869來源:國知局
一種多源異構(gòu)大數(shù)據(jù)的缺失源補全方法
【專利摘要】本發(fā)明公開了一種多源異構(gòu)大數(shù)據(jù)的缺失源補全方法。本方法針對多源異構(gòu)數(shù)據(jù)的缺失源問題,利用多源異構(gòu)數(shù)據(jù)間的語義互補性和分布相似性,基于子空間學習方法,通過對完整的多源異構(gòu)數(shù)據(jù)的語義互補性和分布相似性的挖掘,獲得一個不同來源間的特征同構(gòu)的語義共享子空間,從而在這個特征同構(gòu)空間中,利用學習到的語義互補性和分布相似性,補全多源異構(gòu)數(shù)據(jù)的缺失來源。本方法中,假設(shè)不同的來源都服從正態(tài)分布,那么缺失源的數(shù)據(jù)矩陣可以塑造為低秩(捕捉類間差異,代表期望)加稀疏(捕捉類內(nèi)差異,代表方差)兩個成分的和。由此,利用異源間的語義互補性和等同分布補全多源異構(gòu)數(shù)據(jù)的缺失描述。
【專利說明】
一種多源異構(gòu)大數(shù)據(jù)的缺失源補全方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于信息技術(shù)領(lǐng)域,針對海量多源異構(gòu)數(shù)據(jù)環(huán)境下的缺失源問題,提出了 一種多源異構(gòu)大數(shù)據(jù)的缺失源補全方法。
【背景技術(shù)】
[0002] 近年來,隨著大量高技術(shù)數(shù)碼產(chǎn)品的出現(xiàn),由這些異源電子設(shè)備產(chǎn)生的多源異構(gòu) 數(shù)據(jù)(felti-source Heterogeneous Data)己經(jīng)遍布到人們現(xiàn)實生活的各個角落。所謂多 源異構(gòu)數(shù)據(jù)是指來自不同來源或者渠道,但表達的內(nèi)容相似,以不同形式、不同來源、不同 視角和不同背景等多種樣式出現(xiàn)的數(shù)據(jù)。例如,新浪微博、騰訊微信和搜狐網(wǎng)站關(guān)于相同的 新聞的不同形式的報道;老年癡呆癥(A1 zhe imer)患者的大腦可以由核磁共振(MRI)、正電 子成像技術(shù)(PET)和X光產(chǎn)生多種不同視角的醫(yī)學成像;Wikipedia網(wǎng)站上對花豹的描述采 用了圖片、文本和語音等不同來源的媒介;相同的建筑物白宮可以處在不同的背景之下。
[0003] 然而,在現(xiàn)實情況下,由于高數(shù)據(jù)采集代價,不真實性和拒絕反饋等原因,多源異 構(gòu)數(shù)據(jù)的多個來源并非都可得而是僅具有一個來源的描述。因此,國內(nèi)外的研究人員提出 了一些多源數(shù)據(jù)的矩陣補全方法。目前該類方法大致可分為四類:一類是基于歐氏距離的 方法,其次是基于矩陣分解的方法,再者是基于選擇填補的方法,最后是基于特征選擇的方 法。
[0004] 基于樣本間的歐氏距離,K-最近鄰(K-Nearest Neighbor,KNN)算法通過近鄰樣本 的均值填補缺失值。盡管這種方法具有簡單易行的特點,但若樣本中存在噪聲,就會大大降 低矩陣補全的效果。(參考文獻:Thomas M.Cover, Peter E.Hart.Nearest Neighbor Pattern Classification.IEEE Transactions on Information Theory 13(1):21-27 (1967).)
[0005] 奇異值分解(Singular Value Decomposition,SVD)是一種基于低秩逼近的補全 方法。該方法首先將缺失值初始為0,然后對填補矩陣進行奇異值分解,接著利用低秩矩陣 中的對應(yīng)值更新缺失值,直至收斂。然而,如果存在大量缺失值,SVD則無法對填補矩陣進行 奇異值分解。(參考文獻:Gene H.Golub,Charles F.Van Loan.Matrix Computations (3.ed.).Johns Hopkins University Press 2012.)
[0006] Mus lea等人通過實驗已經(jīng)驗證高效而魯棒的多源學習方法需要將主動(Active) 學習和半監(jiān)督學習相結(jié)合。(參考文獻:Ion Muslea, Steven Minton, Craig A.Knoblock.Active+Semi-supervised Learning=Robust Multi-view Learning.ACM International Conference on Machine Learning 2002:435-442. )Qian等人正是根據(jù)這 一點,提出了一種半監(jiān)督的多源數(shù)據(jù)缺失標簽填補(Semi-Supervised Dimension Reduction for Multi-label and Multi-view Learning,SSDR_MML)方法,利用異源數(shù)據(jù) 間的相關(guān)性,填補大量無標簽數(shù)據(jù)的缺失標簽。SSDR-MML方法的不足之處在于,它只能填補 缺失的標簽,對于多源異構(gòu)數(shù)據(jù)的缺失描述卻無能為力。(參考文獻:Buyue Qian,Xiang Wang,Jieping Ye,Ian Davidson.A Reconstruction Error Based Framework for Multi-Label and Multi-view Learning.IEEE Transactions on Knowledge and Data Engineering 27(3):594-607(2015)?)
[OOO7] Xiang等人提出了一種能夠處理多源逐塊(Block-Wise)缺失數(shù)據(jù)的特征選擇 (incomplete Source-Feature Selection,iSFS)方法。其基本思想為:首先,針對每個來源 學習一個單獨的分類器&(k=l,2,…,m,m為來源的數(shù)量);然后,通過額外的正規(guī)化項,將 所有模型整合到一起。為了能夠處理多源逐塊缺失數(shù)據(jù),iSFS方法根據(jù)不同來源的缺失情 況,將全部數(shù)據(jù)分成不同的組。在每個分組內(nèi),都包含完整的和存在缺失來源的多源數(shù)據(jù)。 不同分組之間不是完全獨立的,同一完整的多源數(shù)據(jù)可以被包含在不同的分組里。iSFS方 法的優(yōu)點在于,能夠在多源數(shù)據(jù)出現(xiàn)逐塊缺失的情況下,不必對缺失元素進行插值填補,就 可完成多源分析和特征選擇。然而,它卻無法補全缺失的數(shù)據(jù)。(參考文獻:Shuo Xiang,Lei Yuan,Wei Fan,Yalin Wang,Paul M.Thompson,Jieping Ye.Multi-source Learning with Block-wise Missing Data for Alzheimer's Disease Prediction.ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 2013:185-193.)
[0008]表1總結(jié)了上述多源數(shù)據(jù)缺失補全方法的不足。
[0009]表1.已有的多源數(shù)據(jù)缺失補全方法的不足


【發(fā)明內(nèi)容】

[0011] 本發(fā)明的目的:
[0012] 在現(xiàn)實情況下,由于高數(shù)據(jù)采集代價,不真實性和拒絕反饋等原因,多源異構(gòu)數(shù)據(jù) 的多個來源并非都可得而是僅具有一個來源的描述。這種現(xiàn)象導致缺失來源的存在,其中 缺失來源數(shù)據(jù)完全缺失其它來源的描述。這個問題完全不同于單源環(huán)境下的不完整數(shù)據(jù)的 情況。單源不完整數(shù)據(jù)指的是在單源數(shù)據(jù)中某些變量的值是缺失的。如圖1所示,在阿爾茨 海默病神經(jīng)影像(Alzheimer's Disease Neuroimaging Initiative)數(shù)據(jù)庫中,許多數(shù)據(jù) 只有磁共振成象(Magnetic Resonance Imaging,MRI)度量,而沒有正電子放射斷層 (Positron Emmission Tomography,PET)掃描圖像。在圖1的(a)圖中橢圓空心虛線框表示 多源異構(gòu)數(shù)據(jù)的缺失來源,而在圖1的(b)圖中小六邊形空心實線框表示單源環(huán)境下的不完 整數(shù)據(jù)中的缺失值。
[0013]因此,傳統(tǒng)的單源不完整數(shù)據(jù)的補全方法完全不適用于多源異構(gòu)數(shù)據(jù)的缺失來源 補全。此外,多源數(shù)據(jù)的每個來源都包含了一些相關(guān)互補信息,這些信息對于提高大數(shù)據(jù)分 類、聚類、檢索和分析的性能都是不可或缺十分必要的。然而,缺失來源數(shù)據(jù)通常都被直接 丟棄,這就會導致可使用的數(shù)據(jù)資源的嚴重缺失,進而嚴重削弱了各種大數(shù)據(jù)應(yīng)用的性能。 由此,迫切需要提出一種有效的多源異構(gòu)數(shù)據(jù)缺失來源補全方法,補全缺失的來源,彌補數(shù) 據(jù)資源的嚴重缺失,以促進多源異構(gòu)數(shù)據(jù)的高效利用。而通過利用異源間的語義互補性和 分布相似性,補全多源異構(gòu)數(shù)據(jù)的缺失來源正是本發(fā)明的特色之一。
[0014] 如圖2所示,多源異構(gòu)數(shù)據(jù)處在互補性和分布性約束之下?;パa性約束指的是不同 來源間的語義互補性,該約束會將不同來源間的互補信息充分包含在多源數(shù)據(jù)中。不同于 互補性約束,分布性約束呈現(xiàn)出高度的分布相似性,此約束會將同一來源內(nèi)的同類樣本聚 集到一起。而本發(fā)明的具體目的就是針對多源異構(gòu)數(shù)據(jù)的缺失源問題,提供一種多源異構(gòu) 大數(shù)據(jù)的缺失源補全方法,利用多源異構(gòu)數(shù)據(jù)間的語義互補性和等同分布,基于子空間學 習方法,通過對已有的無缺失多源異構(gòu)數(shù)據(jù)間關(guān)聯(lián)性的挖掘,補全缺失的來源,提供更多的 數(shù)據(jù)資源,增強大數(shù)據(jù)應(yīng)用的性能。
[0015] 本發(fā)明的技術(shù)方案:
[0016] 以下結(jié)合附圖對本發(fā)明的原理和特征進行描述,所舉實例只用于解釋本發(fā)明,并 非用于限定本發(fā)明的范圍。
[0017] 如圖3所示,本發(fā)明提供了一種多源異構(gòu)數(shù)據(jù)的缺失源補全的基本框架。這個框架 由兩個數(shù)學模型組成,一個為同構(gòu)線性相關(guān)分析(Isomorphic Linear Correlation Analysis,ILCA)模型,另一個為等同分布約束補全(Identical Distribution Pursuit C〇mpleti〇n,IDPC)模型。其中,旨在捕捉異源間的語義互補性和等同分布,ILCA模型將多源 異構(gòu)數(shù)據(jù)線性投影到一個特征同構(gòu)空間,以此揭示出異源間的共享信息。與此同時,假設(shè)不 同的來源都服從正態(tài)分布,那么缺失源的數(shù)據(jù)矩陣可以塑造為低秩(捕捉類間差異,代表期 望)加稀疏(捕捉類內(nèi)差異,代表方差)兩個成分的和。由此,為了補全缺失的來源,IDPC模型 在由ILCA模型學習到的特征同構(gòu)空間中,利用異源間的語義互補性和等同分布,補全多源 異構(gòu)數(shù)據(jù)的缺失描述,進而可以獲得更多的多源異構(gòu)數(shù)據(jù),提高學習器的泛化能力。
[0018] 在圖3中,一組多源異構(gòu)數(shù)據(jù)由MRI和PET兩種異源描述組成,并已有一些無缺失的 多源異構(gòu)數(shù)據(jù)XE和Ye。然而某些多源數(shù)據(jù)XM存在缺失源。例如,實例X5,X6,X7,和X8完全缺失 MRI源的描述。針對多源異構(gòu)數(shù)據(jù)的缺失源問題,為了恢復多源異構(gòu)數(shù)據(jù)的缺失描述,獲取 更多的多源異構(gòu)數(shù)據(jù),提高學習器的泛化能力,本發(fā)明將提供具有多源補全能力的缺失源 補全算法。
[0019]具體的技術(shù)方案為:
[0020] 1)ILCA模型首先學習到一個特征同構(gòu)空間。在這個空間中使用相同的維度和相同 的屬性描述相同的語義概念,以此橋接多個異構(gòu)的底層特征空間。為了能夠充分捕捉到異 源間的語義互補性和等同分布,ILCA模型會利用已有的無缺失異構(gòu)描述X E和Ye,學習多個異 構(gòu)的線性變換A和B,從而消除不同來源間的異構(gòu)性,由此得到一個特征同構(gòu)空間。在這個空 間中,來自不同來源的異構(gòu)相關(guān)描述被耦合到一起,以此捕捉異源異構(gòu)描述間的共享信息, 進而在不同的類別間形成大邊緣。
[0021 ]例如,圖3中類1和類2的大邊緣。由此便可在這個特征同構(gòu)空間中,直接度量多源 異構(gòu)數(shù)據(jù)間的相關(guān)性。如圖3所示,線性變換A和B將異構(gòu)共生描述X#Py2線性投影到這個特 征同構(gòu)空間,以消除它們之間的異構(gòu)性。此外,在這個特征同構(gòu)空間中,ILCA模型還將同類 樣本聚集到一起,而異類樣本間則保持一定距離。例如,在這個特征同構(gòu)空間中,異構(gòu)共生 描述(xi,yi)和(X3,y3)呈現(xiàn)出很高的分布相似性。
[0022] 2)進一步假設(shè)多源異構(gòu)數(shù)據(jù)的缺失源服從正態(tài)分布。那么,缺失描述的期望自然 對應(yīng)于類間差異,而缺失樣本的方差代表類內(nèi)差異。為了恢復多源異構(gòu)數(shù)據(jù)的缺失源,IDPC 模型利用秩(rank)捕捉類間差異,同時使用稀疏性(sparsity)挖掘類內(nèi)差異。由此,缺失描 述的數(shù)據(jù)矩陣XM便由低秩矩陣Lm和稀疏矩陣S M的和構(gòu)成。根據(jù)這個補全假設(shè),IDPC模型利用 ILCA模型學習到的語義互補性和等同分布,補全多源異構(gòu)數(shù)據(jù)的缺失源。此外,在補全過程 中,一些噪聲信息不可避免地被包含在了恢復的缺失源中。這些因素會嚴重影響恢復描述 的性能。為了能夠有效地去除這些噪聲,在IDPC模型中引入了一個由均值矩陣誘導的數(shù)據(jù) 分布約束。這個約束會將恢復的描述推進到以同類樣本的均值為中心的邊緣內(nèi)。而矩陣H的 第i行為已有的無缺失矩陣Ye中和第i個缺失描述類別相同的同類樣本的均值。
[0023] 在圖3中,由于yi和y3都屬于類1,所以yi和y3的均值構(gòu)成hi。與此同時,在特征同構(gòu) 空間中,來自缺失源MRI的恢復描述X5和X7被推進到以PET源中同類樣本的均值hi為中心的 邊緣中,并分別和對應(yīng)的異構(gòu)描述ys和y?耦合到一起。如圖3所示,由ILCA+IDPC框架不僅完 成了缺失源的補全,而且使恢復的缺失描述在學習到的特征同構(gòu)空間中更可能是線性可分 的。
[0024] 下面進一步說明本發(fā)明的主要內(nèi)容:
[0025] 1)同構(gòu)線性相關(guān)分析模型
[0026]本發(fā)明提供的同構(gòu)線性相關(guān)分析ILCA模型,利用已有的多源無缺失數(shù)據(jù)學習多個 異構(gòu)線性變換,比如利用兩個源的無缺失數(shù)據(jù)知e 和E"ixdy(d x為來源Vx的維度, dy為來源Vy的維度,m為無缺失樣本的數(shù)量),學習兩個異構(gòu)線性變換A和B,從而將異源間的 相關(guān)異構(gòu)描述耦合到一起,以捕捉異源間的語義互補性和等同分布,消除異源間的異構(gòu)性, 從而構(gòu)建出一個低維的特征同構(gòu)空間。
[0027] 該方法首先設(shè)知和知分別是來源Vx和Vy中同類樣本對的集合,和分別是來源 V x和Vy中異類樣本對的集合,J和R分別是來源Vx和Vy中的散度矩陣。那么可以將類內(nèi)散度矩 陣Js和Rs定義為如下形式:
[0028] [(而―(1)
[0029] Yj (y< ~ yj)(yt ~ yjY (2) v(yi 句)
[0030] 與此同時,類間散度矩陣JD和RD被定義為如下形式:
[0031] Z (xi-xj)( xi~xi)' (3)
[0032] R? =; X {yi ~yj)(yt - y/) (4): v'(W/)e%_
[0033] 基于上述定義,ILCA方法的優(yōu)化模型如下: .||^/1 - YeB\\2f - a(tr(ATj.DA) + tr(Br RVB)) +
[0034] 心 p{tr{ATjsA) + tr{BrRsB)) (5:) s.L ArA lk and BrB = lk
[0035] 其中,j e :趿心歐,s e服~錄,kG {1,???,min(dx,dy)}為同構(gòu)空間的維度, + trCST%ff)是類間懲罰(即拉大異類樣本間的距離),tr(尤以)+ tr(扒i?J)是類 內(nèi)緊縮(即縮減同類樣本間的距離),而a和0是平衡參數(shù)。在公式(5)中,引入正交約束的目 的就是有效地去除同一來源內(nèi)不同特征間的相關(guān)性。此外,利用類內(nèi)緊縮和類間懲罰構(gòu)成 的大邊緣策略學習不同來源間的等同分布。
[0036] 值得注意的是,ILCA方法可以將多源異構(gòu)數(shù)據(jù)線性投影到一個低維空間中。這一 點是非常不同于著名的非線性投影方法核典型相關(guān)分析方法(參考文獻:David R.Hardoon,Sandor Szedmak,John Shawe-Taylor.Canonical Correlation Analysis:An Overview with Application to Learning Methods.Neural Computation 16(12):2639-2664(2004))和深度典型相關(guān)分析(參考文獻:Galen Andrew,Raman Arora,Jeff A.Bilmes,Karen Livescu.Deep Canonical Correlation Analysis.ACM International Conference on Machine Learning(3)2013:1247-1255?)方法的。
[0037] 2)等同分布約束補全模型
[0038] 如圖4所示,本發(fā)明提供的等同分布約束補全模型IDPC假設(shè)數(shù)據(jù)矩陣 % = %1+n2]T e多源缺失樣本的數(shù)量)是來源1的一組缺失描述,而數(shù) 據(jù)矩陣e E~崎對應(yīng)于缺失描述XM的來自于來源Vy的一組已經(jīng)存在的 異構(gòu)描述。缺失源的數(shù)據(jù)矩陣XM可以塑造為低秩LM(捕捉類間差異,代表期望)加稀疏S M(捕 捉類內(nèi)差異,代表方差)兩個成分的和。由此,為了補全缺失的來源,IDPC模型在由ILCA模型 學習到的特征同構(gòu)空間中,利用ILCA模型捕捉到的異源間的語義互補性和等同分布,補全 多源異構(gòu)數(shù)據(jù)的缺失描述。
[0039] 假設(shè)AlPf為公式(5)中ILCA模型的最優(yōu)解,IDPC方法的優(yōu)化模型如下: min W(Lm + Sm)a* - ymb*U + rU^Mlii ,,、
[0040] (6) s. t. ||(Z..AJ 4- Sm)A" - < n and \\LM\\* < £
[0041] 其中,LM和SM分別表示缺失來源描述的類間和類內(nèi)差異,y為平衡因子,Jr為距離度 量參數(shù),而e為預先指定的正參數(shù)以控制恢復的缺失來源描述攜帶的信息量。矩陣 if 丨/V 構(gòu)建了一個數(shù)據(jù)分布約束,使得恢復的缺失來源描述Lm+Sm=Xm擁有 和來源Vy中已存在的描述Ye相同的分布,以此最大程度地消除噪聲。假設(shè)是YM中第i個樣 本在YE中的最近鄰。在矩陣H中每一行向量A『由已存在的樣本YE中和Xm中第i個實例同類樣 本的均值組成。4和歧分別是來自來源V x和Vy的第t個類的樣本集。定義如下三式:
[0042] ^ ^ ^ ^ A 3/y G (7)
[0043] Dl = [JtDt (8)
[0044] hi=mean(D1) (9)
[0045] 其中,D1是Ye中和XM中第i個實例同類樣本的集合。
[0046] 此外,在公式(6)中引入跡范數(shù)約束的目的就是在特征同構(gòu)空間中捕捉更多的缺 失來源描述XM的類間差異。而A范數(shù)正規(guī)化項控制恢復的缺失來源描述X M的稀疏度以此挖 掘足夠的類內(nèi)差異。
[0047] 因此,本質(zhì)上,由于充分考慮了不同來源間的語義互補性和等同分布,提出的IDPC 模型不同于現(xiàn)有的矩陣補全方法。
[0048] 需要注意的是,直接求解公式(6)中的問題〇:不是一件容易的事情,其原因有兩 點。首先,很難找到滿足數(shù)據(jù)分布約束的最優(yōu)解。其次,跡范數(shù)約束是不平滑,這就使得尋 找模型的最優(yōu)解更加困難。然而,可以使用拉格朗日對偶法增廣目標函數(shù)。具體方法為將數(shù) 據(jù)分布約束的加權(quán)和添加到目標函數(shù)中。由此可得如下可求解的凸優(yōu)化問題Q 2: ]\(Lm + Sm)A*- YmB% + Fll^ll! +
[0049] n2-.LM,sM r](W(LM + - HB*\\2F - n) (10) S.t. Um\L S £
[0050] 其中,n為平衡因子。
[0051 ]本發(fā)明的有益效果:
[0052]針對于多源缺失數(shù)據(jù)中存在的缺失源問題,本發(fā)明提供了一種特征層面的多源異 構(gòu)數(shù)據(jù)缺失源補全的框架。該框架首先針對于異源間存在的特征異構(gòu)性,設(shè)計了一種線性 投影法ILCA,通過學習一個特征同構(gòu)空間,橋接異構(gòu)的底層特征空間,并捕捉到異源間的語 義互補性和等同分布。此外,根據(jù)不同的來源都服從正態(tài)分布的假設(shè),將缺失源的數(shù)據(jù)矩陣 塑造為低秩加稀疏兩個成分的和。同時,創(chuàng)新性地提出了一種基于數(shù)據(jù)分布約束的缺失源 補全模型IDPC,利用ILCA模型學習到的異源間的語義互補性和等同分布,補全多源異構(gòu)數(shù) 據(jù)的缺失描述,獲取更多的多源異構(gòu)數(shù)據(jù),提高學習器的泛化能力。
【附圖說明】
[0053]圖1為多源異構(gòu)數(shù)據(jù)的缺失來源和單源不完整數(shù)據(jù)示意圖。
[0054]圖2為多源異構(gòu)數(shù)據(jù)間的互補性和分布性約束示意圖。
[0055] 圖3為多源異構(gòu)數(shù)據(jù)的缺失源補全框架示意圖。
[0056] 圖4為多源異構(gòu)數(shù)據(jù)缺失源的構(gòu)成示意圖。
【具體實施方式】
[0057]下面通過具體實施例,對本發(fā)明做進一步說明。
[0058]本發(fā)明提供的多源異構(gòu)大數(shù)據(jù)的缺失源補全方法,由同構(gòu)線性相關(guān)分析ILCA和等 同分布約束補全IDPC算法組成,通過循環(huán)迭代過程實現(xiàn)模型的逐步優(yōu)化。
[0059] 為了符號的簡單表示,在公式(5)中的ILCA模型可以表示為:
[0060] 贈 f(z) (11)
[0061 ]其中,/(?) = atr0 _+_j8tr_(_)是平滑的目標函數(shù),z= [Az Bz]象征優(yōu)化變量,而e 為封閉的凸集,其定義為:
[0062] G - {ZlA^A^ - (1.2)
[0063] 由于f( ?)是連續(xù)可微函數(shù)且?guī)в蠰ipschitz連續(xù)梯度L(參考文獻: Y.Nesterov.Introductory lectures on convex optimization,volume 87.Springer Science&Business Media,2004.):
[0064] \\Vf(Zx) - Vf{Zy)\\F < /..||ZV - ||f,VZ,,Zy E C (!3)
[0065] 所以,很適合米用加速近似梯度(Accelerated Proximal Gradient,APxG)(參考 文獻:[l]Yurii Nesterov. Introductory Lectures on Convex Programming.Kluwer Academic Publishers,2004.[2]Shuiwang Ji,Jieping Ye.An Accelerated Gradient Method for Trace Norm Minimization.Proc.ACM.International Conference on Machine Learning,2009,pp ? 457-464 ?)算法求解公式(11)中的問題。
[0066]需要注意的是,在APxG算法中,可以使用基于曲線搜索的梯度下降(Gradient Descent Method with Curvilinear Search,GDMCS)算法(參考文獻:Zaiwen Wen,Wotao Y i n . A Feasible Method for Optimization with Orthogonality Constraints.Elsevier .Pattern recognition,2013,142(1-2): 397-434 ?)保持滿足約束 條件e的給定點p的正交性。算法1給出了 GDMCS算法的具體細節(jié)。
[0069] 通過將APxG和算法1相結(jié)合,就可以求解公式(5)中的問題。算法2給出了求解公式 (5)中問題的具體細節(jié),其中Schmidt( ?)表示Gram-Schmidt正交化(參考文獻:Carl D.Meyer.Matrix Analysis and Applied Linear Algebra.SIAM Publishers,2000.)〇

[0072] 在公式(6)中的IDPC模型可以簡化為:
[0073] mmF(0) = w(6>) + yg(〇) (14)
[0074] 其中,w(〇 = |H||是一個平滑的目標函數(shù),g( ? ) = |卜|h是一個不可微函數(shù),? = [L0 S0]象征性地表示優(yōu)化變量,而$為如下形式的封閉的凸集:
[0075] Q - [0|il.f.(-;|u < £} (15)
[0076]由于公式(14)中的w( ?)是連續(xù)可微函數(shù)且?guī)в蠰ipschitz連續(xù)梯度L(參考文獻: Y.Nesterov.Introductory lectures on convex optimization,volume 87.Springer Sc ience&Business Media,2004.),所以很適合米用加速投影梯度(Accelerated Projected Gradient,APjG)(參考文南犬:Y.Nesterov. Introductory lectures on convex optimization,volume 87.Springer Science&Business Media,2004.)算法求角軍公式(14) 中的問題。
[0077] 需要注意的是,在APjG算法中,一個給定點p在凸集?⑷陽IL 上的歐幾里德 投影可以定義為:
[0078] pro人;(?)二 a'gggip -.?丨||/2 (!6)
[0079] 其中,m是預先指定的正常數(shù)。那么,可以使用在跡范數(shù)約束上的有效投影 (Efficient Projection on Trace Norm Constraints,EPTNC)算法(參考文南犬:John Duchi,Shai Shalev-Shwartz,Yoram Singer,Tushar Chandra.Efficient Projections onto the-iM-Ballfor Learning in High Dimensions . Proc. International Conference on Machine Learning,2008,pp. 272-279.)求解等式(16) D 算法3給出了EPTNC算法的具體 細節(jié)。

[0082] 與此同時,在APjG算法中,通過不可微函數(shù)g( ?)構(gòu)建的無約束優(yōu)化問題為:
[0083] ?* = argminpiWdl^ + p\\0 ~ 5||| (17)
[0084] 其中,y和P是兩個預先指定的正參數(shù)??梢允褂密涢T限算子(Soft-Thresholding Operator,ST0)算法(參考文南犬:Jian-Feng Cai ,Emmanuel J. Candes , Zuowei Shen . A Singular Value Thresholding Algorithm for Matrix Completion.SIAM.Journal on Optimization,2010,20(4): 1956-1982.)求解等式(17) ATC算法的具體細節(jié)見算法4。
[0086] 當應(yīng)用APjG算法求解公式(14)中的問題時,一個給定點P=[LP SP]在集合S上的歐 幾里德投影?=[A0 Be]可以定義為:
[0087] pr〇i〇(P) = arg mm \\0-P\\-;/2 (18)
[0088] 通過結(jié)合APjG算法,算法3和算法4,就可以求解公式(14)中的問題。算法5給出了 IDPC算法的具體細節(jié)。
2:;. i又LSi = 和= S.g。? 3:: for i - niax-ilcrdo 4.:' 設(shè) a; = 廣 1)/%一:1.。. .5.:: 計算丄朽=(1 + o:i)L0i -& " 計算知,:=(1 + ~ a;S0i-文 7:; 設(shè) P; = [1巧 SpJ tr & 計算 l w(h)和 I7Spw(SPi)。 % while (true): 10: 計算.L戶=- ▽知w(Z^)/t^0. " i l W[^i+1] ^ eptnc{lp,e), 12. 計算 ^ = Sp; - kwOpJ/T;。
[0090] ^ 13: ii-W[5ei+1] = sro(5p.A(-,r,)〇 14: T^0;+i = [^i+1S0i+i]〇 15: if FCO^^) < Fr.JJ.(9ii^) then break 16: else 更新矜=..n x 2: 17: end-if 18: end-while 19:::更新 = (1 +」l + 4tf-j_)/2, ri+1 = ii, 和七+i 二 max(0.9A;,/)。 20: end-for 2.1..:.設(shè)沒-*=.瑪+、.;!
[0091]本發(fā)明提供的多源異構(gòu)大數(shù)據(jù)的缺失源補全ILCA+IDPC框架,針對多源異構(gòu)數(shù)據(jù) 的缺失源問題,利用多源異構(gòu)數(shù)據(jù)間的語義互補性和分布相似性,基于子空間學習方法,通 過對已有的無缺失多源異構(gòu)數(shù)據(jù)間關(guān)聯(lián)性的挖掘,補全多源異構(gòu)數(shù)據(jù)的缺失描述,從而獲 取更多的多源異構(gòu)數(shù)據(jù),提高學習器的泛化能力。
[0092]以上實施例僅用以說明本發(fā)明的技術(shù)方案而非對其進行限制,本領(lǐng)域的普通技術(shù) 人員可以對本發(fā)明的技術(shù)方案進行修改或者等同替換,而不脫離本發(fā)明的精神和范圍,本 發(fā)明的保護范圍應(yīng)以權(quán)利要求書所述為準。
【主權(quán)項】
1. 一種多源異構(gòu)大數(shù)據(jù)的缺失源補全方法,其步驟包括: 1) 利用已有的無缺失異構(gòu)描述,學習多個異構(gòu)的線性變換,將多源異構(gòu)數(shù)據(jù)線性投影 到一個特征同構(gòu)空間;在所述特征同構(gòu)空間中,將來自不同來源的異構(gòu)相關(guān)描述耦合到一 起,以捕捉異源間的語義互補性和等同分布,消除異源間的異構(gòu)性; 2) 在所述特征同構(gòu)空間中,利用異源間的語義互補性和等同分布,補全多源異構(gòu)數(shù)據(jù) 的缺失描述。2. 如權(quán)利要求1所述的方法,其特征在于:步驟1)利用已有的多源無缺失數(shù)據(jù) 知e MfHx~和Ke e 學習多個異構(gòu)線性變換A和B,其中dx為來源Vx的維度,d y為來源Vy 的維度,m為無缺失樣本的數(shù)暈:并建立如下的優(yōu)化模型:其中,4 e Edxxfc, S e _E_ayx_fc7ke {1,···,min(dx,dy)}為同構(gòu)空間的維度,Js和Rs為類內(nèi)散 度矩陣,Jd和Rd為類間散度矩陣,+ trCS7"/^)是類間懲罰,是 類內(nèi)緊縮,而α和β是平衡參數(shù)。3. 如權(quán)利要求2所述的方法,其特征在于,步驟2)中,設(shè)數(shù)據(jù)矩陣私=[x,ll+1,…e Mn2xdx是來源^的一組缺失描述,其中^為多源缺失樣本的數(shù)量,設(shè)數(shù)據(jù)矩陣 [3^+1,...,3?+?] 7"€ 對應(yīng)于缺失描述Xm的來自于來源Vy的一組已經(jīng)存在的異構(gòu)描述, 然后將缺失源的數(shù)據(jù)矩陣Xm塑造為低秩矩陣Lm加稀疏矩陣Sm兩個成分的和;然后建立如下 優(yōu)化模型:其中,AlPf為步驟1)得到的最優(yōu)解,Lm和Sm分別表示缺失來源描述的類間和類內(nèi)差異, γ為平衡因子,η為距離度量參數(shù),而ε為預先指定的正參數(shù)以控制恢復的缺失來源描述攜 帶的信息量;矩陣# =H,…e Kn2xi^構(gòu)建了一個數(shù)據(jù)分布約束,使得恢復的缺失來源 描述Lm+Sm=Xm擁有和來源Vy中已存在的描述Ye相同的分布,以此最大程度地消除噪聲。4. 如權(quán)利要求3所述的方法,其特征在于,使用拉格朗日對偶法增廣目標函數(shù),以求解 Ω i,具體方法為將數(shù)據(jù)分布約束的加權(quán)和添加到目標函數(shù)中,由此得到如下可求解的凸優(yōu) 化問題Ω 2:其中,η為平衡因子。
【文檔編號】G06F17/30GK105893610SQ201610265744
【公開日】2016年8月24日
【申請日】2016年4月26日
【發(fā)明人】張磊, 王樹鵬, 云曉春
【申請人】中國科學院信息工程研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1