成人打一炮免费视频,亚洲天堂视频在线观看,97视频久久久,日本japanese护士色高清,五月婷婷丁香,日韩精品一级无码毛片免费,国产欧美日韩精品网红剧情演绎

一種基于hadoop的全景大數(shù)據(jù)分布式存儲(chǔ)方法

文檔序號(hào):10687175閱讀:409來(lái)源:國(guó)知局
一種基于hadoop的全景大數(shù)據(jù)分布式存儲(chǔ)方法
【專利摘要】本發(fā)明公開了一種基于hadoop的全景大數(shù)據(jù)分布式存儲(chǔ)方法,能夠?yàn)橹悄茈娋W(wǎng)大數(shù)據(jù)提供了一種新型的大數(shù)據(jù)分布式存儲(chǔ)方法,可以有效解決傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)冗余、訪問(wèn)效率低、災(zāi)備魯棒性差等問(wèn)題。本發(fā)明提出的分布式全景大數(shù)據(jù)分布式存儲(chǔ)技術(shù),首先基于分布式數(shù)據(jù)存儲(chǔ)和訪問(wèn)的Hbase表優(yōu)化設(shè)計(jì)處理行鍵長(zhǎng)度最小化和固定設(shè)置,然后,對(duì)Hbase系統(tǒng)性能進(jìn)行負(fù)載均衡、JVM優(yōu)化、分裂與合并服務(wù)優(yōu)化,最后,對(duì)HDFS的大規(guī)模小文件優(yōu)化采用標(biāo)記法進(jìn)行優(yōu)化處理。對(duì)于電力大數(shù)據(jù)分布式存儲(chǔ)技術(shù)的存儲(chǔ)冗余優(yōu)化處理、快速訪問(wèn)高效率、高可靠災(zāi)備安全性有顯著改進(jìn)。
【專利說(shuō)明】
一種基于hadoop的全景大數(shù)據(jù)分布式存儲(chǔ)方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及電力數(shù)據(jù)分析技術(shù)領(lǐng)域,尤其涉及一種基于hadoop的全景大數(shù)據(jù)分布 式存儲(chǔ)方法。
【背景技術(shù)】
[0002] 現(xiàn)有的智能電網(wǎng)業(yè)務(wù)數(shù)據(jù)挖掘中智能電網(wǎng)運(yùn)行和設(shè)備檢測(cè)或監(jiān)測(cè)數(shù)據(jù)、電力企業(yè) 營(yíng)銷數(shù)據(jù)和電力企業(yè)管理數(shù)據(jù)均存在如下的幾方面的特征:1)數(shù)據(jù)種類繁多數(shù)據(jù)量大;電 網(wǎng)中密布著眾多的電力設(shè)備和監(jiān)測(cè)儀器,它們發(fā)送的采集數(shù)據(jù)就組成了海量的需要電力信 息系統(tǒng)不停接收和處理的實(shí)時(shí)狀態(tài)數(shù)據(jù)。2)數(shù)據(jù)格式不統(tǒng)一且通用性差;長(zhǎng)期以來(lái),國(guó)內(nèi)外 電力自動(dòng)化設(shè)備廠商推出的狀態(tài)監(jiān)測(cè)裝置與系統(tǒng)的通信規(guī)則不統(tǒng)一、功能和接口各不相 同,不同設(shè)備之間也不能直接通信,難以進(jìn)行互操作,而且上層的管理和決策系統(tǒng)無(wú)法調(diào)度 和分析這些數(shù)據(jù)。3)-次寫入,多次讀取;電力監(jiān)測(cè)設(shè)備不斷地將實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)和故障數(shù)據(jù) 等寫入歷史數(shù)據(jù)庫(kù)和實(shí)時(shí)數(shù)據(jù)庫(kù),作為以后分析使用的數(shù)據(jù)來(lái)源,數(shù)據(jù)便不做修改。
[0003] 目前,電力信息系統(tǒng)中的專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)系統(tǒng)等的知識(shí)獲取需要利用和提取 現(xiàn)實(shí)電力系統(tǒng)數(shù)據(jù)做分析和鍛煉;電力設(shè)備故障分析、電力自動(dòng)化設(shè)備優(yōu)化調(diào)整等方面需 要多次從數(shù)據(jù)庫(kù)中讀取、計(jì)算電力數(shù)據(jù)?,F(xiàn)有的電力數(shù)據(jù)存儲(chǔ)系統(tǒng),采用的是一次寫入、以 供相關(guān)系統(tǒng)調(diào)用和讀取的關(guān)系型數(shù)據(jù)庫(kù),不能滿足日益增長(zhǎng)和變化的電力大數(shù)據(jù)存儲(chǔ)需 求。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的是提供一種基于hadoop的全景大數(shù)據(jù)分布式存儲(chǔ)方法,能夠?yàn)橹悄?電網(wǎng)大數(shù)據(jù)提供了一種新型的大數(shù)據(jù)分布式存儲(chǔ)方法,可以有效解決傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)存 儲(chǔ)冗余、訪問(wèn)效率低、災(zāi)備魯棒性差等問(wèn)題。
[0005]本發(fā)明采用的技術(shù)方案為: 一種基于hadoop的全景大數(shù)據(jù)分布式存儲(chǔ)方法,包括以下步驟: 第一步,基于分布式數(shù)據(jù)存儲(chǔ)和訪問(wèn)的Hbase表優(yōu)化設(shè)計(jì),具體如下: 首先,對(duì)分布式數(shù)據(jù)庫(kù)行鍵設(shè)計(jì),且設(shè)計(jì)過(guò)程遵循下述規(guī)則: (1) 避免使用單調(diào)遞增行鍵; (2) 行鍵與列族關(guān)系為一對(duì)多的關(guān)系,同一個(gè)行鍵可以在同一個(gè)表的每個(gè)列族中存在 而不會(huì)沖突; (3) 行鍵長(zhǎng)度最小化設(shè)計(jì):由于設(shè)計(jì)行鍵需要權(quán)衡長(zhǎng)度,既要滿足語(yǔ)義,又要盡可能地 縮短以降低存儲(chǔ)空間,所有以短到可讀為標(biāo)準(zhǔn); 然后,對(duì)分布式數(shù)據(jù)庫(kù)的列族進(jìn)行優(yōu)化設(shè)計(jì),優(yōu)化規(guī)則具體如下: (1) 列族的數(shù)量設(shè)計(jì)中,在Hbase的表單設(shè)計(jì)中使用一個(gè)列族:只有你的所有查詢操作 只訪問(wèn)一個(gè)列族的時(shí)候,可以引入第二個(gè)和第三個(gè)列族; (2) 所述的列族名的長(zhǎng)度為一到兩個(gè)字符; 第二步,對(duì)Hbase系統(tǒng)性能進(jìn)行優(yōu)化: (1) 設(shè)置負(fù)載均衡:調(diào)整不同的Region數(shù)量以適應(yīng)不同的場(chǎng)景要求; (2) 對(duì)JVM進(jìn)行優(yōu)化:調(diào)整不同的JVM參數(shù)以滿足系統(tǒng)的具體要求,選擇不同的Java垃圾 回收機(jī)制提尚JVM的性能; (3) 分裂與合并服務(wù)優(yōu)化:在不同的應(yīng)用場(chǎng)景中,選擇不同的分裂或合并策略,降低對(duì) 系統(tǒng)服務(wù)的依賴,提尚服務(wù)的性能; 第三步,對(duì)HDFS的大規(guī)模小文件進(jìn)行標(biāo)記法優(yōu)化: 首先,對(duì)Hbase中存儲(chǔ)的小文件元數(shù)據(jù)增加一個(gè)狀態(tài)標(biāo)志位,每次操作會(huì)進(jìn)行會(huì)進(jìn)行文 件大小判斷,并對(duì)其進(jìn)行相應(yīng)處理,更新標(biāo)志位; 其次,采用"標(biāo)記法"對(duì)Mapfile打包小文件時(shí)的增刪改查進(jìn)行處理,保證了小文件存儲(chǔ) 訪問(wèn)的效率。
[0006] 所述的設(shè)置負(fù)載均衡中,Region數(shù)量包括全局計(jì)劃、隨機(jī)計(jì)劃、批量啟動(dòng)計(jì)劃三 種,每種計(jì)劃適應(yīng)不同的應(yīng)用場(chǎng)景,有利于發(fā)揮的系統(tǒng)最大性能,提高響應(yīng)速度,降低負(fù)載 集中的風(fēng)險(xiǎn)。
[0007] 方案的 GC 搭配為 CMS+ParNew。
[0008] 所述第三步中該狀態(tài)標(biāo)志位可能的取值為"Hdf sLargeFile","HdfsMapf lie", "LocalSmallFile" 以及"Deleted" 四種。
[0009]本發(fā)明基于Hadoop架構(gòu)的全景大數(shù)據(jù)分布式存儲(chǔ)技術(shù)通過(guò)為智能電網(wǎng)中的各種 電力系統(tǒng)計(jì)算與應(yīng)用進(jìn)行服務(wù),實(shí)現(xiàn)負(fù)荷預(yù)測(cè)與風(fēng)險(xiǎn)評(píng)估等功能,并將具體的計(jì)算任務(wù)提 交給該分布式存儲(chǔ)計(jì)算平臺(tái),然后利用高效的大數(shù)據(jù)分析和計(jì)算處理能力快速響應(yīng)技術(shù)反 饋,并對(duì)智能電網(wǎng)全景大數(shù)據(jù)常規(guī)監(jiān)控和突發(fā)故障的運(yùn)維分析進(jìn)行改進(jìn),對(duì)于電力大數(shù)據(jù) 分布式存儲(chǔ)技術(shù)的存儲(chǔ)冗余優(yōu)化處理、快速訪問(wèn)高效率、高可靠災(zāi)備安全性有顯著改進(jìn)。
【附圖說(shuō)明】
[0010]圖1為本發(fā)明流程圖。
【具體實(shí)施方式】
[0011]如圖1所示,本發(fā)明包括以下步驟: 第一步,基于分布式數(shù)據(jù)存儲(chǔ)和訪問(wèn)的Hbase表優(yōu)化設(shè)計(jì),具體如下: 首先,對(duì)分布式數(shù)據(jù)庫(kù)行鍵設(shè)計(jì),在Hbase設(shè)計(jì)中,行鍵設(shè)計(jì)是最關(guān)鍵的部分,直接關(guān)系 到后續(xù)服務(wù)的訪問(wèn)性能。如果行鍵設(shè)計(jì)不合理,對(duì)于后續(xù)查詢服務(wù)會(huì)造成很大影響,效率會(huì) 成倍遞減,以下為設(shè)計(jì)過(guò)程遵循規(guī)則: (1)避免使用單調(diào)遞增行鍵;使用Hbase的過(guò)程中,在進(jìn)行單線程全表掃描時(shí),可以發(fā)現(xiàn) 所有的請(qǐng)求會(huì)集中在單個(gè)Region上,并且只有在完成當(dāng)前Region所有掃描之后,再進(jìn)行下 一個(gè)Region,如果存儲(chǔ)的Region集中在一個(gè)節(jié)點(diǎn)上,就容易造成單結(jié)點(diǎn)的負(fù)載過(guò)高,所以需 要避免發(fā)生這種情況。
[0012] (2)行鍵與列族關(guān)系為一對(duì)多的關(guān)系,同一個(gè)行鍵可以在同一個(gè)表的每個(gè)列族中 存在而不會(huì)沖突; (3)行鍵長(zhǎng)度最小化設(shè)計(jì):短到可讀;由于對(duì)于查詢需求(Get或者Scan),短鍵并不比長(zhǎng) 鍵性能好多少,所以設(shè)計(jì)行鍵需要權(quán)衡長(zhǎng)度,既要滿足語(yǔ)義,又要盡可能地縮短以降低存儲(chǔ) 空間;在Hbase中,值是作為一個(gè)單元保存在系統(tǒng)中的,要定位一個(gè)單元,需要行鍵、列名和 時(shí)間戳。通常情況下,由于Hbase存儲(chǔ)文件StoreFile中使用索引部分來(lái)加速值的隨機(jī)訪問(wèn), 如果行鍵和列名太大,訪問(wèn)一個(gè)單元的"位置坐標(biāo)"太大,將會(huì)占用很大的內(nèi)存,索引可能會(huì) 被用盡。
[0013] (4)行鍵進(jìn)行固定設(shè)置:開始設(shè)計(jì)時(shí)需要滿足不同業(yè)務(wù)需求對(duì)行鍵進(jìn)行定義; 行鍵不能改變,可以先刪除后然后再插入,所以開始設(shè)計(jì)時(shí)需要注意定義滿足不同業(yè) 務(wù)需求的行鍵,如若不然則會(huì)耗費(fèi)不小的代價(jià)進(jìn)行數(shù)據(jù)轉(zhuǎn)換。
[0014] 然后,對(duì)分布式數(shù)據(jù)庫(kù)的列族進(jìn)行優(yōu)化設(shè)計(jì),優(yōu)化規(guī)則具體如下: (1)列族的數(shù)量設(shè)計(jì)中,在Hbase的表單設(shè)計(jì)中使用一個(gè)列族:只有你的所有查詢操作 只訪問(wèn)一個(gè)列族的時(shí)候,可以引入第二個(gè)和第三個(gè)列族。
[0015] (2)所述的列族名的長(zhǎng)度為一到兩個(gè)字符;基于前面提到的節(jié)省存儲(chǔ)空間的原因, 要最大化減小列族的長(zhǎng)度,最好是一到兩個(gè)字符。
[0016] (3)列族的基數(shù)設(shè)計(jì) 列族的基數(shù)即行數(shù),如果表存在多個(gè)列族,其中列族A有100萬(wàn)行,列族B有10億行,那么 列族A可能被分散到很多的Region或者RegionServer中,這會(huì)導(dǎo)致掃描列族A時(shí)性能低下。
[0017]基于前面提到的節(jié)省存儲(chǔ)空間的原因,列族名長(zhǎng)度設(shè)計(jì)時(shí)要減小列族的長(zhǎng)度,最 好是一到兩個(gè)字符。列族的基數(shù)設(shè)計(jì)中,由于列族的基數(shù)即行數(shù),如果表中存在多個(gè)列族, 其中列族A有100萬(wàn)行,列族B有10億行,那么列族A可能被分散到很多的Region或者 RegionServer中,這會(huì)導(dǎo)致掃描列族A時(shí)性能低下。
[0018]第二步,對(duì)Hbase系統(tǒng)性能進(jìn)行優(yōu)化: (1)設(shè)置負(fù)載均衡:調(diào)整不同的Region數(shù)量以適應(yīng)不同的場(chǎng)景要求,包括全局計(jì)劃、隨 機(jī)計(jì)劃、批量啟動(dòng)計(jì)劃三種,每種計(jì)劃適應(yīng)不同的應(yīng)用場(chǎng)景,有利于發(fā)揮的系統(tǒng)最大性能, 提高響應(yīng)速度,降低負(fù)載集中的風(fēng)險(xiǎn)。
[0019] (2)JVM優(yōu)化:調(diào)整不同的JVM參數(shù)以滿足系統(tǒng)的具體要求,選擇不同的Java垃圾回 收機(jī)制提高JVM的性能,成熟方案的GC搭配通常為CMS+ParNew。
[0020] (3)分裂與合并服務(wù)優(yōu)化:在不同的應(yīng)用場(chǎng)景中,選擇不同的分裂或合并策略,降 低對(duì)系統(tǒng)服務(wù)的依賴,提尚服務(wù)的性能; 第三步,對(duì)HDFS的大規(guī)模小文件進(jìn)行標(biāo)記法進(jìn)行優(yōu)化存儲(chǔ): 采用"標(biāo)記法"對(duì)Mapfile打包小文件時(shí)的增刪改查進(jìn)行處理,保證了小文件存儲(chǔ)訪問(wèn) 的效率,首先對(duì)Hbase中存儲(chǔ)的小文件元數(shù)據(jù)增加一個(gè)狀態(tài)標(biāo)志位,該狀態(tài)位可能的取值為 "HdfsLargeFile","HdfsMapflie","LocalSmallFile" 以及"Deleted" 四種。每次操作會(huì)進(jìn) 行會(huì)進(jìn)行文件大小判斷,并對(duì)其進(jìn)行相應(yīng)處理,更新標(biāo)志位。
[0021]在大規(guī)模小文件處理背景中,文件的存儲(chǔ)形式探討就成為了保證系統(tǒng)性能的重要 部分。HDFS存在普遍的小文件存儲(chǔ)的通病,對(duì)小文件的讀取通常會(huì)造成大量從datanode到 datanode的seeks和hopping來(lái)retrieve文件,而這樣是非常的低效的一種訪問(wèn)方式。因此 對(duì)于大小遠(yuǎn)小于HDFS的塊大小的文件,需要進(jìn)行處理后再存入HDFS中。
[0022]由于小文件存儲(chǔ)在HDFS的特殊環(huán)境,因此文件的增刪改查操作需要進(jìn)行特殊的處 理。mapfile不支持追加寫入操作,這樣每次進(jìn)行操作需要對(duì)原mapfile文件進(jìn)行覆蓋寫入 效率低下。為了實(shí)現(xiàn)相應(yīng)功能,我們對(duì)Hbase中存儲(chǔ)的小文件元數(shù)據(jù)增加一個(gè)狀態(tài)標(biāo)志位, 該狀態(tài)位可能的取值為 "HdfsLargeFile","HdfsMapflie","LocalSmallFile" 以及 "Deleted"四種。每次操作會(huì)進(jìn)行會(huì)進(jìn)行文件大小判斷,并對(duì)其進(jìn)行相應(yīng)處理,更新標(biāo)志位。 [0023] Hadoop提供了HARf ile、Sequencef ile、Mapf ile幾種方式可供選擇。結(jié)合電力系統(tǒng) 中產(chǎn)生的大量文本文檔和圖片文件的存儲(chǔ)和查詢需求,我們采用Mapfile作為小文件的容 器存儲(chǔ)。由于HDFS默認(rèn)塊大小為64M,而若對(duì)于所有小于64M的文件均進(jìn)行打包,則會(huì)加大打 包文件的過(guò)程的資源損耗,因此需要定一個(gè)閾值(例如4M),當(dāng)文件大小超過(guò)該閾值后進(jìn)行 打包操作,否則直接通過(guò)namenode進(jìn)行上傳。我們可以采用"標(biāo)記法"對(duì)Mapfile打包小文件 時(shí)的增刪改查進(jìn)行處理,保證了小文件存儲(chǔ)訪問(wèn)的效率。
[0024]本發(fā)明以某電力公司電力大數(shù)據(jù)平臺(tái)搭建為實(shí)施例進(jìn)行實(shí)施進(jìn)行說(shuō)明,關(guān)于數(shù)據(jù) 量的估算,可以使用"序號(hào)1用電信息采集"來(lái)計(jì)算,假設(shè)每一條信息具有"時(shí)間,設(shè)備編號(hào), 數(shù)據(jù)"三個(gè)信息,每個(gè)信息是int64類型,則每一條信息量約為50byte,每一年的數(shù)據(jù)量為如 表1所示:
表1 設(shè)計(jì)分布式存儲(chǔ)系統(tǒng)的硬件架構(gòu)可以根據(jù)上述信息采用4TB(單機(jī))X 5的方式進(jìn)行存 儲(chǔ)。根據(jù)圖1所示分布式存儲(chǔ)系統(tǒng)架構(gòu)框圖,大數(shù)據(jù)存儲(chǔ)部分從底層向上可以分為以下幾個(gè) 系統(tǒng)組成部分: 系統(tǒng)組件1: Linux集群 根據(jù)實(shí)際需求計(jì)算并設(shè)計(jì)單個(gè)計(jì)算機(jī)系統(tǒng)的硬件配置,并安裝優(yōu)化后的Linux系統(tǒng)來(lái) 通過(guò)千兆網(wǎng)絡(luò)交換機(jī)進(jìn)行通信,最終組成一個(gè)基于Linux系統(tǒng)的存儲(chǔ)服務(wù)器集群。硬件初步 設(shè)計(jì)為5臺(tái)機(jī)器組成的分布式存儲(chǔ)系統(tǒng),分為兩種規(guī)格: (1) 2CPU * 12核 128G 內(nèi)存(8G*8) 1T硬盤(sata) 7200轉(zhuǎn)/min(l臺(tái)) (2) 2CPU * 12核 64G 內(nèi)存(4T硬盤(sata) 7200轉(zhuǎn)/min (4臺(tái)) 具體硬件規(guī)格參照下表:表2所示
表2 系統(tǒng)組件2:HDFS文件系統(tǒng) Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱HDFSJDFS有著 高容錯(cuò)性(fault-tolerant)的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的硬件上。而且它提供高吞 吐量來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。HDFS放寬了 P0SIX的要 求這樣可以實(shí)現(xiàn)流的形式訪問(wèn)文件系統(tǒng)中的數(shù)據(jù)。
[0025] 系統(tǒng)組件3:Hbase數(shù)據(jù)庫(kù) 實(shí)施例基于谷歌BigTable進(jìn)行建模,構(gòu)建開源的非關(guān)系型分布式數(shù)據(jù)庫(kù)Hbase運(yùn)行于 HDFS文件系統(tǒng)之上,為Hadoop提供類似于BigTable規(guī)模的服務(wù)。因此,它可以容錯(cuò)地存 儲(chǔ)海量稀疏的數(shù)據(jù)。Hbase在列上實(shí)現(xiàn)了BigTable論文提到的壓縮算法、內(nèi)存操作和布隆過(guò) 濾器。Hbase的表能夠作為MapReduce任務(wù)的輸入和輸出,可以通過(guò)Java API來(lái)存取數(shù)據(jù),也 可以通過(guò)REST、Avro或者Thrift的API來(lái)訪問(wèn)。
[0026] 系統(tǒng)組件 4:0penTSDB: 利用OpenTSDB使用Hbase作為存儲(chǔ)中心,它無(wú)須采樣,可以完整的收集和存儲(chǔ)上億的數(shù) 據(jù)點(diǎn),支持秒級(jí)別的數(shù)據(jù)監(jiān)控,得益于Hbase的分布式列式存儲(chǔ),Hbase可以靈活的支持 metrics的增加,可以支持上萬(wàn)機(jī)器和上億數(shù)據(jù)點(diǎn)的采集。在OpenTSDB中,TSD是Hbase對(duì)外 通信的daemon程序,沒有mas ter/s lave之分,也沒有共享狀態(tài),因此利用這點(diǎn)和Hbase集群 的特點(diǎn)就可以消除單點(diǎn)。用戶可以通過(guò)telnet或者h(yuǎn)ttp協(xié)議直接訪問(wèn)TSD接口,也可以通過(guò) rpc 訪問(wèn) TSD。
[00Z7]根據(jù)實(shí)施例系統(tǒng)搭建,基于Hadoop架構(gòu)的全景大數(shù)據(jù)分布式存儲(chǔ)技術(shù)是為智能電 網(wǎng)中的各種電力系統(tǒng)計(jì)算與應(yīng)用進(jìn)行服務(wù),實(shí)現(xiàn)負(fù)荷預(yù)測(cè)與風(fēng)險(xiǎn)評(píng)估等功能,并最終將具 體的計(jì)算任務(wù)提交給該分布式存儲(chǔ)計(jì)算平臺(tái),然后利用高效的大數(shù)據(jù)分析和計(jì)算處理能力 快速響應(yīng)技術(shù)反饋,該規(guī)范對(duì)智能電網(wǎng)全景大數(shù)據(jù)常規(guī)監(jiān)控和突發(fā)故障的運(yùn)維分析改進(jìn)具 有重大的意義。
【主權(quán)項(xiàng)】
1. 一種基于hadoop的全景大數(shù)據(jù)分布式存儲(chǔ)方法,其特征在于:包括以下步驟: 第一步,基于分布式數(shù)據(jù)存儲(chǔ)和訪問(wèn)的Hbase表優(yōu)化設(shè)計(jì),具體如下: 首先,對(duì)分布式數(shù)據(jù)庫(kù)行鍵設(shè)計(jì),且設(shè)計(jì)過(guò)程遵循下述規(guī)則: (1) 避免使用單調(diào)遞增行鍵; (2) 行鍵與列族關(guān)系為一對(duì)多的關(guān)系,同一個(gè)行鍵可以在同一個(gè)表的每個(gè)列族中存在 而不會(huì)沖突; (3) 行鍵長(zhǎng)度最小化設(shè)計(jì):由于設(shè)計(jì)行鍵需要權(quán)衡長(zhǎng)度,既要滿足語(yǔ)義,又要盡可能地 縮短以降低存儲(chǔ)空間,所有以短到可讀為標(biāo)準(zhǔn); 然后,對(duì)分布式數(shù)據(jù)庫(kù)的列族進(jìn)行優(yōu)化設(shè)計(jì),優(yōu)化規(guī)則具體如下: (1) 列族的數(shù)量設(shè)計(jì)中,在Hbase的表單設(shè)計(jì)中使用一個(gè)列族:只有你的所有查詢操作 只訪問(wèn)一個(gè)列族的時(shí)候,可以引入第二個(gè)和第三個(gè)列族; (2) 所述的列族名的長(zhǎng)度為一到兩個(gè)字符; 第二步,對(duì)Hbase系統(tǒng)性能進(jìn)行優(yōu)化: (1) 設(shè)置負(fù)載均衡:調(diào)整不同的Region數(shù)量以適應(yīng)不同的場(chǎng)景要求; (2) 對(duì)JVM進(jìn)行優(yōu)化:調(diào)整不同的JVM參數(shù)以滿足系統(tǒng)的具體要求,選擇不同的Java垃圾 回收機(jī)制提尚JVM的性能; (3) 分裂與合并服務(wù)優(yōu)化:在不同的應(yīng)用場(chǎng)景中,選擇不同的分裂或合并策略,降低對(duì) 系統(tǒng)服務(wù)的依賴,提尚服務(wù)的性能; 第三步,對(duì)HDFS的大規(guī)模小文件進(jìn)行標(biāo)記法優(yōu)化: 首先,對(duì)Hbase中存儲(chǔ)的小文件元數(shù)據(jù)增加一個(gè)狀態(tài)標(biāo)志位,每次操作會(huì)進(jìn)行會(huì)進(jìn)行文 件大小判斷,并對(duì)其進(jìn)行相應(yīng)處理,更新標(biāo)志位; 其次,采用"標(biāo)記法"對(duì)Mapfile打包小文件時(shí)的增刪改查進(jìn)行處理,保證了小文件存儲(chǔ) 訪問(wèn)的效率。2. 根據(jù)權(quán)利要求1所述的基于hadoop的全景大數(shù)據(jù)分布式存儲(chǔ)技術(shù),其特征在于:所述 的設(shè)置負(fù)載均衡中,Region數(shù)量包括全局計(jì)劃、隨機(jī)計(jì)劃、批量啟動(dòng)計(jì)劃三種,每種計(jì)劃適 應(yīng)不同的應(yīng)用場(chǎng)景,有利于發(fā)揮的系統(tǒng)最大性能,提高響應(yīng)速度,降低負(fù)載集中的風(fēng)險(xiǎn)。3. 根據(jù)權(quán)利要求2所述的基于hadoop的全景大數(shù)據(jù)分布式存儲(chǔ)技術(shù),其特征在于:方案 的 GC 搭配為 CMS+ParNew 〇4. 根據(jù)權(quán)利要求3所述的基于hadoop的全景大數(shù)據(jù)分布式存儲(chǔ)技術(shù),其特征在于:所述 第三步中該狀態(tài)標(biāo)志位可能的取值為"HdfsLargeFile","HdfsMapflie", "LocalSmallFile" 以及"Deleted" 四種。
【文檔編號(hào)】G06F17/30GK106055678SQ201610397090
【公開日】2016年10月26日
【申請(qǐng)日】2016年6月7日
【發(fā)明人】李強(qiáng), 馬建偉, 孫芊, 周鳳珍, 楊磊, 王鵬, 王文博, 黃偉, 鄒會(huì)權(quán), 肖寒, 趙理
【申請(qǐng)人】國(guó)網(wǎng)河南省電力公司電力科學(xué)研究院, 國(guó)網(wǎng)河南省電力公司, 國(guó)家電網(wǎng)公司, 河南恩湃高科集團(tuán)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1