hadoopHdfs的數(shù)據(jù)磁盤大小不均衡怎么處理

這篇文章主要講解了“hadoop Hdfs的數(shù)據(jù)磁盤大小不均衡怎么處理”，文中的講解內(nèi)容簡單清晰，易于學(xué)習(xí)與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學(xué)習(xí)“hadoop Hdfs的數(shù)據(jù)磁盤大小不均衡怎么處理”吧！

成都創(chuàng)新互聯(lián)是一家網(wǎng)站設(shè)計(jì)公司，集創(chuàng)意、互聯(lián)網(wǎng)應(yīng)用、軟件技術(shù)為一體的創(chuàng)意網(wǎng)站建設(shè)服務(wù)商，主營產(chǎn)品：自適應(yīng)網(wǎng)站建設(shè)、成都品牌網(wǎng)站建設(shè)、成都營銷網(wǎng)站建設(shè)。我們專注企業(yè)品牌在網(wǎng)站中的整體樹立，網(wǎng)絡(luò)互動(dòng)的體驗(yàn)，以及在手機(jī)等移動(dòng)端的優(yōu)質(zhì)呈現(xiàn)。成都網(wǎng)站設(shè)計(jì)、網(wǎng)站建設(shè)、移動(dòng)互聯(lián)產(chǎn)品、網(wǎng)絡(luò)運(yùn)營、VI設(shè)計(jì)、云產(chǎn)品.運(yùn)維為核心業(yè)務(wù)。為用戶提供一站式解決方案，我們深知市場的競爭激烈，認(rèn)真對待每位客戶，為客戶提供賞析悅目的作品，網(wǎng)站的價(jià)值服務(wù)。

現(xiàn)象描述

建集群的時(shí)候，datanode的節(jié)點(diǎn)數(shù)據(jù)磁盤總共是四塊磁盤做矩陣成了一個(gè)7.2TB的sdb1(data1)，兩塊通過矩陣做了一個(gè)3.6TB的sdc1(data2)磁盤，運(yùn)維做的，歷史原因。剛開始沒有發(fā)現(xiàn)，然后集群過了一段時(shí)間，隨著數(shù)據(jù)量的增加，發(fā)現(xiàn)集群有很多磁盤超過使用率90%告警，浪尖設(shè)置磁盤告警閾值是90%，超過閾值就會(huì)發(fā)短信或者微信告警，提醒我們磁盤將要滿了進(jìn)行預(yù)處理，但是通過hadoop的監(jiān)控指標(biāo)獲取的磁盤利用率維持在55%+，這種情況下不應(yīng)該發(fā)生告警的。磁盤的使用率在hadoop的hdfs的namnode的web ui也可以看到，如下：

hadoop Hdfs的數(shù)據(jù)磁盤大小不均衡怎么處理

這個(gè)時(shí)候，大家的懷疑會(huì)集中于hdfs的某些datanode節(jié)點(diǎn)數(shù)據(jù)存儲過于集中，導(dǎo)致某些節(jié)點(diǎn)磁盤告警。但是大家都知道，hdfs允許datanode節(jié)點(diǎn)接入時(shí)datanode之間磁盤異構(gòu)，數(shù)據(jù)存儲hadoop會(huì)自動(dòng)在datanode之間進(jìn)行均衡。所以這個(gè)懷疑可以排除。

登錄告警節(jié)點(diǎn)，發(fā)現(xiàn)確實(shí)data2磁盤使用率超過了90%，但是data1使用率維持在不足50%。

這時(shí)候問題就顯而易見了，hadoop3.0之前hdfs數(shù)據(jù)存儲只支持在datanode節(jié)點(diǎn)之間均衡，而不支持datanode內(nèi)部磁盤間的數(shù)據(jù)存儲均衡。

hadoop Hdfs的數(shù)據(jù)磁盤大小不均衡怎么處理

那么這個(gè)時(shí)候怎么辦呢？

起初

浪尖想的是將data1那個(gè)矩陣，拆分成兩塊由兩塊磁盤組成的矩陣，然后重新滾動(dòng)上下線Datanode（數(shù)據(jù)遷移或者通過副本變動(dòng)讓其進(jìn)行均衡）。但是，后來很快否定了這種方法，原因是很簡單。幾百TB的數(shù)據(jù)，在集群中均衡，即使是滾動(dòng)重啟，那么多機(jī)器也要持續(xù)好久，然后在數(shù)據(jù)遷移或者均衡的時(shí)候，整個(gè)幾群的帶寬和磁盤都是會(huì)增加很大負(fù)擔(dān)，導(dǎo)致集群的可用性降低。

接著

通過hadoop官網(wǎng)發(fā)現(xiàn)hadoop 3.0不僅支持datanode之間的數(shù)據(jù)均衡，也支持datanode內(nèi)部管理的多磁盤的之間的數(shù)據(jù)均衡。

hadoop Hdfs的數(shù)據(jù)磁盤大小不均衡怎么處理

這個(gè)時(shí)候，可以考慮升級hadoop集群到hadoop3.0，但是思考再三浪尖覺得浪費(fèi)時(shí)間，不劃算，最終放棄這種方案。

最后

幾經(jīng)思考，終于想出了一個(gè)原本就很簡單的方案，只需要重啟datanode，就可以實(shí)現(xiàn)提高大磁盤利用率的方法。首先，要知道的是datanode管理磁盤，是根據(jù)我們dfs.data.dir參數(shù)指定的目錄。那么，我們的思路就很簡單了，給data1多個(gè)目錄，不就可以增加其寫入的概率，進(jìn)而提升磁盤的使用率了么。配置方式如下：

</property>

配置結(jié)束之后，重啟datanode集群，過一定時(shí)間查看該目錄的大小，然后發(fā)現(xiàn)有數(shù)據(jù)寫入。

hadoop Hdfs的數(shù)據(jù)磁盤大小不均衡怎么處理

由此證明，想法是可行的。

此方法的缺點(diǎn)是，原有的數(shù)據(jù)不會(huì)進(jìn)行均衡，增加目錄的方式只是增加了新數(shù)據(jù)寫入大磁盤的概率，但是這樣就可以了，等著原有數(shù)據(jù)自動(dòng)刪除即可。

感謝各位的閱讀，以上就是“hadoop Hdfs的數(shù)據(jù)磁盤大小不均衡怎么處理”的內(nèi)容了，經(jīng)過本文的學(xué)習(xí)后，相信大家對hadoop Hdfs的數(shù)據(jù)磁盤大小不均衡怎么處理這一問題有了更深刻的體會(huì)，具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián)，小編將為大家推送更多相關(guān)知識點(diǎn)的文章，歡迎關(guān)注！

文章標(biāo)題：hadoopHdfs的數(shù)據(jù)磁盤大小不均衡怎么處理
文章網(wǎng)址：http://jinyejixie.com/article36/ghdssg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供手機(jī)網(wǎng)站建設(shè)、用戶體驗(yàn)、網(wǎng)站策劃、Google、軟件開發(fā)、標(biāo)簽優(yōu)化

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

hadoopHdfs的數(shù)據(jù)磁盤大小不均衡怎么處理