這篇文章主要講解了“hadoop Hdfs的數(shù)據(jù)磁盤大小不均衡怎么處理”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“hadoop Hdfs的數(shù)據(jù)磁盤大小不均衡怎么處理”吧!
成都創(chuàng)新互聯(lián)是一家網(wǎng)站設(shè)計(jì)公司,集創(chuàng)意、互聯(lián)網(wǎng)應(yīng)用、軟件技術(shù)為一體的創(chuàng)意網(wǎng)站建設(shè)服務(wù)商,主營產(chǎn)品:自適應(yīng)網(wǎng)站建設(shè)、成都品牌網(wǎng)站建設(shè)、成都營銷網(wǎng)站建設(shè)。我們專注企業(yè)品牌在網(wǎng)站中的整體樹立,網(wǎng)絡(luò)互動(dòng)的體驗(yàn),以及在手機(jī)等移動(dòng)端的優(yōu)質(zhì)呈現(xiàn)。成都網(wǎng)站設(shè)計(jì)、網(wǎng)站建設(shè)、移動(dòng)互聯(lián)產(chǎn)品、網(wǎng)絡(luò)運(yùn)營、VI設(shè)計(jì)、云產(chǎn)品.運(yùn)維為核心業(yè)務(wù)。為用戶提供一站式解決方案,我們深知市場的競爭激烈,認(rèn)真對待每位客戶,為客戶提供賞析悅目的作品,網(wǎng)站的價(jià)值服務(wù)。
現(xiàn)象描述
建集群的時(shí)候,datanode的節(jié)點(diǎn)數(shù)據(jù)磁盤總共是四塊磁盤做矩陣成了一個(gè)7.2TB的sdb1(data1),兩塊通過矩陣做了一個(gè)3.6TB的sdc1(data2)磁盤,運(yùn)維做的,歷史原因。剛開始沒有發(fā)現(xiàn),然后集群過了一段時(shí)間,隨著數(shù)據(jù)量的增加,發(fā)現(xiàn)集群有很多磁盤超過使用率90%告警,浪尖設(shè)置磁盤告警閾值是90%,超過閾值就會(huì)發(fā)短信或者微信告警,提醒我們磁盤將要滿了進(jìn)行預(yù)處理,但是通過hadoop的監(jiān)控指標(biāo)獲取的磁盤利用率維持在55%+,這種情況下不應(yīng)該發(fā)生告警的。磁盤的使用率在hadoop的hdfs的namnode的web ui也可以看到,如下:
這個(gè)時(shí)候,大家的懷疑會(huì)集中于hdfs的某些datanode節(jié)點(diǎn)數(shù)據(jù)存儲過于集中,導(dǎo)致某些節(jié)點(diǎn)磁盤告警。但是大家都知道,hdfs允許datanode節(jié)點(diǎn)接入時(shí)datanode之間磁盤異構(gòu),數(shù)據(jù)存儲hadoop會(huì)自動(dòng)在datanode之間進(jìn)行均衡。所以這個(gè)懷疑可以排除。
登錄告警節(jié)點(diǎn),發(fā)現(xiàn)確實(shí)data2磁盤使用率超過了90%,但是data1使用率維持在不足50%。
這時(shí)候問題就顯而易見了,hadoop3.0之前hdfs數(shù)據(jù)存儲只支持在datanode節(jié)點(diǎn)之間均衡,而不支持datanode內(nèi)部磁盤間的數(shù)據(jù)存儲均衡。
那么這個(gè)時(shí)候怎么辦呢?
起初
浪尖想的是將data1那個(gè)矩陣,拆分成兩塊由兩塊磁盤組成的矩陣,然后重新滾動(dòng)上下線Datanode(數(shù)據(jù)遷移或者通過副本變動(dòng)讓其進(jìn)行均衡)。但是,后來很快否定了這種方法,原因是很簡單。幾百TB的數(shù)據(jù),在集群中均衡,即使是滾動(dòng)重啟,那么多機(jī)器也要持續(xù)好久,然后在數(shù)據(jù)遷移或者均衡的時(shí)候,整個(gè)幾群的帶寬和磁盤都是會(huì)增加很大負(fù)擔(dān),導(dǎo)致集群的可用性降低。
接著
通過hadoop官網(wǎng)發(fā)現(xiàn)hadoop 3.0不僅支持datanode之間的數(shù)據(jù)均衡,也支持datanode內(nèi)部管理的多磁盤的之間的數(shù)據(jù)均衡。
這個(gè)時(shí)候,可以考慮升級hadoop集群到hadoop3.0,但是思考再三浪尖覺得浪費(fèi)時(shí)間,不劃算,最終放棄這種方案。
最后
幾經(jīng)思考,終于想出了一個(gè)原本就很簡單的方案,只需要重啟datanode,就可以實(shí)現(xiàn)提高大磁盤利用率的方法。首先,要知道的是datanode管理磁盤,是根據(jù)我們dfs.data.dir參數(shù)指定的目錄。那么,我們的思路就很簡單了,給data1多個(gè)目錄,不就可以增加其寫入的概率,進(jìn)而提升磁盤的使用率了么。配置方式如下:
<property>
<name>dfs.data.dir</name>
<value>/data1/dfs/dn,/data1/dfs/dn1,/data2/dfs/dn</value>
</property>
配置結(jié)束之后,重啟datanode集群,過一定時(shí)間查看該目錄的大小,然后發(fā)現(xiàn)有數(shù)據(jù)寫入。
由此證明,想法是可行的。
此方法的缺點(diǎn)是,原有的數(shù)據(jù)不會(huì)進(jìn)行均衡,增加目錄的方式只是增加了新數(shù)據(jù)寫入大磁盤的概率,但是這樣就可以了,等著原有數(shù)據(jù)自動(dòng)刪除即可。
感謝各位的閱讀,以上就是“hadoop Hdfs的數(shù)據(jù)磁盤大小不均衡怎么處理”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對hadoop Hdfs的數(shù)據(jù)磁盤大小不均衡怎么處理這一問題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識點(diǎn)的文章,歡迎關(guān)注!
文章標(biāo)題:hadoopHdfs的數(shù)據(jù)磁盤大小不均衡怎么處理
文章網(wǎng)址:http://jinyejixie.com/article36/ghdssg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供手機(jī)網(wǎng)站建設(shè)、用戶體驗(yàn)、網(wǎng)站策劃、Google、軟件開發(fā)、標(biāo)簽優(yōu)化
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)