這篇文章主要介紹“hash shuffle發(fā)展階段有哪些”,在日常操作中,相信很多人在hash shuffle發(fā)展階段有哪些問題上存在疑惑,小編查閱了各式資料,整理出簡(jiǎn)單好用的操作方法,希望對(duì)大家解答”hash shuffle發(fā)展階段有哪些”的疑惑有所幫助!接下來(lái),請(qǐng)跟著小編一起來(lái)學(xué)習(xí)吧!
創(chuàng)新互聯(lián)公司服務(wù)項(xiàng)目包括盧氏網(wǎng)站建設(shè)、盧氏網(wǎng)站制作、盧氏網(wǎng)頁(yè)制作以及盧氏網(wǎng)絡(luò)營(yíng)銷策劃等。多年來(lái),我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,盧氏網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到盧氏省份的部分城市,未來(lái)相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!
spark實(shí)現(xiàn)了多種shuffle方法,通過(guò) spark.shuffle.manager來(lái)確定。暫時(shí)總共有三種:hash shuffle、sort shuffle和tungsten-sort shuffle,從1.2.0開始默認(rèn)為sort shuffle。
spark在1.2前默認(rèn)為hash shuffle(spark.shuffle.manager = hash),但hash shuffle也經(jīng)歷了兩個(gè)發(fā)展階段。
##第一階段
上圖有 4 個(gè) ShuffleMapTask 要在同一個(gè) worker node 上運(yùn)行,CPU core 數(shù)為 2,可以同時(shí)運(yùn)行兩個(gè) task。每個(gè) task 的執(zhí)行結(jié)果(該 stage 的 finalRDD 中某個(gè) partition 包含的 records)被逐一寫到本地磁盤上。每個(gè) task 包含 R 個(gè)緩沖區(qū),R = reducer 個(gè)數(shù)(也就是下一個(gè) stage 中 task 的個(gè)數(shù)),緩沖區(qū)被稱為 bucket,其大小為spark.shuffle.file.buffer.kb ,默認(rèn)是 32KB(Spark 1.1 版本以前是 100KB)。
##第二階段 這樣的實(shí)現(xiàn)很簡(jiǎn)單,但有幾個(gè)問題:
1 產(chǎn)生的 FileSegment 過(guò)多。每個(gè) ShuffleMapTask 產(chǎn)生 R(reducer 個(gè)數(shù))個(gè) FileSegment,M 個(gè) ShuffleMapTask 就會(huì)產(chǎn)生 M * R
個(gè)文件。一般 Spark job 的 M 和 R 都很大,因此磁盤上會(huì)存在大量的數(shù)據(jù)文件。
2 緩沖區(qū)占用內(nèi)存空間大。每個(gè) ShuffleMapTask 需要開 R 個(gè) bucket,M 個(gè) ShuffleMapTask 就會(huì)產(chǎn)生 M * R 個(gè) bucket。雖然一個(gè) ShuffleMapTask 結(jié)束后,對(duì)應(yīng)的緩沖區(qū)可以被回收,但一個(gè) worker node 上同時(shí)存在的 bucket 個(gè)數(shù)可以達(dá)到 cores R 個(gè)(一般 worker 同時(shí)可以運(yùn)行 cores 個(gè) ShuffleMapTask),占用的內(nèi)存空間也就達(dá)到了cores * R * 32 KB。對(duì)于 8 核 1000 個(gè) reducer 來(lái)說(shuō),占用內(nèi)存就是 256MB。
spark.shuffle.consolidateFiles默認(rèn)為false,如果為true,shuffleMapTask輸出文件可以被合并。如圖
可以明顯看出,在一個(gè) core 上連續(xù)執(zhí)行的 ShuffleMapTasks 可以共用一個(gè)輸出文件 ShuffleFile。先執(zhí)行完的 ShuffleMapTask 形成 ShuffleBlock i,后執(zhí)行的 ShuffleMapTask 可以將輸出數(shù)據(jù)直接追加到 ShuffleBlock i 后面,形成 ShuffleBlock i',每個(gè) ShuffleBlock 被稱為 FileSegment。下一個(gè) stage 的 reducer 只需要 fetch 整個(gè) ShuffleFile 就行了。這樣,每個(gè) worker 持有的文件數(shù)降為 cores * R
。但是緩存空間占用大還沒有解決。
到此,關(guān)于“hash shuffle發(fā)展階段有哪些”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請(qǐng)繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)?lái)更多實(shí)用的文章!
當(dāng)前名稱:hashshuffle發(fā)展階段有哪些
瀏覽地址:http://jinyejixie.com/article18/jjpegp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站制作、全網(wǎng)營(yíng)銷推廣、靜態(tài)網(wǎng)站、商城網(wǎng)站、做網(wǎng)站、營(yíng)銷型網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)