MapReduce流程有哪些

本篇內(nèi)容介紹了“MapReduce流程有哪些”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠?qū)W有所成！

成都創(chuàng)新互聯(lián)主要從事成都網(wǎng)站制作、做網(wǎng)站、網(wǎng)頁設計、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務。立足成都服務普定,十年網(wǎng)站建設經(jīng)驗,價格優(yōu)惠、服務專業(yè),歡迎來電咨詢建站服務:18980820575

MapReduce是一個基于yarn的分布式、離線、并行的計算框架，主要職責是處理海量數(shù)據(jù)集，是Hadoop生態(tài)圈中一個非常重要的一個工具，所以MapReduce是大數(shù)據(jù)學習的一個很關鍵的知識點，需要大家好好掌握！

MapReduce其中包含許多組件，但最主要的還是Job提交和Map、Reduce的全流程這兩個部分,學習中只要把握好這兩條主線理清楚細節(jié)串成一個知識體系，那么MapReduce的學習就會得心應手了。關于Job作業(yè)的提交流程在Hadoop權威指南這本書上有相當詳細的步驟解析和圖示說明，那么這次總結(jié)主要關于MapReduce過程中海量數(shù)據(jù)是怎么被提取并在MapTask和ReduceTask中被處理，以及其中涉及運用的組件，讓我們一起來看看吧。

上面的圖從整體上描述了整個MapRduce流程，大致分為五個步驟

　　1、input（map端讀取分片數(shù)據(jù)）--->2、Map處理--->3、shuffle過程--->4、reduce處理--->5、output（reduce端輸出處理結(jié)果）現(xiàn)在我們一步步來分析解釋這個過程。注：MP的整個過程中數(shù)據(jù)結(jié)構(gòu)為:key-value

1、　　Map端讀取數(shù)據(jù)：

a、在讀取之前，客戶端會對數(shù)據(jù)進行切片處理，分片機制如下，一個分片對應一個map，可調(diào)整客戶端的塊大小，minSize，maxSize改變map數(shù)量，minSize默認值是1，maxSize默認是long的最大值

b、如下圖所示，先對數(shù)據(jù)進行TextInputFormat格式化，然后lineRecordReader循環(huán)調(diào)用

nextKeyValue、getCurrentKey、getCurrentValue等方法將數(shù)據(jù)以<K,V>形式獲取到MapTask

c、切片讀取細節(jié)：每次讀取都往下多讀取一行(第一個切片)；下一個切片永遠拋棄第一行；最后一個切片不能多讀一行

2、　　Map處理

a、在Map端，調(diào)用我們按照業(yè)務邏輯編寫的map()方法，每一行調(diào)用一次map()方法對數(shù)據(jù)進行處理，有且僅有一次，分別在調(diào)用map方法前調(diào)用setup()方法和在在調(diào)用map方法后調(diào)用cleanup()方法

在這個階段，數(shù)據(jù)會被分解成一個個<K,V>形式的鍵值對

b、在這個階段，可以有一個combiner過程，將數(shù)據(jù)進行局部整合（當數(shù)據(jù)量太大時），combiner能調(diào)用

3、　　shuffle過程：是指數(shù)據(jù)從Map端輸出到Reduce端輸入這中間對數(shù)據(jù)的操作過程（數(shù)據(jù)分區(qū)、排序、緩存）

a、輸出從map端輸出后，會進入到outputCollector,一個數(shù)據(jù)收集器，然后由數(shù)據(jù)收集器將數(shù)據(jù)傳進一個有20%保留區(qū)的環(huán)形緩沖區(qū)(一般是100M)

b、當數(shù)據(jù)在環(huán)形緩沖區(qū)溢出時，會有一個spiller溢出器，在溢出器中會將數(shù)據(jù)調(diào)用getPartition(k,v,num)方法分區(qū)，然后根據(jù)hashcode在分區(qū)內(nèi)進行快速排序，之后將數(shù)據(jù)發(fā)往Reduce

4、　　reduce處理

a、經(jīng)過shuffle過程處理的數(shù)據(jù)，是分區(qū)并排序的index索引文件，而reducetask框架從文件中讀取一個key傳遞給reduce方法，同時傳一個value迭代器

b、Value迭代器的hasnext方法會判斷文件中的下一個key是否是傳入時的key（如果是，則返回該value，如果不是，則停止，轉(zhuǎn)而調(diào)用下一個key）

c、看起來的效果，reducetask是將數(shù)據(jù)事先分組，每組調(diào)用一次reduce方法（其實不是）

d、reducetask處理完后，將所有分區(qū)文件進行歸并排序生成大文件輸出（默認輸出到hdfs）

e、 MapReduce流程有哪些

5、　　output（reduce端輸出處理結(jié)果）

對數(shù)據(jù)進行TextOutputFormat處理，然后lineRecordWritor循環(huán)調(diào)用

nextKeyValue、getCurrentKey、getCurrentValue，輸出到外部文件系統(tǒng)（hdfs）

“MapReduce流程有哪些”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關的知識可以關注創(chuàng)新互聯(lián)網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實用文章！

新聞標題：MapReduce流程有哪些
轉(zhuǎn)載來于：http://jinyejixie.com/article32/ppiesc.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供營銷型網(wǎng)站建設、微信小程序、網(wǎng)站策劃、定制網(wǎng)站、手機網(wǎng)站建設、建站公司

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

MapReduce流程有哪些