spark-core:
rdd api =>算子
scala:
高階函數(shù)/ 高階api
1.構建rdd
1.從已經(jīng)存在集合
2.已經(jīng)存在外部數(shù)據(jù)源
1.textFile :
1.Spark creates one partition for each block of the file hdfs [沒有問題的]
2. you cannot have fewer partitions than blocks
val rdd = sc.textFile("hdfs://bigdata32:9000/wc.data") 2
3 =》 3
保存:
saveAstextFile:
落地hdfs文件的個數(shù):
mapreduce =》 reduce task數(shù)量
spark-core =》 最終的rdd的分區(qū)數(shù)
2.RDD 相關的操作
1.transformations 【轉(zhuǎn)換操作】:
create a new dataset from an existing one
2.actions 【觸發(fā)job執(zhí)行的操作】
which return a value to the driver program 【spark client、控制臺】
after running a computation on the dataset. 【rdd】
構建rdd:
1.從已經(jīng)存在集合
2.已經(jīng)存在外部數(shù)據(jù)源
3.從已經(jīng)存在rdd轉(zhuǎn)換生成一個新的rdd
transformation:
1.All transformations in Spark are lazy =》 懶加載
rdda =>rddb =>rddc =>不會立即執(zhí)行 不會觸發(fā)job的執(zhí)行
rdd.map().fitler.
=》 rdd 血緣關系
action:
觸發(fā)作業(yè)的執(zhí)行
好處: mapreduce
1=>2=>3=>4
spark-core: job pipiline
1=>2=>3=>4 action =>job作業(yè)的執(zhí)行
1.map : 一一映射
處理rdd里面每一個元素
2.filter
map相關的算子、kv類型的算子、other算子
3.map相關的算子
makeRDD =>了解 =》 parallelize
map vs mapPartitions:
1.map 一個作用的rdd里面每一個元素
2.mapPartitions 作用的rdd里面 分區(qū)
需求: spark-core:
map filter =》 不讓用 如何實現(xiàn) 功能? 平臺
MapPartitionsRDD
Actions1.collect()
2.foreach() 輸出 :
driver :
1.控制臺
2.hdfs 不這樣用
3.db
你是否還在尋找穩(wěn)定的海外服務器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機房具備T級流量清洗系統(tǒng)配攻擊溯源,準確流量調(diào)度確保服務器高可用性,企業(yè)級服務器適合批量采購,新人活動首月15元起,快前往官網(wǎng)查看詳情吧
文章名稱:【Spark-創(chuàng)新互聯(lián)
轉(zhuǎn)載源于:http://jinyejixie.com/article10/ccsedo.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供虛擬主機、營銷型網(wǎng)站建設、標簽優(yōu)化、網(wǎng)站導航、網(wǎng)站維護、關鍵詞優(yōu)化
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)