本篇內(nèi)容介紹了“Hadoop基礎(chǔ)框架有哪些”的有關(guān)知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
成都創(chuàng)新互聯(lián)專注于雷州網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗。 熱誠為您提供雷州營銷型網(wǎng)站建設(shè),雷州網(wǎng)站制作、雷州網(wǎng)頁設(shè)計、雷州網(wǎng)站官網(wǎng)定制、成都微信小程序服務(wù),打造雷州網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供雷州網(wǎng)站排名全網(wǎng)營銷落地服務(wù)。
Pig
一種操作hadoop的輕量級腳本語言,最初又雅虎公司推出,不過現(xiàn)在正在走下坡路了。當(dāng)初雅虎自己慢慢退出pig的維護(hù)之后將它開源貢獻(xiàn)到開源社區(qū)由所有愛好者來維護(hù)。不過現(xiàn)在還是有些公司在用,不過我認(rèn)為與其使用pig不如使用hive。
Pig是一種數(shù)據(jù)流語言,用來快速輕松的處理巨大的數(shù)據(jù)。
Pig包含兩個部分:Pig Interface,Pig Latin。
Pig可以非常方便的處理HDFS和HBase的數(shù)據(jù),和Hive一樣,Pig可以非常高效的處理其需要做的,通過直接操作Pig查詢可以節(jié)省大量的勞動和時間。當(dāng)你想在你的數(shù)據(jù)上做一些轉(zhuǎn)換,并且不想編寫MapReduce jobs就可以用Pig.
Hive
不想用程序語言開發(fā)MapReduce的朋友比如DB們,熟悉SQL的朋友可以使用Hive開離線的進(jìn)行數(shù)據(jù)處理與分析工作。
注意Hive現(xiàn)在適合在離線下進(jìn)行數(shù)據(jù)的操作,就是說不適合掛在真實的生產(chǎn)環(huán)境中進(jìn)行實時的在線查詢或操作,因為一個字“慢”。相反
起源于FaceBook,Hive在Hadoop中扮演數(shù)據(jù)倉庫的角色。建立在Hadoop集群的最頂層,對存儲在Hadoop群上的數(shù)據(jù)提供類SQL的接口進(jìn)行操作。你可以用 HiveQL進(jìn)行select,join,等等操作。
如果你有數(shù)據(jù)倉庫的需求并且你擅長寫SQL并且不想寫MapReduce jobs就可以用Hive代替。
HBase
HBase作為面向列的數(shù)據(jù)庫運(yùn)行在HDFS之上,HDFS缺乏隨即讀寫操作,HBase正是為此而出現(xiàn)。HBase以Google BigTable為藍(lán)本,以鍵值對的形式存儲。項目的目標(biāo)就是快速在主機(jī)內(nèi)數(shù)十億行數(shù)據(jù)中定位所需的數(shù)據(jù)并訪問它。
HBase是一個數(shù)據(jù)庫,一個NOSQL的數(shù)據(jù)庫,像其他數(shù)據(jù)庫一樣提供隨即讀寫功能,Hadoop不能滿足實時需要,HBase正可以滿足。如果你需要實時訪問一些數(shù)據(jù),就把它存入HBase。
你可以用Hadoop作為靜態(tài)數(shù)據(jù)倉庫,HBase作為數(shù)據(jù)存儲,放那些進(jìn)行一些操作會改變的數(shù)據(jù)。
Pig VS Hive
Hive更適合于數(shù)據(jù)倉庫的任務(wù),Hive主要用于靜態(tài)的結(jié)構(gòu)以及需要經(jīng)常分析的工作。Hive與SQL相似促使其成為Hadoop與其他BI工具結(jié)合的理想交集。
Pig賦予開發(fā)人員在大數(shù)據(jù)集領(lǐng)域更多的靈活性,并允許開發(fā)簡潔的腳本用于轉(zhuǎn)換數(shù)據(jù)流以便嵌入到較大的 應(yīng)用程序。
Pig相比Hive相對輕量,它主要的優(yōu)勢是相比于直接使用Hadoop Java APIs可大幅削減代碼量。正因為如此,Pig仍然是吸引大量的軟件開發(fā)人員。
Hive和Pig都可以與HBase組合使用,Hive和Pig還為HBase提供了高層語言支持,使得在HBase上進(jìn)行數(shù)據(jù)統(tǒng)計處理變的非常簡單
Hive VS HBase
Hive是建立在Hadoop之上為了減少M(fèi)apReduce jobs編寫工作的批處理系統(tǒng),HBase是為了支持彌補(bǔ)Hadoop對實時操作的缺陷的項目 。
想象你在操作RMDB數(shù)據(jù)庫,如果是全表掃描,就用Hive+Hadoop,如果是索引訪問,就用HBase+Hadoop 。
Hive query就是MapReduce jobs可以從5分鐘到數(shù)小時不止,HBase是非常高效的,肯定比Hive高效的多。
“Hadoop基礎(chǔ)框架有哪些”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實用文章!
標(biāo)題名稱:Hadoop基礎(chǔ)框架有哪些
當(dāng)前網(wǎng)址:http://jinyejixie.com/article30/ggeiso.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供域名注冊、ChatGPT、網(wǎng)站設(shè)計公司、商城網(wǎng)站、小程序開發(fā)、移動網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)