翻了一下最近一段時間寫的分享,DKHadoop發(fā)行版本下載、安裝、運(yùn)行環(huán)境部署等相關(guān)內(nèi)容幾乎都已經(jīng)寫了一遍了。雖然有的地方可能寫的不是很詳細(xì),個人理解水平有限還請見諒吧!我記得在寫DKHadoop運(yùn)行環(huán)境部署的時候,遺漏了hadoop服務(wù)角色的內(nèi)容,本篇特地補(bǔ)上這部分內(nèi)容吧,不然總覺得不舒服。
要在集群中運(yùn)行DKHadoop服務(wù),需要指定集群中的一個或多個節(jié)點(diǎn)執(zhí)行該服務(wù)的特定功能,角色分配是必須的,沒有角色集群將無法正常工作,在分配角色前,需要了解這些角色的含義。
Hadoop服務(wù)角色:
1. zookeeper角色:ZooKeeper服務(wù)是指包含一個或多個節(jié)點(diǎn)的集群提供服務(wù)框架用于集群管理。對于集群,Zookeeper服務(wù)提供的功能包括維護(hù)配置信息、命名、提供HyperBase的分布式同步,推薦在 ZooKeeper集群中至少有3個節(jié)點(diǎn)。
2. JDK角色:JDK是 Java 語言的軟件開發(fā)工具包, JDK是整個Java開發(fā)的核心,它包含了Java的運(yùn)行環(huán)境,Java工具和Java基礎(chǔ)的類庫。
3. Apache-Flume角色:Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接收方(可定制)的能力。
4. Apache-Hive角色:Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的SQL查詢功能,可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。
5. Apache-Storm角色:Storm是內(nèi)存級計(jì)算,數(shù)據(jù)直接通過網(wǎng)絡(luò)導(dǎo)入內(nèi)存。讀寫內(nèi)存比讀寫磁盤速度快n個數(shù)量級。當(dāng)計(jì)算模型比較適合流式時,Storm的流式處理,省去了批處理的收集數(shù)據(jù)的時間.
6. Elasticsearch角色:Elasticsearch是用Java開發(fā)的,并作為Apache許可條款下的開放源碼發(fā)布,是當(dāng)前流行的企業(yè)級搜索引擎。設(shè)計(jì)用于云計(jì)算中,能夠達(dá)到實(shí)時搜索、穩(wěn)定、可靠、快速,安裝使用方便。
7. NameNode角色:HDFS系統(tǒng)中的節(jié)點(diǎn)用于維護(hù)文件系統(tǒng)中所有文件的目錄結(jié)構(gòu)并跟蹤文件數(shù)據(jù)存儲于哪些數(shù)據(jù)節(jié)點(diǎn)。當(dāng)客戶端需要從HDFS 文件系統(tǒng)中獲得文件時,它通過和NameNode通訊來知道客戶端哪個數(shù)據(jù)節(jié)點(diǎn)上有客戶端需要的文件。 一個Hadoop集群中只能有一個NameNode。NameNode不能被賦予其他角色。
8. DataNode角色:在HDFS中,DataNode是用來存儲數(shù)據(jù)塊的節(jié)點(diǎn)。
9. Secondary NameNode 角色:為NameNode上的數(shù)據(jù)創(chuàng)建周期性檢查點(diǎn)的節(jié)點(diǎn)。節(jié)點(diǎn)將周期性地下載當(dāng)前NameNode鏡像和日志文件,將日志和鏡像文件合并為一個新的鏡像文件然后上傳到NameNode。 被分配了NameNode角色的機(jī)器不應(yīng)再被分配Secondary NameNode 角色。
10. Standby Namenode角色:Standby模式的NameNode元數(shù)據(jù)(Namespcae information 和 Block 都是和Active NameNode中的元數(shù)據(jù)是同步的,一但切換成Active模式,馬上就可以提供NameNode服務(wù)。
11. JournalNode角色:Standby NameName和Active NameNode通過JournalNode通信,保持信息同步。
12. HBase角色:HBase是一個分布式的、面向列的開源數(shù)據(jù)庫。HBase在Hadoop之上提供了類似于BigTable的能力。HBase是Apache的Hadoop項(xiàng)目的子項(xiàng)目。HBase不同于一般的關(guān)系數(shù)據(jù)庫,它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個不同的是HBase基于列的而不是基于行的模式。
13. Kafka角色:Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它可以處理消費(fèi)者規(guī)模的網(wǎng)站中的所有動作流數(shù)據(jù)。 這種動作(網(wǎng)頁瀏覽,搜索和其他用戶的行動)是在現(xiàn)代網(wǎng)絡(luò)上的許多社會功能的一個關(guān)鍵因素。 這些數(shù)據(jù)通常是由于吞吐量的要求而通過處理日志和日志聚合來解決。 對于像Hadoop的一樣的日志數(shù)據(jù)和離線分析系統(tǒng),但又要求實(shí)時處理的限制,這是一個可行的解決方案。Kafka的目的是通過Hadoop的并行加載機(jī)制來統(tǒng)一線上和離線的消息處理,也是為了通過集群來提供實(shí)時的消費(fèi)。
14. Redis角色:Redis是一個開源的使用C語言編寫、支持網(wǎng)絡(luò)、可基于內(nèi)存亦可持久化的日志型、Key-Value數(shù)據(jù)庫,并提供多種語言的API。
15. Scala角色:Scala是一門多范式的編程語言,一種類似Java的編程語言,設(shè)計(jì)初衷是實(shí)現(xiàn)可伸縮的語言、并集成面向?qū)ο缶幊毯秃瘮?shù)式編程的各種特性。
16. Sqoop角色:Sqoop是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個關(guān)系型數(shù)據(jù)庫(例如 : MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)入到關(guān)系型數(shù)據(jù)庫中。
17. Impala角色:Impala是Cloudera公司主導(dǎo)開發(fā)的新型查詢系統(tǒng),它提供SQL語義,能查詢存儲在Hadoop的HDFS和HBase中的PB級大數(shù)據(jù)。已有的Hive系統(tǒng)雖然也提供了SQL語義,但由于Hive底層執(zhí)行使用的是MapReduce引擎,仍然是一個批處理過程,難以滿足查詢的交互性。相比之下,Impala的大特點(diǎn)也是大賣點(diǎn)就是它的快速。
18. Crawler角色:Crawler是大快DKHadoop專有組件,爬蟲系統(tǒng),爬取動態(tài)靜態(tài)數(shù)據(jù)。
19. Spark角色:Spark是一種與Hadoop相似的開源集群計(jì)算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。Spark 是在Scala語言中實(shí)現(xiàn)的,它將Scala用作其應(yīng)用程序框架。與Hadoop不同,Spark和Scala能夠緊密集成,其中的Scala可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。
20. HUE角色:HUE是一組可與您的Hadoop集×××互的網(wǎng)絡(luò)應(yīng)用程序。HUE應(yīng)用能讓您瀏覽HDFS和工作,管理Hive metastore,運(yùn)行Hive,瀏覽HBase Sqoop出口數(shù)據(jù),提交MapReduce程序,構(gòu)建自定義的搜索引擎與Solr一起調(diào)度重復(fù)性的工作流。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。
分享名稱:大數(shù)據(jù)框架hadoop服務(wù)角色介紹-創(chuàng)新互聯(lián)
網(wǎng)站路徑:http://jinyejixie.com/article30/dpocso.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供建站公司、面包屑導(dǎo)航、標(biāo)簽優(yōu)化、軟件開發(fā)、營銷型網(wǎng)站建設(shè)、移動網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)