這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)碛嘘P(guān)HPCC 和 Hadoop 的區(qū)別是什么,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
創(chuàng)新互聯(lián)公司網(wǎng)站建設(shè)10余年堅(jiān)持,服務(wù)企業(yè)網(wǎng)站設(shè)計(jì)、自適應(yīng)網(wǎng)站建設(shè)等網(wǎng)站建設(shè)服務(wù)。數(shù)千家企業(yè)的合作經(jīng)驗(yàn),幫助我們?yōu)榉?wù)企業(yè)不斷提升價(jià)值。為企業(yè)建設(shè)開發(fā)網(wǎng)站和維護(hù),主推個(gè)性化定制型網(wǎng)站設(shè)計(jì)
硬件環(huán)境
通常使用基于Intel或AMD CPU的刀片服務(wù)器來構(gòu)建集群系統(tǒng),為了降低成本可以使用已經(jīng)停止銷售的過時(shí)硬件。節(jié)點(diǎn)有本地內(nèi)存和硬盤,通過高速交換機(jī)相連(通常為千兆交換機(jī)),如果 集群節(jié)點(diǎn)很多,也可以使用分層交換。集群內(nèi)的節(jié)點(diǎn)是對等的(所有資源可以簡化為相同配置),但這一點(diǎn)并非必須。
操作系統(tǒng)
Linux或windows
系統(tǒng)配置
實(shí)現(xiàn)HPCC集群用兩種配置:數(shù)據(jù)加工(Thor)類似于Hadoop的MapReduce集群;數(shù)據(jù)分發(fā)引擎(Roxie)提供了獨(dú)立的高性能在 線查詢 處理功能和數(shù)據(jù)倉庫功能。兩種配置都可以用做分布式文件系統(tǒng),不過它們試圖提高性能的實(shí)現(xiàn)方法不同。HPCC環(huán)境通常由兩種配置類型的多個(gè)集群組成。雖然 每個(gè)集群上的文件系統(tǒng)相互獨(dú)立,但是一個(gè)集群可以訪問同一環(huán)境下位于其他集群上的文件系統(tǒng)內(nèi)的文件。
Hadoop系統(tǒng)軟件使用MapReduce處理范例實(shí)現(xiàn)了集群。這樣的集群也可以用做運(yùn)行HDFS的分布式文件系統(tǒng)。其他的功能都處Hadoop的MapReduce和Hbase,Hive等文件系統(tǒng)軟件之上。
授權(quán)和維護(hù)費(fèi)用
HPCC:社團(tuán)版本是免費(fèi)的。企業(yè)版授權(quán)費(fèi)用目前取決于集群大小和系統(tǒng)配置的類型。
Hadoop:免費(fèi),不過有多個(gè)廠商提供不同的付費(fèi)的維護(hù)服務(wù)。
核心軟件
HPCC:如果使用了Thor配置,那么核心軟件包括安裝在集群每個(gè)節(jié)點(diǎn)上的操作系統(tǒng)和多種服務(wù),它們來實(shí)現(xiàn)任務(wù)的執(zhí)行和分布式文件系統(tǒng)的訪問。名 字為 Dali的獨(dú)立服務(wù)器提供文件系統(tǒng)名字服務(wù)和管理HPCC環(huán)境下任務(wù)的工作單元。Thor集群可以配置為一個(gè)主節(jié)點(diǎn)和多個(gè)備用節(jié)點(diǎn)。Roxie集群是一個(gè) 對等連接的集群,它的每個(gè)節(jié)點(diǎn)可運(yùn)行服務(wù)器和執(zhí)行查詢以及密鑰和文件處理的任務(wù)代理。Roxie集群的文件系統(tǒng)使用分布式B+樹來存儲(chǔ)索引和數(shù)據(jù),并提供 對加密數(shù)據(jù)的訪問。要對Thor和Roxie集群進(jìn)行操作的話,附加的中間件組件是不可或缺的。
Hadoop:核心軟件包括操作系統(tǒng)、Hadoop的MapReduce集群和HDFS軟件。每個(gè)備用節(jié)點(diǎn)包括任務(wù)跟蹤服務(wù)和數(shù)據(jù)節(jié)點(diǎn)服務(wù)。主節(jié)點(diǎn) 包括任 務(wù)追蹤服務(wù),任務(wù)追蹤服務(wù)可配置為獨(dú)立的硬件節(jié)點(diǎn)或者運(yùn)行在一個(gè)備用硬件節(jié)點(diǎn)。類似地,對HDFS來說,要提供名字服務(wù)的話,主名字節(jié)點(diǎn)服務(wù)也是必須的, 并且可在一個(gè)備用的節(jié)點(diǎn)或者一個(gè)獨(dú)立的節(jié)點(diǎn)之上運(yùn)行這個(gè)服務(wù)。
中間件
HPCC:中間件包括在MySQL服務(wù)器上實(shí)現(xiàn)的ECL代碼倉庫、編譯ECL程序和查詢的ECL服務(wù)器、ECL代理即Thor集群上管理任務(wù)執(zhí)行的 客戶端 程序,ESP服務(wù)器(企業(yè)服務(wù)平臺),它提供認(rèn)證、日志記錄、安全以及執(zhí)行任務(wù)和提供Web服務(wù)環(huán)境的其他服務(wù),Dali服務(wù)器,它可用作存儲(chǔ)任務(wù)工作單 元信息的系統(tǒng)數(shù)據(jù)和為分布式文件系統(tǒng)提供名字服務(wù)。中間件可以靈活地運(yùn)行在一個(gè)到幾個(gè)節(jié)點(diǎn)上。多個(gè)這樣的服務(wù)器可以提供冗余備份和提高性能。
Hadoop:沒有中間件??蛻舳塑浖梢灾苯犹峤蝗蝿?wù)給集群主節(jié)點(diǎn)的任務(wù)追蹤器。作為服務(wù)器運(yùn)行的Hadoop工作流調(diào)度器(HWS)的管理需要多個(gè)MapReduce序列的任務(wù)的功能正在開發(fā)中。
系統(tǒng)工具
HPCC包括用于管理、維護(hù)和監(jiān)視HPCC配置和環(huán)境的客戶端和操作工具套件。這個(gè)套件包括ECL IDE、程序開發(fā)環(huán)境、屬性遷移工具、分布式文件應(yīng)用(DFU)、環(huán)境配置應(yīng)用和Roxie配置應(yīng)用。命令行版本也可用。ECLWatch是一個(gè)監(jiān)控 HPCC環(huán)境的基于Web的應(yīng)用程序,它包括隊(duì)列管理,分布式文件系統(tǒng)管理、任務(wù)監(jiān)視和系統(tǒng)性能監(jiān)視工具。其他工具是通過Web服務(wù)接口提供的。
Hadoop:dfsadmin工具提供文件系統(tǒng)的狀態(tài)信息;fsck是一個(gè)檢查HDFS上文件的健康性的應(yīng)用;數(shù)據(jù)節(jié)點(diǎn)塊掃描器定時(shí)地驗(yàn)證數(shù)據(jù)節(jié) 點(diǎn)上所 有的存儲(chǔ)塊;平衡器根據(jù)需要把超負(fù)荷的數(shù)據(jù)節(jié)點(diǎn)上的阻塞重新發(fā)布到低負(fù)荷的數(shù)據(jù)節(jié)點(diǎn)上。MapReduce的WEB用戶接口包括顯示正在運(yùn)行的和已經(jīng)完成 的任務(wù)信息的任務(wù)追蹤器頁面;對一個(gè)具體的任務(wù)再向下點(diǎn)擊的話就可以看到這個(gè)任務(wù)的詳細(xì)信息。還有顯示Map和Reduce任務(wù)信息的任務(wù)頁面。
易部署
HPCC:環(huán)境配置工具。源服務(wù)器有一個(gè)集中式倉庫,它分發(fā)操作系統(tǒng)級別的設(shè)置、服務(wù)和二進(jìn)制文件到配置中所有可網(wǎng)絡(luò)啟動(dòng)的節(jié)點(diǎn)上。
Hadoop:需要第三方應(yīng)用向?qū)峁┑脑诰€工具協(xié)助。需要手動(dòng)部署RPM。
分布式文件系統(tǒng)
HPCC:Thor的分布式文件系統(tǒng)是面向記錄的,使用本地Linux文件系統(tǒng)存儲(chǔ)部分文件。文件是跨節(jié)點(diǎn)初始化裝載的(提取的),并且每個(gè)節(jié)點(diǎn)都 有一個(gè) 單獨(dú)的部分文件,對一個(gè)分布式文件來說,這個(gè)部分文件可為空。在由用戶指定的偶數(shù)個(gè)記錄/文檔范圍內(nèi)對文件進(jìn)行分割。主備結(jié)構(gòu)通過存儲(chǔ)在獨(dú)立服務(wù)器的名字 服務(wù)和文件映射信息來分割。每個(gè)節(jié)點(diǎn)只需要一個(gè)本地文件來表示一個(gè)分布式文件。同一環(huán)境下多個(gè)集群之間也支持讀寫訪問權(quán)限設(shè)置。使用特定的適配器允許訪問 來自外部數(shù)據(jù)庫的比如MySQL的文件,允許事務(wù)數(shù)據(jù)與分布式文件數(shù)據(jù)合并且并入批處理的任務(wù)中。Roxie分布式文件系統(tǒng)使用了分布式B+樹索引文件, 這樣的文件包含了鍵值信息和存儲(chǔ)在每個(gè)節(jié)點(diǎn)的本地文件里的數(shù)據(jù)。
Hadoop:面向塊的,大多數(shù)安裝使用大小為64MB或者128MB的塊。塊是以節(jié)點(diǎn)的本地Unix/Linux文件系統(tǒng)的獨(dú)立單元/本地文件存 儲(chǔ)的。 每個(gè)塊的元數(shù)據(jù)信息存儲(chǔ)為一個(gè)獨(dú)立的文件。主備結(jié)構(gòu)使用了單獨(dú)的名字節(jié)點(diǎn)提供名字服務(wù)和塊映射,并且使用了多個(gè)數(shù)據(jù)節(jié)點(diǎn)。文件劃分為塊并且分布地存儲(chǔ)在集 群的各個(gè)節(jié)點(diǎn)。跨節(jié)點(diǎn)存儲(chǔ)在一個(gè)節(jié)點(diǎn)上每個(gè)邏輯塊的多個(gè)本地文件(一個(gè)用來保存塊數(shù)據(jù)、一個(gè)用來保存元數(shù)據(jù))來表示一個(gè)分布式文件。
容錯(cuò)性
HPCC:Thor和Roxie的分布式文件系統(tǒng)(可配置)在其他節(jié)點(diǎn)上保存了部分文件的副本,以防止磁盤或者節(jié)點(diǎn)失效。Thor系統(tǒng)在一個(gè)節(jié)點(diǎn)失 效之后 提供了要么自動(dòng)要么手動(dòng)的切換和熱啟動(dòng),任務(wù)從最近一次檢查點(diǎn)重新啟動(dòng)或者繼續(xù)運(yùn)行。當(dāng)復(fù)制數(shù)據(jù)到一個(gè)新的節(jié)點(diǎn)的時(shí)候,副本的制作自動(dòng)進(jìn)行。Roxie系 統(tǒng)在減少節(jié)點(diǎn)數(shù)而引起節(jié)點(diǎn)失效時(shí)繼續(xù)運(yùn)行。
Hadoop:HDFS(可配置)在其他節(jié)點(diǎn)上存儲(chǔ)(用戶指定的)多個(gè)副本,以防止由于自動(dòng)恢復(fù)出現(xiàn)的磁盤或節(jié)點(diǎn)失效。MapReduce架構(gòu)包括了試探性執(zhí)行,當(dāng)檢測到一個(gè)慢的或者失敗的Map任務(wù)時(shí),其他Map任務(wù)將從失效的節(jié)點(diǎn)處開始恢復(fù)。
上述就是小編為大家分享的HPCC 和 Hadoop 的區(qū)別是什么了,如果剛好有類似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。
本文題目:HPCC和Hadoop的區(qū)別是什么
URL地址:http://jinyejixie.com/article4/ppepie.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)頁設(shè)計(jì)公司、企業(yè)網(wǎng)站制作、網(wǎng)站改版、網(wǎng)站策劃、企業(yè)建站、搜索引擎優(yōu)化
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)