互聯(lián)網(wǎng)IDC圈2月22日報道:Hadoop是一項開源技術(shù),它是當(dāng)今與大數(shù)據(jù)應(yīng)用最為息息相關(guān)的數(shù)據(jù)管理平臺。該分布式處理框架主要由Yahoo創(chuàng)建于2006年,部分是基于由Google在一些技術(shù)論文中所闡述的思想;很快,諸如Facebook,Linkedln以及Twitter之類的互聯(lián)網(wǎng)公司采用該技術(shù)并開始對其發(fā)展貢獻(xiàn)力量。在過去幾年,Hadoop已經(jīng)演變成一種有著基礎(chǔ)設(shè)施組件和相關(guān)工具的復(fù)雜生態(tài)系統(tǒng),而且它被各家供應(yīng)商打包在一起成為商業(yè)Hadoop發(fā)行版本。
目前創(chuàng)新互聯(lián)已為成百上千的企業(yè)提供了網(wǎng)站建設(shè)、域名、虛擬主機(jī)、網(wǎng)站托管、服務(wù)器托管、企業(yè)網(wǎng)站設(shè)計、秀嶼網(wǎng)站維護(hù)等服務(wù),公司將堅持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長,共同發(fā)展。對于高級分析活動來說,在集群服務(wù)器上運(yùn)行的Hadoop為建立一個高性能,低成本的大數(shù)據(jù)管理架構(gòu)提供了途徑。隨著人們逐漸意識到其能力的提升,Hadoop的應(yīng)用蔓延到了其他行業(yè),包括對混合有傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)和新型非結(jié)構(gòu)以及半結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用程序的報告和分析。這包括網(wǎng)絡(luò)點(diǎn)擊流數(shù)據(jù),在線廣告信息,社交媒體數(shù)據(jù),醫(yī)療記錄,以及來自制造設(shè)備的傳感器數(shù)據(jù)和源自互聯(lián)網(wǎng)設(shè)備的數(shù)據(jù)。
Hadoop為何物
Hadoop框架包含了大量開源軟件組件,這些組件擁有用于計算,處理,管理和分析大量數(shù)據(jù)的核心模型,而這些數(shù)據(jù)則由各種各樣的支撐技術(shù)所包圍。這些核心組件包括: Hadoop Distributed File System(HDFS Hadoop分布式文件系統(tǒng)),它支持傳統(tǒng)的分級目錄和文件系統(tǒng),而他們則是將文件分布于Hadoop集群中的存儲節(jié)點(diǎn)上(例如:DataNodes數(shù)據(jù)節(jié)點(diǎn))。
MapReduce是可以對批量應(yīng)用程序進(jìn)行并行處理的編程模型和執(zhí)行框架。
YARN(這是對Yet Another Resource Negotiator的簡稱)負(fù)責(zé)管理任務(wù)調(diào)度,為運(yùn)行中的應(yīng)用程序分配集群資源,并在可用資源出現(xiàn)爭用時進(jìn)行仲裁。它同時還對正在處理中任務(wù)的進(jìn)展進(jìn)行追蹤和監(jiān)控。
Hadoop Common是由不同組件使用的一組庫和工具。
在Hadoop集群中,那些核心部分和其他軟件模型是分層于計算和數(shù)據(jù)存儲硬件節(jié)點(diǎn)集合之上的。這些節(jié)點(diǎn)通過高速內(nèi)網(wǎng)連接以形成高性能并行分布式處理系統(tǒng)。
作為一個開源技術(shù)的集合,Hadoop并不受控于任何一個單獨(dú)的供應(yīng)商;相反的是,它的開發(fā)是由Apache Software Foundation進(jìn)行管理的。Apache為用戶提供Hadoop使用許可,基本上可以讓用戶免費(fèi),無版稅的使用該軟件。開發(fā)人員可以直接從Apache的網(wǎng)站下載并自行構(gòu)建Hadoop環(huán)境。但是,Hadoop供應(yīng)商提供帶有基本功能的預(yù)構(gòu)建社區(qū)版本,該版本同樣是免費(fèi)下載并能在各種硬件平臺上進(jìn)行安裝的。同時還有市場商業(yè)版和企業(yè)版——Hadoop發(fā)行版根據(jù)維護(hù)和支持服務(wù)的不同等級來打包軟件。
在某些情況下,供應(yīng)商也會基于Apache的技術(shù)提供性能和功能方面的增強(qiáng)——例如,通過提供附加的軟件工具來簡化集群配置和管理,或是與外部平臺的數(shù)據(jù)整合。這些商業(yè)產(chǎn)品讓各種規(guī)模的公司對Hadoop的接納度越來越高。這是非常有價值的,尤其是當(dāng)商業(yè)公司供應(yīng)商的支持服務(wù)團(tuán)隊可以啟動一家公司Hadoop基礎(chǔ)設(shè)施的設(shè)計和開發(fā),并且能夠引導(dǎo)工具的選擇和高級功能的集成以快速部署高性能分析解決方案來滿足新興業(yè)務(wù)需求的時候。
典型Hadoop軟件棧組件
當(dāng)你拿到一份商業(yè)版本的Hadoop時,你能從中真正獲得什么呢?除了核心組件,典型的Hadoop發(fā)布版本會包含(但不限于)以下內(nèi)容:
諸如Tez和Spark之類的替代數(shù)據(jù)處理和應(yīng)用程序執(zhí)行管理器,它們可以在YARN之上運(yùn)行或是與YARN并行以提供集群管理;緩存數(shù)據(jù)管理;以及其他改善處理性能的方法。
Apache HBase是一款列式數(shù)據(jù)庫管理系統(tǒng),它模仿的是運(yùn)行在HDFS之上Google的Big Table項目。
諸如Hive,Impala,Stinger,Drill以及Spark SQL之類的SQL-on-Hadoop工具,這些工具為直接查詢存儲在HDFS中的數(shù)據(jù)提供了與SQL標(biāo)準(zhǔn)不同程度的兼容性。 諸如Pig之類的開發(fā)工具可以幫助開發(fā)人員構(gòu)建MapReduce項目。
諸如ZooKeeper或是Ambari之類的配置管理工具可以用來進(jìn)行監(jiān)控和管理。
諸如Mahout之類的分析環(huán)境可以為機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘和預(yù)測分析提供分析模型。
由于該軟件是開源的,因此對于Hadoop發(fā)行版你無需付費(fèi)。相反的是,供應(yīng)商則售賣有不同水平服務(wù)協(xié)議(SLAs)的年度支持訂閱版本。雖然每家供應(yīng)商都會對自家的附加組件進(jìn)行提升,如此一來也作為Hadoop發(fā)布版的一部分為Hadoop社區(qū)做出了貢獻(xiàn),所有的供應(yīng)商都會積極參與到Apache Hadoop社區(qū)中來。
誰在管理Hadoop大數(shù)據(jù)管理環(huán)境
在Hadoop系統(tǒng)之外獲得所需性能需要一個熟悉IT專業(yè)的協(xié)調(diào)團(tuán)隊,該團(tuán)隊致力于架構(gòu)計劃,設(shè)計,開發(fā),測試,部署,運(yùn)行中操作和維護(hù)方面的工作以確保最佳性能,而意識到這一點(diǎn)是非常重要的。這樣的IT團(tuán)隊通常會要求:
需求分析師基于運(yùn)行于Hadoop環(huán)境中的應(yīng)用程序類型來評估系統(tǒng)性能需求。
系統(tǒng)架構(gòu)師評估性能需求并設(shè)計硬件配置。
系統(tǒng)工程師對Hadoop軟件棧進(jìn)行安裝,配置和調(diào)優(yōu)。
應(yīng)用程序開發(fā)人員設(shè)計并實(shí)現(xiàn)應(yīng)用程序。 數(shù)據(jù)管理專家做數(shù)據(jù)整合,創(chuàng)建數(shù)據(jù)布局并執(zhí)行其他管理任務(wù)。
系統(tǒng)管理員進(jìn)行操作管理和維護(hù)。
項目管理人員監(jiān)督各級棧和應(yīng)用程序開發(fā)工作的實(shí)現(xiàn)。
項目經(jīng)理負(fù)責(zé)Hadoop環(huán)境和優(yōu)先級,應(yīng)用程序開發(fā)和部署的實(shí)現(xiàn)。
Hadoop軟件平臺市場
從本質(zhì)上講,作為一個可行的大規(guī)模數(shù)據(jù)管理生態(tài)系統(tǒng),Hadoop的演化已經(jīng)創(chuàng)造了一個新的軟件市場,它正在轉(zhuǎn)變商業(yè)智能和分析行業(yè)。這已經(jīng)從兩方面進(jìn)行了擴(kuò)展,即用戶企業(yè)可以運(yùn)行的分析應(yīng)用程序以及可以作為這些應(yīng)用程序一部分加以收集并進(jìn)行分析的數(shù)據(jù)類型。在Hadoop中,該市場包括三個獨(dú)立的專業(yè)供應(yīng)商——Cloudera Inc., Hortonworks Inc. 和MapR Technologies Inc。其他提供Hadoop發(fā)行版或功能的公司包括Pivotal Software Inc., IBM,Amazon Web Services和Microsoft。
對那些提供Hadoop發(fā)行版本的供應(yīng)商進(jìn)行評估需要理解所供產(chǎn)品兩個方面的異同。首先是技術(shù)本身:發(fā)行版中包含有哪些不同之處;它們支持什么樣的平臺;而且,最為重要的是,個體供應(yīng)商集成了什么樣的特定組件?其次是服務(wù)和支持模型:對于每類訂閱級別都提供什么樣的支持和SLAs,以及不同的訂閱費(fèi)用如何?
要理解這些方面是如何與你特定的業(yè)務(wù)產(chǎn)生關(guān)聯(lián),需要將那些對于一個供應(yīng)商關(guān)系來說非常重要的特征突出出來。本系列的下一篇文章將研究幾個Hadoop大數(shù)據(jù)管理平臺的業(yè)務(wù)用例,如此一來你就可以確定你所在企業(yè)的需求了。
文章題目:管理大數(shù)據(jù)之初探Hadoop發(fā)行版
網(wǎng)頁鏈接:http://jinyejixie.com/article34/sdhhse.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App開發(fā)、網(wǎng)站策劃、品牌網(wǎng)站設(shè)計、網(wǎng)站導(dǎo)航、域名注冊、網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)