Hadoop的特點(diǎn)是什么-創(chuàng)新互聯(lián)

本篇內(nèi)容介紹了“Hadoop的特點(diǎn)是什么”的有關(guān)知識，在實(shí)際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧！希望大家仔細(xì)閱讀，能夠?qū)W有所成！

成都創(chuàng)新互聯(lián)公司是一家專業(yè)提供洛浦企業(yè)網(wǎng)站建設(shè),專注與成都網(wǎng)站建設(shè)、成都網(wǎng)站設(shè)計(jì)、H5響應(yīng)式網(wǎng)站、小程序制作等業(yè)務(wù)。10年已為洛浦眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站設(shè)計(jì)公司優(yōu)惠進(jìn)行中。

　　Hadoop出現(xiàn)的原因：現(xiàn)在的我們，生活在數(shù)據(jù)大爆炸的年代。國際數(shù)據(jù)公司已經(jīng)預(yù)測在2020年，全球的數(shù)據(jù)總量將達(dá)到44ZB，經(jīng)過單位換算后，至少在440億TB以上，也就是說，全球每人一塊1TB的硬盤都存儲不下。

一些數(shù)據(jù)集的大小更遠(yuǎn)遠(yuǎn)超過了1TB，也就是說，數(shù)據(jù)的存儲是一個要解決的問題。同時，硬盤技術(shù)也面臨一個技術(shù)瓶頸，就是硬盤的傳輸速度(讀數(shù)據(jù)的速度)的提升遠(yuǎn)遠(yuǎn)低于硬盤容量的提升。

容量提升了將近1000倍，而傳輸速度才提升了20倍，讀完一個硬盤的所需要的時間相對來說，更長更久了(已經(jīng)違反了數(shù)據(jù)價(jià)值的即時性)。讀數(shù)據(jù)都花了這么長時間，更不用說寫數(shù)據(jù)了。

對于如何提高讀取數(shù)據(jù)的效率，我們已經(jīng)想到解決的方法了，那就是將一個數(shù)據(jù)集存儲到多個硬盤里，然后并行讀取。比如1T的數(shù)據(jù)，我們平均100份存儲到100個1TB硬盤上，同時讀取，那么讀取完整個數(shù)據(jù)集的時間用不上兩分鐘。至于硬盤剩下的99%的容量，我們可以用來存儲其他的數(shù)據(jù)集，這樣就不會產(chǎn)生浪費(fèi)。解決讀取效率問題的同時，我們也解決了大數(shù)據(jù)的存儲問題。

但是，我們同時對多個硬盤進(jìn)行讀/寫操作時，又有了新的問題需要解決：

1、硬件故障問題。一旦使用多個硬件，相對來說，個別硬件產(chǎn)生故障的幾率就高，為了避免數(shù)據(jù)丟失，最常見的做法就是復(fù)制(replication):文件系統(tǒng)保存數(shù)據(jù)的多個復(fù)本，一旦發(fā)生故障，就可以使用另外的復(fù)本。

2、讀取數(shù)據(jù)的正確性問題。大數(shù)據(jù)時代的一個分析任務(wù)，就需要結(jié)合大部分?jǐn)?shù)據(jù)來共同完成分析，因此從一個硬盤上讀取的數(shù)據(jù)要與從其他99個硬盤上讀取的數(shù)據(jù)結(jié)合起來使用。那么，在讀取過程中，如何保證數(shù)據(jù)的正確性，就是一個很大的挑戰(zhàn)。

有人會想，既然使用了多個硬盤，為什么不用配有多個硬盤的關(guān)系型數(shù)據(jù)庫來進(jìn)行數(shù)據(jù)的存儲和分析呢？其實(shí)，這個主要取決于硬盤發(fā)展的一個技術(shù)限制，那就是需要尋址操作。我們從關(guān)系型數(shù)據(jù)庫中讀取數(shù)據(jù)包含著大量的尋址操作，那么尋址所產(chǎn)生的時間開銷必然會大大的增加，再加上讀取數(shù)據(jù)的時間，就更加漫長了。還有一個原因，關(guān)系型數(shù)據(jù)庫不適合存儲半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)，而這個時代，半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)占90%，而結(jié)構(gòu)化數(shù)據(jù)只占10%。

針對于上述幾個問題，Hadoop為我們提供了一個可靠的且可擴(kuò)展的存儲和分析平臺，此外，由于Hadoop運(yùn)行在商用硬件上且是開源的，因此Hadoop的使用成本是比較低了，在用戶的承受范圍內(nèi)。

二、Hadoop的簡介

Hadoop是Apache基金會旗下的一個開源的分布式計(jì)算平臺，是基于Java語言開發(fā)的，有很好的跨平臺特性，并且可以部署在廉價(jià)的計(jì)算機(jī)集群中。用戶無需了解分布式底層細(xì)節(jié)，就可以開發(fā)分布式程序，充分利用集群的威力進(jìn)行高速運(yùn)算和存儲。

最初，Hadoop的核心技術(shù)是HDFS和MapReduce。

HDFS是Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System)的簡稱，它具有較高的讀寫速度，很好的容錯性和可伸縮性，為海量的數(shù)據(jù)提供了分布式存儲，其冗余數(shù)據(jù)存儲的方式很好的保證了數(shù)據(jù)的安全性。

MapReduce是一種用于并行處理大數(shù)據(jù)集的軟件框架(編程模型)。用戶可在無需了解底層細(xì)節(jié)的情況下，編寫MapReduce程序進(jìn)行分析和處理分布式文件系統(tǒng)上的數(shù)據(jù)，MapReduce保證了分析和處理數(shù)據(jù)的高效性。

因其在分布式環(huán)境下提供了高效的，海量的數(shù)據(jù)的優(yōu)秀處理能力，Hadoop被公認(rèn)為大數(shù)據(jù)行業(yè)中的標(biāo)準(zhǔn)開源軟件。幾乎所有主流的廠商如谷歌，雅虎，微軟，淘寶等等這樣的大公司都是圍繞Hadoop進(jìn)行提供開發(fā)工具，開源軟件，商業(yè)化工具或技術(shù)服務(wù)的。

在Hadoop2.0以后，又引入了另一個核心技術(shù)：YARN(Yet Another Resource Negotiator)。它是一個任務(wù)調(diào)度和集群資源管理系統(tǒng)，主要有兩類長期運(yùn)行的守護(hù)線程來提供自己的核心服務(wù)：一類是用于管理集群上資源使用的資源管理器(Resouce Manager),另一類是運(yùn)行在集群中各個節(jié)點(diǎn)上且能夠啟動和監(jiān)控容器(container)的節(jié)點(diǎn)管理器（Node Manager）。

發(fā)展到現(xiàn)在的Hadoop3.x可以概括成以下五個模塊：

Hadoop Common：由原來的Hadoop core更名而來。以前的版本中core包含HDFS、MapReduce及其其他公共部分。后來HDFS和MapReuce被分離出來作為獨(dú)立的子項(xiàng)目，剩下的公共部分更名為Common。主要包括系統(tǒng)配置工具Configuration、遠(yuǎn)程過程調(diào)用RPC、序列化機(jī)制和Hadoop抽象文件系統(tǒng)FileSystem等。它們?yōu)樵谕ㄓ糜布洗罱ㄔ朴?jì)算環(huán)境提供基本的服務(wù)，并為運(yùn)行在該平臺上的軟件開發(fā)提供了所需的API。
Hadoop HDFS：Hadoop的核心技術(shù)之一，分布式文件系統(tǒng)
Hadoop YARN：Hadoop2.0以后新增的一個核心技術(shù)，資源管理系統(tǒng)
Hadoop MapReduce：Hadoop的核心技術(shù)之一，編程模型，用于大規(guī)模數(shù)據(jù)集的并行計(jì)算。
Hadoop Ozone：HDFS的一個擴(kuò)展方向，對象存儲技術(shù)。

關(guān)于Hadoop這個名字的由來，該項(xiàng)目的創(chuàng)建者Doug Cutting是這樣解釋的：“這個名字是我孩子給一個棕黃色的大象玩具命名的。我的命名標(biāo)準(zhǔn)就是簡短，容易發(fā)音和拼寫，沒有太多的意義，并且不會被用于別處。小孩子恰恰是這方面的高手?！?/p>

Hadoop的發(fā)音是 [h?du:p]。

三、Apache Hadoop發(fā)展史

Hadoop由知名項(xiàng)目Apache Lucene的創(chuàng)始人道格·卡?。╠oug Cutting）創(chuàng)建。

它起源于Apache Nutch 項(xiàng)目（一個網(wǎng)頁爬取工具和搜索引擎系統(tǒng)，后來遇到大數(shù)據(jù)量的網(wǎng)頁存儲問題）。
2003年，谷歌發(fā)表的一篇論文（描述的是“谷歌分布式文件系統(tǒng)”，簡稱GFS）給了Apache Nutch項(xiàng)目的開發(fā)者靈感。
2004年，Nutch的開發(fā)者開始著手 NDFS（Nutch的分布式文件系統(tǒng)）。
2004年，谷歌又發(fā)表了一篇介紹MapReduce系統(tǒng)的論文。
2005年，Nutch項(xiàng)目實(shí)現(xiàn)了一個MapReduce系統(tǒng)
2006年，開發(fā)人員將NDFS和MapReduce移出Nutch項(xiàng)目形成一個子項(xiàng)目，命名Hadoop
2008年，Hadoop已稱為Apache的頂級項(xiàng)目。
2008年4月，Hadoop打破世界記錄，成為最快排序1TB數(shù)據(jù)的系統(tǒng)，排序時間為209秒
2009年，Hadoop把1TB數(shù)據(jù)的排序時間縮短到62秒。
從此名聲大噪，現(xiàn)在很多公司都在使用，如雅虎，last.fm，F(xiàn)aceBook，《紐約時報(bào)》等等
目前Hadoop的版本發(fā)展，hadoop1.x > hadoop2.x > hadoop3.x

四、Hadoop的特點(diǎn)

Hadoop因?yàn)槭腔贘ava語言開發(fā)的，因此最理想的運(yùn)行平臺就是Linux系統(tǒng)了。它也支持多種編程語言，如C++,PHP等等。

也可以總結(jié)出以下優(yōu)點(diǎn)：

高可靠型。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。
高效性。Hadoop能夠在節(jié)點(diǎn)之間動態(tài)地移動數(shù)據(jù)，并保證各個節(jié)點(diǎn)的動態(tài)平衡，因此處理速度非?？?，可以處理PB級數(shù)據(jù)。
高可擴(kuò)展性。Hadoop的設(shè)計(jì)目標(biāo)是可以高效的穩(wěn)定的運(yùn)行在廉價(jià)的計(jì)算機(jī)集群上，可以擴(kuò)展到數(shù)以千計(jì)的計(jì)算機(jī)節(jié)點(diǎn)。
高容錯性。采用冗余數(shù)據(jù)存儲方式，自動保存數(shù)據(jù)的多個復(fù)本，并且能夠自動將失敗的任務(wù)進(jìn)行重新分配
成本低。Hadoop采用廉價(jià)的計(jì)算機(jī)集群，成本比較低，普通用戶也可以使用自己的電腦來搭建Hadoop環(huán)境

“Hadoop的特點(diǎn)是什么”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司網(wǎng)站，小編將為大家輸出更多高質(zhì)量的實(shí)用文章！

新聞標(biāo)題：Hadoop的特點(diǎn)是什么-創(chuàng)新互聯(lián)
當(dāng)前URL：http://jinyejixie.com/article0/ccesio.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站排名、關(guān)鍵詞優(yōu)化、企業(yè)建站、面包屑導(dǎo)航、外貿(mào)網(wǎng)站建設(shè)、營銷型網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

Hadoop的特點(diǎn)是什么-創(chuàng)新互聯(lián)

二、Hadoop的簡介

三、Apache Hadoop發(fā)展史

四、Hadoop的特點(diǎn)

二、Hadoop的簡介

三、Apache Hadoop發(fā)展史

四、Hadoop的特點(diǎn)