快速了解Druid——實時大數(shù)據(jù)分析軟件-創(chuàng)新互聯(lián)

Druid 是什么

Druid 單詞來源于西方古羅馬的神話人物，中文常常翻譯成德魯伊。
本問介紹的Druid 是一個分布式的支持實時分析的數(shù)據(jù)存儲系統(tǒng)（Data Store）。美國廣告技術(shù)公司MetaMarkets 于2011 年創(chuàng)建了Druid 項目，并且于2012 年晚期開源了Druid 項目。Druid 設計之初的想法就是為分析而生，它在處理數(shù)據(jù)的規(guī)模、數(shù)據(jù)處理的實時性方面，比傳統(tǒng)的OLAP 系統(tǒng)有了顯著的性能改進，而且擁抱主流的開源生態(tài)，包括Hadoop 等。多年以來，Druid 一直是非?；钴S的開源項目。
Druid 的官方網(wǎng)站是http://druid.io。
另外，阿里巴巴也曾創(chuàng)建過一個開源項目叫作Druid（簡稱阿里Druid），它是一個數(shù)據(jù)庫連接池的項目。阿里Druid 和本問討論的Druid 沒有任何關系，它們解決完全不同的問題。

成都創(chuàng)新互聯(lián)公司是一家專業(yè)提供托克遜企業(yè)網(wǎng)站建設,專注與成都做網(wǎng)站、網(wǎng)站設計、HTML5建站、小程序制作等業(yè)務。10年已為托克遜眾多企業(yè)、政府機構(gòu)等服務。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站制作公司優(yōu)惠進行中。

大數(shù)據(jù)分析和Druid

大數(shù)據(jù)一直是近年的熱點話題，隨著數(shù)據(jù)量的急速增長，數(shù)據(jù)處理的規(guī)模也從GB 級別增長到TB 級別，很多圖像應用領域已經(jīng)開始處理PB 級別的數(shù)據(jù)分析。大數(shù)據(jù)的核心目標是提升業(yè)務的競爭力，找到一些可以采取行動的洞察（Actionable Insight），數(shù)據(jù)分析就是其中的核心技術(shù)，包括數(shù)據(jù)收集、處理、建模和分析，最后找到改進業(yè)務的方案。
最近一兩年，隨著大數(shù)據(jù)分析需求的爆炸性增長，很多公司都經(jīng)歷過將以關系型商用數(shù)據(jù)庫為基礎的數(shù)據(jù)平臺，轉(zhuǎn)移到一些開源生態(tài)的大數(shù)據(jù)平臺，例如Hadoop 或Spark 平臺，以可控的軟硬件成本處理更大的數(shù)據(jù)量。Hadoop 設計之初就是為了批量處理大數(shù)據(jù)，但數(shù)據(jù)處理實時性經(jīng)常是它的弱點。例如，很多時候一個MapReduce 腳本的執(zhí)行，很難估計需要多長時間才能完成，無法滿足很多數(shù)據(jù)分析師所期望的秒級返回查詢結(jié)果的分析需求。
為了解決數(shù)據(jù)實時性的問題，大部分公司都有一個經(jīng)歷，將數(shù)據(jù)分析變成更加實時的可交互方案。其中，涉及新軟件的引入、數(shù)據(jù)流的改進等。數(shù)據(jù)分析的幾種常見方法如下圖。
快速了解Druid——實時大數(shù)據(jù)分析軟件
整個數(shù)據(jù)分析的基礎架構(gòu)通常分為以下幾類。
（1）使用Hadoop/Spark 的MR 分析。
（2）將Hadoop/Spark 的結(jié)果注入RDBMS 中提供實時分析。
（3）將結(jié)果注入到容量更大的NoSQL 中，例如HBase 等。
（4）將數(shù)據(jù)源進行流式處理，對接流式計算框架，如Storm，結(jié)果落在RDBMS/NoSQL 中。
（5）將數(shù)據(jù)源進行流式處理，對接分析數(shù)據(jù)庫，例如Druid、Vertica 等。

Druid 的三個設計原則

在設計之初，開發(fā)人員確定了三個設計原則（Design Principle）。
（1）快速查詢（Fast Query）：部分數(shù)據(jù)的聚合（Partial Aggregate）+內(nèi)存化（In-emory）+索引（Index）。
（2）水平擴展能力（Horizontal Scalability）：分布式數(shù)據(jù)（Distributed Data）+ 并行化查詢（Parallelizable Query）。
（3）實時分析（Realtime Analytics）：不可變的過去，只追加的未來（Immutable Past，Append-Only Future）。

1 快速查詢（Fast Query）

對于數(shù)據(jù)分析場景，大部分情況下，我們只關心一定粒度聚合的數(shù)據(jù)，而非每一行原始數(shù)據(jù)的細節(jié)情況。因此，數(shù)據(jù)聚合粒度可以是1 分鐘、5 分鐘、1 小時或1 天等。部分數(shù)據(jù)聚合（Partial Aggregate）給Druid 爭取了很大的性能優(yōu)化空間。
數(shù)據(jù)內(nèi)存化也是提高查詢速度的殺手锏。內(nèi)存和硬盤的訪問速度相差近百倍，但內(nèi)存的大小是非常有限的，因此在內(nèi)存使用方面要精細設計，比如Druid 里面使用了Bitmap 和各種壓縮技術(shù)。
另外，為了支持Drill-Down 某些維度，Druid 維護了一些倒排索引。這種方式可以加快AND 和OR 等計算操作。

2 水平擴展能力（Horizontal Scalability）

Druid 查詢性能在很大程度上依賴于內(nèi)存的優(yōu)化使用。數(shù)據(jù)可以分布在多個節(jié)點的內(nèi)存中，因此當數(shù)據(jù)增長的時候，可以通過簡單增加機器的方式進行擴容。為了保持平衡，Druid按照時間范圍把聚合數(shù)據(jù)進行分區(qū)處理。對于高基數(shù)的維度，只按照時間切分有時候是不夠的（Druid 的每個Segment 不超過2000 萬行），故Druid 還支持對Segment 進一步分區(qū)。
歷史Segment 數(shù)據(jù)可以保存在深度存儲系統(tǒng)中，存儲系統(tǒng)可以是本地磁盤、HDFS 或遠程的云服務。如果某些節(jié)點出現(xiàn)故障，則可借助Zookeeper 協(xié)調(diào)其他節(jié)點重新構(gòu)造數(shù)據(jù)。
Druid 的查詢模塊能夠感知和處理集群的狀態(tài)變化，查詢總是在有效的集群架構(gòu)中進行。集群上的查詢可以進行靈活的水平擴展。Druid 內(nèi)置提供了一些容易并行化的聚合操作，例如Count、Mean、Variance 和其他查詢統(tǒng)計。對于一些無法并行化的操作，例如Median，Druid暫時不提供支持。在支持直方圖（Histogram）方面，Druid 也是通過一些近似計算的方法進行支持，以保證Druid 整體的查詢性能，這些近似計算方法還包括HyperLoglog、DataSketches的一些基數(shù)計算。

3 實時分析（Realtime Analytics）

Druid 提供了包含基于時間維度數(shù)據(jù)的存儲服務，并且任何一行數(shù)據(jù)都是歷史真實發(fā)生的事件，因此在設計之初就約定事件一但進入系統(tǒng)，就不能再改變。
對于歷史數(shù)據(jù)Druid 以Segment 數(shù)據(jù)文件的方式組織，并且將它們存儲到深度存儲系統(tǒng)中，例如文件系統(tǒng)或亞馬遜的S3 等。當需要查詢這些數(shù)據(jù)的時候，Druid 再從深度存儲系統(tǒng)中將它們裝載到內(nèi)存供查詢使用。

Druid 的技術(shù)特點

Druid 具有如下技術(shù)特點。
數(shù)據(jù)吞吐量大。
支持流式數(shù)據(jù)攝入和實時。
查詢靈活且快。
社區(qū)支持力度大。

1 數(shù)據(jù)吞吐量大

很多公司選擇Druid 作為分析平臺，都是看中Druid 的數(shù)據(jù)吞吐能力。每天處理幾十億到幾百億的事件，對于Druid 來說是非常適合的場景，目前已被大量互聯(lián)網(wǎng)公司實踐。因此，很多公司選型Druid 是為了解決數(shù)據(jù)爆炸的問題。

2 支持流式數(shù)據(jù)攝入

很多數(shù)據(jù)分析軟件在吞吐量和流式能力上做了很多平衡，比如Hadoop 更加青睞批量處理，而Storm 則是一個流式計算平臺，真正在分析平臺層面上直接對接各種流式數(shù)據(jù)源的系統(tǒng)并不多。

3 查詢靈活且快

數(shù)據(jù)分析師的想法經(jīng)常是天馬行空，希望從不同的角度去分析數(shù)據(jù)，為了解決這個問題，OLAP 的Star Schema 實際上就定義了一個很好的空間，讓數(shù)據(jù)分析師自由探索數(shù)據(jù)。數(shù)據(jù)量小的時候，一切安好，但是數(shù)據(jù)量變大后，不能秒級返回結(jié)果的分析系統(tǒng)都是被詬病的對象。因此，Druid 支持在任何維度組合上進行查詢，訪問速度極快，成為分析平臺最重要的兩個殺手锏。

4 社區(qū)支持力度大

Druid 開源后，受到不少互聯(lián)網(wǎng)公司的青睞，包括雅虎、eBay、阿里巴巴等，其中雅虎的Committer 有5 個，谷歌有1 個，阿里巴巴有1 個。最近，MetaMarkets 之前幾個Druid 發(fā)明人也成立了一家叫作Imply.io 的新公司，推動Druid 生態(tài)的發(fā)展，致力于Druid 的繁榮和應用。

Druid 的應用場景

從技術(shù)定位上看，Druid 是一個分布式的數(shù)據(jù)分析平臺，在功能上也非常像傳統(tǒng)的OLAP系統(tǒng)，但是在實現(xiàn)方式上做了很多聚焦和取舍，為了支持更大的數(shù)據(jù)量、更靈活的分布式部署、更實時的數(shù)據(jù)攝入，Druid 舍去了OLAP 查詢中比較復雜的操作，例如JOIN 等。相比傳統(tǒng)數(shù)據(jù)庫，Druid 是一種時序數(shù)據(jù)庫，按照一定的時間粒度對數(shù)據(jù)進行聚合，以加快分析查詢。
在應用場景上，Druid 從廣告數(shù)據(jù)分析平臺起家，已經(jīng)廣泛應用在各個行業(yè)和很多互聯(lián)網(wǎng)公司中，最新列表可以訪問http://druid.io/druidpowered.html。

Druid 的生態(tài)系統(tǒng)正在不斷擴大和成熟，Druid 也正在解決越來越多的業(yè)務場景。希望《Druid實時大數(shù)據(jù)分析原理與實踐》一書能幫助技術(shù)人員做出更好的技術(shù)選型，深度了解Druid 的功能和原理，更好地解決大數(shù)據(jù)分析問題。
各大電商網(wǎng)站火熱預售中！
本文選自《Druid實時大數(shù)據(jù)分析原理與實踐》，點此鏈接可在博文視點官網(wǎng)查看此書。
快速了解Druid——實時大數(shù)據(jù)分析軟件

想及時獲得更多精彩文章，可在微信中搜索“博文視點”或者掃描下方二維碼并關注。
快速了解Druid——實時大數(shù)據(jù)分析軟件

另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn，海內(nèi)外云服務器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應用場景需求。

當前標題：快速了解Druid——實時大數(shù)據(jù)分析軟件-創(chuàng)新互聯(lián)
網(wǎng)頁路徑：http://jinyejixie.com/article26/ccesjg.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供自適應網(wǎng)站、營銷型網(wǎng)站建設、網(wǎng)站設計、微信公眾號、網(wǎng)站收錄、網(wǎng)站建設

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区