本篇文章給大家分享的是有關(guān)基于openLooKeng的交互式分析是怎樣的,小編覺得挺實用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
創(chuàng)新互聯(lián)公司歡迎聯(lián)系:18982081108,為您提供成都網(wǎng)站建設(shè)網(wǎng)頁設(shè)計及定制高端網(wǎng)站建設(shè)服務(wù),創(chuàng)新互聯(lián)公司網(wǎng)頁制作領(lǐng)域十多年,包括會所設(shè)計等多個行業(yè)擁有多年的網(wǎng)站推廣經(jīng)驗,選擇創(chuàng)新互聯(lián)公司,為網(wǎng)站保駕護(hù)航!
在這個“信息爆炸”的時代,大數(shù)據(jù)已經(jīng)成為這個時代的關(guān)鍵詞之一!隨著云計算、物聯(lián)網(wǎng)、移動計算、智慧城市、人工智能等領(lǐng)域日新月異的發(fā)展,人類社會已經(jīng)步入了“信息高速路”的行駛軌道,數(shù)據(jù)量增長迅速,各類應(yīng)用對大數(shù)據(jù)處理的需求也發(fā)生著變化。
與此同時,“久經(jīng)沙場”的數(shù)據(jù)倉庫不再一統(tǒng)江湖,而以實時分析、離線分析、交互式分析等為代表的計算引擎勢頭迅猛。
華為云3年前發(fā)布的Serverless大數(shù)據(jù)分析服務(wù) - 數(shù)據(jù)湖探索DLI,經(jīng)過這幾年的迭代升級,已經(jīng)包含用于實時分析的Flink引擎,用于離線分析的Spark引擎。今年基于華為開源openLooKeng引擎的交互式分析功能,也將于Q4重磅發(fā)布,便于用戶構(gòu)建輕量級流、批、交互式全場景數(shù)據(jù)湖。
openLooKeng使用了業(yè)界著名的開源SQL引擎Presto來提供交互式查詢分析基礎(chǔ)能力,并繼續(xù)在融合場景查詢、跨數(shù)據(jù)中心/云、數(shù)據(jù)源擴(kuò)展、性能、可靠性、安全性等方面發(fā)展,讓數(shù)據(jù)治理、使用更簡單。
DLI使用的openLooKeng引擎在內(nèi)存計算框架的基礎(chǔ)上,還利用許多查詢優(yōu)化技術(shù)來滿足高性能毫秒級的交互式分析的需要。
1.1 索引
openLooKeng提供基于Bitmap Index、Bloom Filter以及Min-max Index等索引。通過在現(xiàn)有數(shù)據(jù)上創(chuàng)建索引,并且把索引結(jié)果存儲在數(shù)據(jù)源外部,在查詢計劃編排時便利用索引信息過濾掉不匹配的文件,減少需要讀取的數(shù)據(jù)規(guī)模,從而加速查詢過程。
1.2 Cache
openLooKeng提供豐富多樣的Cache,包括元數(shù)據(jù)cache、執(zhí)行計劃cache、ORC行數(shù)據(jù)cache等。通過這些多樣的cache,可加速用戶多次對同一SQL或者同一類型SQL的查詢時延響應(yīng)。
1.3 動態(tài)過濾
所謂的動態(tài)過濾是指是在運(yùn)行時(run time)將join一側(cè)表的過濾信息的結(jié)果應(yīng)用到另一側(cè)表的過濾器的優(yōu)化方法,openLooKeng不僅提供了多種數(shù)據(jù)源的動態(tài)過濾優(yōu)化特性,還將這一優(yōu)化特性應(yīng)用到了DataCenter Connector,從而加速不同場景關(guān)聯(lián)查詢的性能。
1.4 算子下推
openLooKeng通過Connector框架連接到RDBMS等數(shù)據(jù)源時,由于RDBMS具有較強(qiáng)的計算能力,一般情況下將算子下推到數(shù)據(jù)源進(jìn)行計算可以獲取到更好的性能。openLooKeng目前支持多種數(shù)據(jù)源的算子下推,包括Oracle、HANA等,特別地,針對DC Connector也實現(xiàn)了算子下推,從而實現(xiàn)了更快的查詢時延響應(yīng)。
2.1 HA AA雙活
openLooKeng引入了高可用的AA特性,支持coordinator AA雙活機(jī)制,能夠保持多個coordinator之間的負(fù)載均衡,同時也保證了openLooKeng在高并發(fā)下的可用性。
2.2 Auto-scaling
openLooKeng的彈性伸縮特性支持將正在執(zhí)行任務(wù)的服務(wù)節(jié)點平穩(wěn)退服,同時也能將處于不活躍狀態(tài)的節(jié)點拉起并接受新的任務(wù)。openLooKeng通過提供“已隔離”與“隔離中”等狀態(tài)接口供外部資源管理者(如Yarn、Kubernetes等)調(diào)用,從而實現(xiàn)對coordinator和worker節(jié)點的彈性擴(kuò)縮容。
實時分析、離線分析、交互式分析這三種場景中在很多實際業(yè)務(wù)中都是同時存在的,DLI引入openLooKeng引擎之初就考慮了如何跟已有的Spark引擎進(jìn)行元數(shù)據(jù)層面的互通,從而實現(xiàn)離線分析結(jié)果,免數(shù)據(jù)搬遷直接就可以用openLooKeng引擎進(jìn)行交互式分析。Spark和openLooKeng都支持Hive的建表方式,通過這種方式,實現(xiàn)了元數(shù)據(jù)層面的互通。
DLI老用戶使用比較多的功能是跨多種數(shù)據(jù)源的聯(lián)合查詢,用于更全面地對數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,釋放數(shù)據(jù)價值。這次引入openLooKeng引擎將跨源查詢的能力進(jìn)一步延伸,開發(fā)了跨域跨DC查詢的DataCenter Connector。通過這個新Connector可以連接到遠(yuǎn)端另外的openLooKeng集群,從而提供在不同數(shù)據(jù)中心間協(xié)同計算的能力。 其中的關(guān)鍵技術(shù)如下:
4.1 并行數(shù)據(jù)訪問
worker可以并發(fā)訪問數(shù)據(jù)源以提高訪問效率, 客戶端也可以并發(fā)從服務(wù)端獲取數(shù)據(jù)以加快數(shù)據(jù)獲取速度。
4.2 數(shù)據(jù)壓縮
在數(shù)據(jù)傳輸期間進(jìn)行序列化之前,先使用GZIP壓縮算法對數(shù)據(jù)進(jìn)行壓縮,以減少通過網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量。
4.3 跨DC動態(tài)過濾
過濾數(shù)據(jù)以減少從遠(yuǎn)端提取的數(shù)據(jù)量,從而確保網(wǎng)絡(luò)穩(wěn)定性并提高查詢效率。
以上就是基于openLooKeng的交互式分析是怎樣的,小編相信有部分知識點可能是我們?nèi)粘9ぷ鲿姷交蛴玫降?。希望你能通過這篇文章學(xué)到更多知識。更多詳情敬請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。
分享標(biāo)題:基于openLooKeng的交互式分析是怎樣的
本文URL:http://jinyejixie.com/article38/gpispp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站收錄、全網(wǎng)營銷推廣、網(wǎng)站策劃、域名注冊、網(wǎng)站導(dǎo)航、關(guān)鍵詞優(yōu)化
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)