DataPipeline的常見問題和解題思路-創(chuàng)新互聯(lián)

這篇文章給大家分享的是有關(guān)DataPipeline的常見問題和解題思路。小編覺得挺實(shí)用的，因此分享給大家做個參考。一起跟隨小編過來看看吧。

成都創(chuàng)新互聯(lián)公司秉承實(shí)現(xiàn)全網(wǎng)價值營銷的理念，以專業(yè)定制企業(yè)官網(wǎng)，成都網(wǎng)站建設(shè)、成都做網(wǎng)站，小程序設(shè)計，網(wǎng)頁設(shè)計制作，手機(jī)網(wǎng)站開發(fā)，成都營銷網(wǎng)站建設(shè)幫助傳統(tǒng)企業(yè)實(shí)現(xiàn)“互聯(lián)網(wǎng)+”轉(zhuǎn)型升級專業(yè)定制企業(yè)官網(wǎng),公司注重人才、技術(shù)和管理，匯聚了一批優(yōu)秀的互聯(lián)網(wǎng)技術(shù)人才,對客戶都以感恩的心態(tài)奉獻(xiàn)自己的專業(yè)和所長。

Q1: DataPipeline支持的讀取方式

A：DataPipeline在成立之初只有一種模式，只支持實(shí)時流同步，在我們看來這是未來的一種趨勢。

但在后來發(fā)現(xiàn)，很多客戶實(shí)際上有批量同步的需求。比如，銀行在每天晚上可能會有一些月結(jié)、日結(jié)，證券公司也有類似的結(jié)算服務(wù)?；谝恍v史原因，或出于對性能、數(shù)據(jù)庫配置的考慮，可能有的數(shù)據(jù)庫本身不能開change log。所以實(shí)際上并不是所有情況下都能從源端獲取實(shí)時的流數(shù)據(jù)。

考慮到上述問題，我們認(rèn)為一個產(chǎn)品在支撐數(shù)據(jù)融合過程中，必須能同時支撐批量和流式兩種處理模式，且在產(chǎn)品里面出于性能和穩(wěn)定性考慮提供不同的處理策略，這才是一個相對來說比較合理的基礎(chǔ)架構(gòu)。

詳情參見：DataPipeline CTO陳肅：構(gòu)建批流一體數(shù)據(jù)融合平臺的一致性語義保證

Q2：目標(biāo)端的連接方式是什么

A：對于關(guān)系型數(shù)據(jù)庫，寫入方式為JDBC，未來版本將通過文件加載的方式提高吞吐率。其它類型的目的地，根據(jù)具體類型各不相同。例如FTP目的地用的是FTP Client，Kafka目的地用的是Kafka Producer。

Q3：采集和寫入能否對數(shù)據(jù)進(jìn)行加密

A：如果是要對數(shù)據(jù)內(nèi)容加密可以使用高級清洗。

Q4：DataPipeline安裝部署模式

A：DataPipeline 產(chǎn)品是采用Docker容器的部署方式，支持Docker集群；支持虛擬環(huán)境（VMW）部署，但不推薦，DataPipeline正在研發(fā)支持非Docker部署。

Q5：DataPipeline是否支持圖形化監(jiān)控

A：DataPipeline支持讀寫速率、數(shù)據(jù)量、任務(wù)進(jìn)度、錯誤隊列、操作記錄、表結(jié)構(gòu)等圖形化監(jiān)控。

Q6：數(shù)據(jù)庫日志保留策略多久合適

A：如，MySQL Binlog保留策略，建議保留日志策略>=3天。

Q7: 后續(xù)增量導(dǎo)入數(shù)據(jù)如何保證一致性

A：DataPipeline默認(rèn)支持at least once同步機(jī)制，保證數(shù)據(jù)不會在同步過程中丟失。這適合源端有主鍵、目的地有主鍵去重能力的場景，例如關(guān)系型數(shù)據(jù)庫到關(guān)系型數(shù)據(jù)庫的同步。

如果類似Hive這樣沒有主鍵去重能力的目的地，DataPipeline支持開啟任務(wù)級別的端到端一致性選項(xiàng)，通過多階段提交協(xié)議來保證數(shù)據(jù)一致性。

Q8：監(jiān)控報警一般在項(xiàng)目上如何使用

A：DataPipeline的數(shù)據(jù)任務(wù)有監(jiān)控看板和報警兩種方式，報警會發(fā)送到指定的郵箱，根據(jù)錯誤類型，可以選擇重啟或通知技術(shù)支持，DataPipeline會有工程師協(xié)助客戶排查錯誤。

Q9：是否方便擴(kuò)容

A：DataPipeline支持動態(tài)擴(kuò)容，當(dāng)集群資源緊張時，無需暫?，F(xiàn)有任務(wù)，增加新節(jié)點(diǎn)后，即可以實(shí)現(xiàn)集群的擴(kuò)容。

Q10：如果一條數(shù)據(jù)多次、頻繁變化，DataPipeline如何保證數(shù)據(jù)的并行和順序？

A：DataPipeline源端會將任務(wù)按照一定原則拆分為多個互不干擾的子任務(wù)進(jìn)行并行執(zhí)行。例如：在JDBC源讀取場景下，如果任務(wù)包括多張表，每個表是由一個獨(dú)立線程進(jìn)行順序讀取的，線程并行度可以在任務(wù)屬性中進(jìn)行設(shè)置。

為了保證順序?qū)懭牒妥x取，默認(rèn)每個單獨(dú)子任務(wù)會創(chuàng)建一個獨(dú)立的topic，設(shè)置一個分區(qū)，這樣目標(biāo)端消費(fèi)的時候，同一個topic只有一個consumer在進(jìn)行消費(fèi)，從而保證消費(fèi)的順序性。如果可以接受非順序消費(fèi)，也可以為一個topic創(chuàng)建多個分區(qū)，這樣目的端可以更好地利用Kafka的并行能力提高吞吐量。

以上就是DataPipeline的常見問題和解題思路的詳細(xì)內(nèi)容了，看完之后是否有所收獲呢？如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn，海內(nèi)外云服務(wù)器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點(diǎn)與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

本文題目：DataPipeline的常見問題和解題思路-創(chuàng)新互聯(lián)
標(biāo)題鏈接：http://jinyejixie.com/article20/dpopjo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站導(dǎo)航、網(wǎng)站制作、微信公眾號、網(wǎng)站維護(hù)、外貿(mào)建站、企業(yè)建站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

DataPipeline的常見問題和解題思路-創(chuàng)新互聯(lián)