今天就跟大家聊聊有關(guān)Bitcask模型是什么,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
專注于為中小企業(yè)提供成都網(wǎng)站制作、成都做網(wǎng)站、外貿(mào)營(yíng)銷網(wǎng)站建設(shè)服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)高州免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動(dòng)了1000+企業(yè)的穩(wěn)健成長(zhǎng),幫助中小企業(yè)通過(guò)網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。Bitcask是一個(gè)日志型的基于hash表結(jié)構(gòu)和key-value存儲(chǔ)模型,但是其簡(jiǎn)潔有效的設(shè)計(jì)。下面創(chuàng)新互聯(lián)網(wǎng)站建設(shè)公司,小編來(lái)講解下Bitcask模型是什么?
Bitcask模型是什么
1.日志型的數(shù)據(jù)文件
何謂日志型?就是appendonly,所有寫(xiě)操作只追加而不修改老的數(shù)據(jù),就像我們的各種服務(wù)器日志一樣。在Bitcask模型中,數(shù)據(jù)文件以日志型只增不減的寫(xiě)入文件,而文件有一定的大小限制,當(dāng)文件大小增加到相應(yīng)的限制時(shí),就會(huì)產(chǎn)生一個(gè)新的文件,老的文件將只讀不寫(xiě)。在任意時(shí)間點(diǎn),只有一個(gè)文件是可寫(xiě)的,在Bitcask模型中稱其為activedatafile,而其他的已經(jīng)達(dá)到限制大小的文件,稱為olderdatafile,如下圖:
文件中的數(shù)據(jù)結(jié)構(gòu)非常簡(jiǎn)單,是一條一條的數(shù)據(jù)寫(xiě)入操作,每一條數(shù)據(jù)的結(jié)構(gòu)如下:
上面數(shù)據(jù)項(xiàng)分別為key,value,key的大小,value的大小,時(shí)間戳(應(yīng)該是),以及對(duì)前面幾項(xiàng)做的crc校驗(yàn)值。(數(shù)據(jù)刪除操作也不會(huì)刪除舊的條目,而是將value設(shè)定為一個(gè)特殊的值以作標(biāo)示)
數(shù)據(jù)文件中就是連續(xù)一條條上面格式的數(shù)據(jù),如下圖:
好了,上面是日志型的數(shù)據(jù)文件,如果數(shù)據(jù)文件這樣持續(xù)的存下去,肯定是會(huì)無(wú)限膨脹的,為了解決個(gè)問(wèn)題,和其他日志型存儲(chǔ)系統(tǒng)一樣Bitcask也有一個(gè)定期的merge操作。
merge操作,即定期將所有olderdatafile中的數(shù)據(jù)掃描一遍并生成新的datafile(沒(méi)有包括activedatafile是因?yàn)樗€在不停寫(xiě)入),這里的merge其實(shí)就是將對(duì)同一個(gè)key的多個(gè)操作以只保留新一個(gè)的原則進(jìn)行刪除。每次merge后,新生成的數(shù)據(jù)文件就不再有冗余數(shù)據(jù)了。
Bitcask模型是什么
2.基于hash表的索引數(shù)據(jù)
上面講到的是數(shù)據(jù)文件,日志類型的數(shù)據(jù)文件會(huì)讓我們的寫(xiě)入操作非???日志型的優(yōu)勢(shì)之一是將磁盤(pán)當(dāng)作磁帶,進(jìn)行順序讀寫(xiě)的效率非常高,可以參見(jiàn)這里),而如果在這樣的日志型數(shù)據(jù)上進(jìn)行key值查找,那將是一件非常低效的事情。于是我們需要使用一些方法來(lái)提高查找效率。
例如在Bigtable中,使用bloom-filter算法為每一個(gè)數(shù)據(jù)文件維護(hù)一個(gè)bloom-filter的數(shù)據(jù)塊,以此來(lái)判定一個(gè)值是否在某一個(gè)數(shù)據(jù)文件中。
而在Bitcask模型中,我們使用了另一種方法,使用了一個(gè)基于hash表的索引數(shù)據(jù)結(jié)構(gòu)。
在Bitcask模型中,除了存儲(chǔ)在磁盤(pán)上的數(shù)據(jù)文件,還有另外一塊數(shù)據(jù),那就是存儲(chǔ)在內(nèi)存中的hash表,hash表的作用是通過(guò)key值快速的定位到value的位置。hash表的結(jié)構(gòu)大致如下圖所示:
hash表對(duì)應(yīng)的這個(gè)結(jié)構(gòu)中包括了三個(gè)用于定位數(shù)據(jù)value的信息,分別是文件id號(hào)(file_id),value值在文件中的位置(value_pos),value值的大小(value_sz),于是我們通過(guò)讀取file_id對(duì)應(yīng)文件的value_pos開(kāi)始的value_sz個(gè)字節(jié),就得到了我們需要的value值。整個(gè)過(guò)程如下圖所示:
由于多了一個(gè)hash表的存在,我們的寫(xiě)操作就需要多更新一塊內(nèi)容,即這個(gè)hash表的對(duì)應(yīng)關(guān)系。于是一個(gè)寫(xiě)操作就需要進(jìn)行一次順序的磁盤(pán)寫(xiě)入和一次內(nèi)存操作。
3.有用的hintfile
至此,Bitcask模型基本上已經(jīng)講述完成,而這一節(jié)講到的hintfile,則是一個(gè)有用的技巧,本人認(rèn)為并不一定是Bitcask模型的必須特性。
從上面我們可以知道,我們稱其為索引的hash表,是存儲(chǔ)在內(nèi)存中的,雖然在各自的實(shí)現(xiàn)中可以做一些持久化的保證,但是Bitcask模型中并不對(duì)在斷電或重啟后的hash表數(shù)據(jù)不丟失做出保證。
因此,如果我們不做額外的工作,那么我們啟動(dòng)時(shí)重建hash表時(shí),就需要整個(gè)掃描一遍我們的數(shù)據(jù)文件,如果數(shù)據(jù)文件很大,這將是一個(gè)非常耗時(shí)的過(guò)程。因此Bitcask模型中包含了一個(gè)稱作hintfile的部分,目的在于提高重建hash表的速度。
我們上面講到在olddatafile進(jìn)行merge操作時(shí),會(huì)產(chǎn)生新的datafile,而B(niǎo)itcask模型實(shí)際還鼓勵(lì)生成一個(gè)hintfile,這個(gè)hintfile中每一項(xiàng)的數(shù)據(jù)結(jié)構(gòu),與datafile中的數(shù)據(jù)結(jié)構(gòu)非常相似,不同的是他并不存儲(chǔ)具體的value值,而是存儲(chǔ)value的位置(像在hash表中的一樣),其結(jié)構(gòu)如下圖:
這樣,在重建hash表時(shí),就不需要再掃描所有datafile文件,而僅僅需要將hintfile中的數(shù)據(jù)一行行讀取并重建即可。大大提高了利用數(shù)據(jù)文件重啟數(shù)據(jù)庫(kù)的速度。
看完上述內(nèi)容,你們對(duì)Bitcask模型是什么有進(jìn)一步的了解嗎?如果還想了解更多知識(shí)或者相關(guān)內(nèi)容,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝大家的支持。
本文題目:Bitcask模型是什么-創(chuàng)新互聯(lián)
轉(zhuǎn)載注明:http://jinyejixie.com/article46/dipeeg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供手機(jī)網(wǎng)站建設(shè)、定制網(wǎng)站、域名注冊(cè)、網(wǎng)站收錄、移動(dòng)網(wǎng)站建設(shè)、App設(shè)計(jì)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容