成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

Parquet有什么特點(diǎn)

這篇文章主要介紹“Parquet有什么特點(diǎn)”,在日常操作中,相信很多人在Parquet有什么特點(diǎn)問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”Parquet有什么特點(diǎn)”的疑惑有所幫助!接下來,請跟著小編一起來學(xué)習(xí)吧!

專注于為中小企業(yè)提供網(wǎng)站建設(shè)、網(wǎng)站制作服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)郾城免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動了上1000+企業(yè)的穩(wěn)健成長,幫助中小企業(yè)通過網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。

寫流程

雖然是按列存儲,但數(shù)據(jù)是一行一行來的,那什么時(shí)候?qū)?nèi)存中的數(shù)據(jù)寫文件呢?我們知道文件只能順序?qū)?,假如每收到一行?shù)據(jù)就寫入磁盤,那就是行式存儲了。

一個(gè)解決方案是為每個(gè)列開一個(gè)文件,假如數(shù)據(jù)有 n 個(gè)屬性,就需要 n 個(gè)文件,每次寫數(shù)據(jù)就需要追加到 n 個(gè)文件中。但是對于文件格式來說,用戶肯定希望把復(fù)雜的數(shù)據(jù)存到一個(gè)文件中,而不希望管理一堆小文件(可以想象你做了一個(gè)ppt,每一頁存成了一個(gè)文件),所以一個(gè) Parquet 文件中必須存儲數(shù)據(jù)的所有屬性。

另一個(gè)解決方案是在內(nèi)存中緩存一些數(shù)據(jù),等緩存到一定量后,將各個(gè)列的數(shù)據(jù)放在一起打包,這樣各個(gè)包就可以按一定順序?qū)懙揭粋€(gè)文件中。這就是列式存儲的精髓:按列緩存打包。

文件格式

按照上邊這種方式,Parquet 在每一列內(nèi)也需要分成一個(gè)個(gè)的數(shù)據(jù)包,這個(gè)數(shù)據(jù)包就叫 Page,Page 的分割標(biāo)準(zhǔn)可以按數(shù)據(jù)點(diǎn)數(shù)(如每1000行數(shù)據(jù)打成一個(gè) Page),也可以按空間占用(如每列的數(shù)據(jù)攢到8KB合成一個(gè) Page)。

一個(gè) Page 的數(shù)據(jù)就是一列,類型相同,在存儲到磁盤之前一般都會進(jìn)行編碼壓縮,為了快速查詢、也為了解壓縮這一個(gè) Page,在寫的時(shí)候先統(tǒng)計(jì)一下最大最小值,叫做 PageHeader,存儲在 Page 的開頭,其實(shí)就是 Page 的 元數(shù)據(jù)(metadata)。PageHeader 后邊就是數(shù)據(jù)了,讀取一個(gè) Page 時(shí),可以先通過 PageHeader 進(jìn)行過濾。

Parquet 又把多個(gè) Page 放在一起存儲,叫 Column Chunk。于是,每一列都由多個(gè) Column Chunk 組成,并且也有其對應(yīng)的 ColumnChunk Metadata。注意,這只是一個(gè)完整數(shù)據(jù)的一個(gè)屬性,一個(gè)數(shù)據(jù)的多個(gè)屬性要放在多個(gè) Column Chunk 的,這多個(gè) Column Chunk 放在一起就叫做一個(gè) Row Group。

下邊這就是 Parquet 官方介紹:

4-byte magic number "PAR1"
<Column 1 Chunk 1 + Column Metadata>
<Column 2 Chunk 1 + Column Metadata>
...
<Column N Chunk 1 + Column Metadata>
<Column 1 Chunk 2 + Column Metadata>
<Column 2 Chunk 2 + Column Metadata>
...
<Column N Chunk 2 + Column Metadata>
...
<Column 1 Chunk M + Column Metadata>
<Column 2 Chunk M + Column Metadata>
...
<Column N Chunk M + Column Metadata>
File Metadata
4-byte length in bytes of file metadata
4-byte magic number "PAR1"

magic number 就類似水印,最后有整個(gè)文件的 Metadata。還是看圖吧,Parquet 的官方文件格式圖是下面這樣的:

Parquet有什么特點(diǎn)

左邊是數(shù)據(jù),右邊是 File Metadata。

如果覺得太復(fù)雜了,可以看我畫的簡潔版:

Parquet有什么特點(diǎn)

是不是清爽很多!File Metadata 中有對應(yīng)的 Row Group Metadata,里面還有 Column Chunk Metadta,和數(shù)據(jù)的組織形式類似,就不展開畫了。

到此,關(guān)于“Parquet有什么特點(diǎn)”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識,請繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會繼續(xù)努力為大家?guī)砀鄬?shí)用的文章!

網(wǎng)站欄目:Parquet有什么特點(diǎn)
URL分享:http://jinyejixie.com/article2/posgoc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供用戶體驗(yàn)網(wǎng)站改版、自適應(yīng)網(wǎng)站域名注冊、響應(yīng)式網(wǎng)站、建站公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站建設(shè)
全南县| 湟源县| 获嘉县| 永泰县| 贵定县| 赤城县| 安达市| 凤山县| 鹤山市| 澄江县| 简阳市| 海淀区| 塘沽区| 大厂| 双鸭山市| 武定县| 通城县| 宁波市| 云龙县| 枣阳市| 合作市| 合作市| 隆尧县| 海口市| 张北县| 凤庆县| 秦皇岛市| 碌曲县| 大同县| 安宁市| 怀仁县| 双鸭山市| 宜城市| 桂东县| 玉溪市| 安图县| 咸宁市| 新丰县| 扬州市| 德化县| 抚松县|