本篇內(nèi)容介紹了“Pandas輕松處理超大規(guī)模數(shù)據(jù)的方法是什么”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
成都創(chuàng)新互聯(lián)公司是一家專業(yè)提供濱城企業(yè)網(wǎng)站建設(shè),專注與成都網(wǎng)站建設(shè)、成都網(wǎng)站設(shè)計(jì)、HTML5、小程序制作等業(yè)務(wù)。10年已為濱城眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站設(shè)計(jì)公司優(yōu)惠進(jìn)行中。
處理大規(guī)模數(shù)據(jù)集時(shí)常是棘手的事情,尤其在內(nèi)存無(wú)法完全加載數(shù)據(jù)的情況下。在資源受限的情況下,可以使用 Python Pandas 提供的一些功能,降低加載數(shù)據(jù)集的內(nèi)存占用??捎眉夹g(shù)包括壓縮、索引和數(shù)據(jù)分塊。
在上述過(guò)程中需要解決一些問(wèn)題,其中之一就是數(shù)據(jù)量過(guò)大。如果數(shù)據(jù)量超出本機(jī)內(nèi)存的容量,項(xiàng)目執(zhí)行就會(huì)產(chǎn)生問(wèn)題。
對(duì)此有哪些解決方案?
有多種解決數(shù)據(jù)量過(guò)大問(wèn)題的方法。它們或是消耗時(shí)間,或是需要增加投資。
可能的解決方案
投資解決:新購(gòu)有能力處理整個(gè)數(shù)據(jù)集,具有更強(qiáng) CPU 和更大內(nèi)存的計(jì)算機(jī)?;蚴侨プ庥迷品?wù)或虛擬內(nèi)存,創(chuàng)建處理工作負(fù)載的集群。
耗時(shí)解決:如果內(nèi)存不足以處理整個(gè)數(shù)據(jù)集,而硬盤的容量要遠(yuǎn)大于內(nèi)存,此時(shí)可考慮使用硬盤存儲(chǔ)數(shù)據(jù)。但使用硬盤管理數(shù)據(jù)會(huì)大大降低處理性能,即便是 SSD 也要比內(nèi)存慢很多。
只要資源允許,這兩種解決方法均可行。如果項(xiàng)目資金充裕,或是不惜任何時(shí)間代價(jià),那么上述兩種方法是最簡(jiǎn)單也是最直接的解決方案。
但如果情況并非如此呢?也許你的資金有限,或是數(shù)據(jù)集過(guò)大,從磁盤加載將增加 5~6 倍甚至更多的處理時(shí)間。是否有無(wú)需額外資金投入或時(shí)間開銷的大數(shù)據(jù)解決方案呢?
這個(gè)問(wèn)題正中我的下懷。
有多種技術(shù)可用于大數(shù)據(jù)處理,它們無(wú)需額外付出投資,也不會(huì)耗費(fèi)大量加載的時(shí)間。本文將介紹其中三種使用 Pandas 處理大規(guī)模數(shù)據(jù)集的技術(shù)。
壓 縮
第一種技術(shù)是數(shù)據(jù)壓縮。壓縮并非指將數(shù)據(jù)打包為 ZIP 文件,而是以壓縮格式在內(nèi)存中存儲(chǔ)數(shù)據(jù)。
換句話說(shuō),數(shù)據(jù)壓縮就是一種使用更少內(nèi)存表示數(shù)據(jù)的方法。數(shù)據(jù)壓縮有兩種類型,即無(wú)損壓縮和有損壓縮。這兩種類型只影響數(shù)據(jù)的加載,不會(huì)影響到處理代碼。
無(wú)損壓縮
無(wú)損壓縮不會(huì)對(duì)數(shù)據(jù)造成任何損失,即原始數(shù)據(jù)和壓縮后的數(shù)據(jù)在語(yǔ)義上保持不變。執(zhí)行無(wú)損壓縮有三種方式。在下文中,將使用美國(guó)按州統(tǒng)計(jì)的新冠病毒病例數(shù)據(jù)集依次介紹。
加載特定的數(shù)據(jù)列
例子中所使用的數(shù)據(jù)集具有如下結(jié)構(gòu):
import pandas as pd data = pd.read_csv("https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv") data.sample(10)
加載整個(gè)數(shù)據(jù)集需要占用 111MB 內(nèi)存!
如果我們只需要數(shù)據(jù)集中的兩列,即州名和病例數(shù),那么為什么要加載整個(gè)數(shù)據(jù)集呢?加載所需的兩列數(shù)據(jù)只需 36MB,可降低內(nèi)存使用 32%。
使用 Pandas 加載所需數(shù)據(jù)列的代碼如下:
本節(jié)使用的代碼片段如下:
# 加載所需軟件庫(kù) Import needed library import pandas as pd # 數(shù)據(jù)集 csv = "https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv" # 加載整個(gè)數(shù)據(jù)集 data = pd.read_csv(csv) data.info(verbose=False, memory_usage="deep") # 創(chuàng)建數(shù)據(jù)子集 df = data[["county", "cases"]] df.info(verbose=False, memory_usage="deep") # 加速所需的兩列數(shù)據(jù) df_2col = pd.read_csv(csv , usecols=["county", "cases"]) df_2col.info(verbose=False, memory_usage="deep")
代碼地址:
https://gist.github.com/SaraM92/3ba6cac1801b20f6de1ef3cc4a18c843#file-column_selecting-py
操作數(shù)據(jù)類型
另一個(gè)降低數(shù)據(jù)內(nèi)存使用量的方法是截取數(shù)值項(xiàng)。例如將 CSV 加載到 DataFrame,如果文件中包含數(shù)值,那么一個(gè)數(shù)值就需要 64 個(gè)字節(jié)存儲(chǔ)。但可通過(guò)使用 int 格式截取數(shù)值以節(jié)省內(nèi)存。
int8 存儲(chǔ)值的范圍是 -128 到 127;
int16 存儲(chǔ)值的范圍是 -32768 到 32767;
int64 存儲(chǔ)值的范圍是 -9223372036854775808 到 9223372036854775807。
如果可預(yù)先確定數(shù)值不大于 32767,那么就可以使用 int16 或 int32 類型,該列的內(nèi)存占用能降低 75%。
假定每個(gè)州的病例數(shù)不超過(guò) 32767(雖然現(xiàn)實(shí)中并非如此),那么就可截取該列為 int16 類型而非 int64。
稀疏列
如果數(shù)據(jù)集的一或多個(gè)列中具有大量的 NaN 空值,那么可以使用 稀疏列表示 降低內(nèi)存使用,以免空值耗費(fèi)內(nèi)存。
假定州名這一列存在一些空值,我們需要跳過(guò)所有包含空值的行。該需求可使用 pandas.sparse 輕松實(shí)現(xiàn)(譯者注:原文使用 Sparse Series,但在 Pandas 1.0.0 中已經(jīng)移除了 SparseSeries)。
有損壓縮
如果無(wú)損壓縮并不滿足需求,還需要進(jìn)一步壓縮,那么應(yīng)該如何做?這時(shí)可使用有損壓縮,權(quán)衡內(nèi)存占用而犧牲數(shù)據(jù)百分之百的準(zhǔn)確性。
有損壓縮有兩種方式,即修改數(shù)值和抽樣。
修改數(shù)值:有時(shí)并不需要數(shù)值保留全部精度,這時(shí)可以將 int64 截取為 int32 甚至是 int16。
抽樣:如果需要確認(rèn)某些州的新冠病例數(shù)要高于其它州,可以抽樣部分州的數(shù)據(jù),查看哪些州具有更多的病例。這種做法是一種有損壓縮,因?yàn)槠渲胁⑽纯紤]到所有的數(shù)據(jù)行。
第二種技術(shù):數(shù)據(jù)分塊(chunking)
另一個(gè)處理大規(guī)模數(shù)據(jù)集的方法是數(shù)據(jù)分塊。將大規(guī)模數(shù)據(jù)切分為多個(gè)小分塊,進(jìn)而對(duì)各個(gè)分塊分別處理。在處理完所有分塊后,可以比較結(jié)果并給出最終結(jié)論。
本文使用的數(shù)據(jù)集中包含了 1923 行數(shù)據(jù)。
假定我們需要找出具有最多病例的州,那么可以將數(shù)據(jù)集切分為每塊 100 行數(shù)據(jù),分別處理每個(gè)數(shù)據(jù)塊,從這各個(gè)小結(jié)果中獲取最大值。
本節(jié)代碼片段如下:
# 導(dǎo)入所需軟件庫(kù) import pandas as pd # 數(shù)據(jù)集 csv = "https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv" # 循環(huán)處理每個(gè)數(shù)據(jù)塊,獲取每個(gè)數(shù)據(jù)塊中的最大值 result = {} for chunk in pd.read_csv(csv, chunksize=100): max_case = chunk["cases"].max() max_case_county = chunk.loc[chunk[ cases ] == max_case, county ].iloc[0] result[max_case_county] = max_case # 給出結(jié)果 print(max(result, key=result.get) , result[max(result, key=result.get)])
代碼地址:
https://gist.github.com/SaraM92/808ed30694601e5eada5e283b2275ed7#file-chuncking-py
第三種方法:索引
數(shù)據(jù)分塊非常適用于數(shù)據(jù)集僅加載一次的情況。但如果需要多次加載數(shù)據(jù)集,那么可以使用索引技術(shù)。
索引可理解為一本書的目錄。無(wú)需讀完整本書就可以獲取所需得信息。
例如,分塊技術(shù)非常適用于獲取指定州的病例數(shù)。編寫如下的簡(jiǎn)單函數(shù),就能實(shí)現(xiàn)這一功能。
索引 vs 分塊
分塊需讀取所有數(shù)據(jù),而索引只需讀取部分?jǐn)?shù)據(jù)。
上面的函數(shù)加載了每個(gè)分塊中的所有行,但我們只關(guān)心其中的一個(gè)州,這導(dǎo)致大量的額外開銷。可使用 Pandas 的數(shù)據(jù)庫(kù)操作,例如簡(jiǎn)單的做法是使用 SQLite 數(shù)據(jù)庫(kù)。
首先,需要將 DataFrame 加載到 SQLite 數(shù)據(jù)庫(kù),代碼如下:
import sqlite3 csv = "https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv" # 創(chuàng)建新的數(shù)據(jù)庫(kù)文件 db = sqlite3.connect("cases.sqlite") # 按塊加載 CSV 文件 for c in pd.read_csv(csv, chunksize=100): # 將所有數(shù)據(jù)行加載到新的數(shù)據(jù)庫(kù)表中 c.to_sql("cases", db, if_exists="append") # 為“state”列添加索引 db.execute("CREATE INDEX state ON cases(state)") db.close()
代碼地址:
https://gist.github.com/SaraM92/5b445d5b56be2d349cdfa988204ff5f3#file-load_into_db-py
為使用數(shù)據(jù)庫(kù),下面需要重寫 get_state_info 函數(shù)。
這樣可降低內(nèi)存占用 50%。
“Pandas輕松處理超大規(guī)模數(shù)據(jù)的方法是什么”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!
分享文章:Pandas輕松處理超大規(guī)模數(shù)據(jù)的方法是什么
標(biāo)題路徑:http://jinyejixie.com/article20/gggsjo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站營(yíng)銷、網(wǎng)站內(nèi)鏈、定制開發(fā)、網(wǎng)頁(yè)設(shè)計(jì)公司、微信公眾號(hào)、軟件開發(fā)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)