數(shù)據(jù)規(guī)整化:合并、清理、過濾
pandas和python標準庫提供了一整套高級、靈活的、高效的核心函數(shù)和算法將數(shù)據(jù)規(guī)整化為你想要的形式!
本篇博客主要介紹:
合并數(shù)據(jù)集:.merge()、.concat()等方法,類似于SQL或其他關系型數(shù)據(jù)庫的連接操作。
合并數(shù)據(jù)集
1) merge 函數(shù)參數(shù)
參數(shù) | 說明 |
---|---|
left | 參與合并的左側DataFrame |
right | 參與合并的右側DataFrame |
how | 連接方式:‘inner'(默認);還有,‘outer'、‘left'、‘right' |
on | 用于連接的列名,必須同時存在于左右兩個DataFrame對象中,如果位指定,則以left和right列名的交集作為連接鍵 |
left_on | 左側DataFarme中用作連接鍵的列 |
right_on | 右側DataFarme中用作連接鍵的列 |
left_index | 將左側的行索引用作其連接鍵 |
right_index | 將右側的行索引用作其連接鍵 |
sort | 根據(jù)連接鍵對合并后的數(shù)據(jù)進行排序,默認為True。有時在處理大數(shù)據(jù)集時,禁用該選項可獲得更好的性能 |
suffixes | 字符串值元組,用于追加到重疊列名的末尾,默認為(‘_x',‘_y').例如,左右兩個DataFrame對象都有‘data',則結果中就會出現(xiàn)‘data_x',‘data_y' |
copy | 設置為False,可以在某些特殊情況下避免將數(shù)據(jù)復制到結果數(shù)據(jù)結構中。默認總是賦值 |
1、多對一的合并(一個表的連接鍵列有重復值,另一個表中的連接鍵沒有重復值)
import pandas as pd import numpy as np df1 = pd.DataFrame({'key':['b','b','a','c','a','a','b'],'data1': range(7)}) df1
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。
當前名稱:pythonmerge、concat合并數(shù)據(jù)集的實例講解-創(chuàng)新互聯(lián)
網(wǎng)頁地址:http://jinyejixie.com/article46/djcehg.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站制作、響應式網(wǎng)站、面包屑導航、關鍵詞優(yōu)化、虛擬主機、服務器托管
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)