本篇文章給大家分享的是有關(guān)什么是python數(shù)據(jù)科學(xué)庫,小編覺得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
10年的玉山網(wǎng)站建設(shè)經(jīng)驗(yàn),針對設(shè)計、前端、開發(fā)、售后、文案、推廣等六對一服務(wù),響應(yīng)快,48小時及時工作處理。成都營銷網(wǎng)站建設(shè)的優(yōu)勢是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動調(diào)整玉山建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計,從而大程度地提升瀏覽體驗(yàn)。創(chuàng)新互聯(lián)建站從事“玉山網(wǎng)站設(shè)計”,“玉山網(wǎng)站推廣”以來,每個客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。
Python是門很神奇的語言,歷經(jīng)時間和實(shí)踐檢驗(yàn),受到開發(fā)者和數(shù)據(jù)科學(xué)家一致好評,目前已經(jīng)是全世界發(fā)展最好的編程語言之一。簡單易用,完整而龐大的第三方庫生態(tài)圈,使得Python成為編程小白和高級工程師的首選。
在本文中,我們會分享不同于市面上的python數(shù)據(jù)科學(xué)庫(如numpy、padnas、scikit-learn、matplotlib等),盡管這些庫很棒,但是其他還有一些不為人知,但同樣優(yōu)秀的庫需要我們?nèi)ヌ剿魅W(xué)習(xí)。
1、wget
從網(wǎng)絡(luò)上獲取數(shù)據(jù)被認(rèn)為是數(shù)據(jù)科學(xué)家的必備基本技能,而Wget是一套非交互的基于命令行的文件下載庫。ta支持HTTP、HTTPS和FTP協(xié)議,也支持使用IP代理。因?yàn)閠a是非交互的,即使用戶未登錄,ta也可以在后臺運(yùn)行。所以下次如果你想從網(wǎng)絡(luò)上下載一個頁面,Wget可以幫到你哦。
安裝
pip isntall wget
實(shí)例
import wget url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3' filename = wget.download(url)
Run and output
100% [................................................] 3841532 / 3841532 filename 'razorback.mp3'
2. Pendulum
對于大多數(shù)python用戶來說處理時期(時間)數(shù)據(jù)是一件令人抓狂的事情,好在Pendulum專為你而來。它是python內(nèi)置時間類的良好備選方案,更多內(nèi)容可查看官方文檔 https://pendulum.eustace.io/docs/
安裝
pip install pendulum
實(shí)例
import pendulum dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto') dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver') print(dt_vancouver.diff(dt_toronto).in_hours())
Run and output
3
3.imbalanced-learn
常見的機(jī)器學(xué)習(xí)分類算法都默認(rèn)輸入的數(shù)據(jù)是均衡數(shù)據(jù),即假設(shè)訓(xùn)練集數(shù)據(jù)有A和B兩個類別,A和B數(shù)據(jù)量大體相當(dāng)。如果A和B數(shù)據(jù)量差別巨大,那么訓(xùn)練的效果會不理想。在實(shí)際收集和整理的數(shù)據(jù),其實(shí)絕大多數(shù)是非均衡數(shù)據(jù),這對于機(jī)器學(xué)習(xí)分類算法真的是個很大的問題。好在有imbalanced-learn庫可以很好的解決這個問題。該庫兼容scikit-learn,并且是作為scikit-learn-contrib項(xiàng)目的一部分。當(dāng)你再遇到非均衡數(shù)據(jù),記得試試它哦!
安裝
pip install -U imbalanced-learn #或者 conda install -c conda-forge imbalanced-learn
4. FlashText
在NLP任務(wù)重經(jīng)常會遇到替換指代同一個意思的多個詞語,或者從句子中抽取關(guān)鍵詞。通常我們一般的做法是使用正則表達(dá)式來完成這些臟活累活,但如果要操作的詞語數(shù)量達(dá)到幾千上萬,使用正則這種方法就會變得很麻煩。FlashText庫是基于FlashText算法,該庫的最強(qiáng)大之處在于程序運(yùn)行時間不受操作詞語數(shù)量影響,即運(yùn)行時間與操作的詞匯數(shù)量無關(guān)。 因此特別適合應(yīng)用到 python文本分析 中去。
安裝
pip install flashtext
實(shí)例
抽取關(guān)鍵詞
我們都知道 Big Apple 指代紐約。所以抽取紐約這個城市詞時候,我們要考慮到相同意思的不同詞語。
from flashtext import KeywordProcessor #設(shè)置關(guān)鍵詞處理器 keyword_processor = KeywordProcessor() #設(shè)置關(guān)鍵詞及其近義詞 keyword_processor.add_keyword('Big Apple', 'New York') #遇到Big Apple就會識別為New York keyword_processor.add_keyword('Bay Area') keywords_found = keyword_processor.extract_keywords("I love Big Apple and Bay Area.") keywords_found
Run and output
['New York', 'Bay Area']
5. Fuzzywuzzy
這個庫的名字就有點(diǎn)怪,但ta擁有強(qiáng)大的字符串匹配功能??梢暂p松實(shí)現(xiàn)字符串比較比率(comparison ratios),分詞比率(token ratios)等操作。它還可以方便地匹配保存在不同數(shù)據(jù)庫中的記錄。
安裝
pip install fuzzywuzzy
實(shí)例
from fuzzywuzzy import fuzz from fuzzywuzzy import process # Simple Ratio print(fuzz.ratio("this is a test", "this is a test!")) # Partial Ratio print(fuzz.partial_ratio("this is a test", "this is a test!"))
Run and output!
97 100
以上就是什么是python數(shù)據(jù)科學(xué)庫,小編相信有部分知識點(diǎn)可能是我們?nèi)粘9ぷ鲿姷交蛴玫降?。希望你能通過這篇文章學(xué)到更多知識。更多詳情敬請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。
文章標(biāo)題:什么是python數(shù)據(jù)科學(xué)庫
路徑分享:http://jinyejixie.com/article44/pddehe.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供動態(tài)網(wǎng)站、做網(wǎng)站、商城網(wǎng)站、品牌網(wǎng)站設(shè)計、定制開發(fā)、網(wǎng)站策劃
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)