小編給大家分享一下python中的分布式爬蟲指的是什么,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!
成都創(chuàng)新互聯(lián)公司堅(jiān)持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:成都做網(wǎng)站、成都網(wǎng)站設(shè)計(jì)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時(shí)代的肅南裕固族自治網(wǎng)站設(shè)計(jì)、移動(dòng)媒體設(shè)計(jì)的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!
什么是分布式?
你開發(fā)一個(gè)網(wǎng)站想要給別人訪問就需要把網(wǎng)站部署到服務(wù)器,當(dāng)網(wǎng)站用戶增多的時(shí)候一個(gè)服務(wù)器就不滿足需求了于是就會(huì)把網(wǎng)站部署到多個(gè)服務(wù)器上,這種情況通常叫集群。
就是把整個(gè)網(wǎng)站的所有功能,都同時(shí)部署到不同的服務(wù)器上一般會(huì)使用 ngnix 作負(fù)載均衡,不過有些功能并發(fā)量并不是很高比如一些后臺(tái)的管理。
所以就有人想要不然把這個(gè)網(wǎng)站的功能都拆分出來,讓每一個(gè)模塊只負(fù)責(zé)具體的功能,比如登錄模塊,內(nèi)容管理模塊等
然后在部署的時(shí)候,把一些并發(fā)量大的模塊部署到多個(gè)服務(wù)器就行了耦合度大大的降低了,并發(fā)量小的模塊也不會(huì)浪費(fèi)那么多資源了。當(dāng)然,這時(shí)需要讓模塊與模塊之間產(chǎn)生聯(lián)系
也就是調(diào)度好它們,一般會(huì)用到消息隊(duì)列,這就是所謂的分布式。
對(duì)于一些數(shù)據(jù)不大的數(shù)據(jù)我們的爬蟲一般是直接在電腦運(yùn)行了,也就是所謂的單機(jī)爬蟲。
而分布式爬蟲,說白了就是把爬蟲的關(guān)鍵功能以我們剛說的分布式形式部署到多臺(tái)機(jī)器上然后一起盤(爬)它。
那么如何將爬蟲之間聯(lián)系起來呢我們可以使用 redis 的消息隊(duì)列進(jìn)行調(diào)度?
之前我們也有說過 redis,它是一個(gè)讀寫速度快的緩存數(shù)據(jù)庫,還提供了類似 Python 的list、set 等數(shù)據(jù)結(jié)構(gòu),而且它還可以將內(nèi)存的數(shù)據(jù)寫到磁盤性能杠杠的。
看完了這篇文章,相信你對(duì)python中的分布式爬蟲指的是什么有了一定的了解,想了解更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!
新聞名稱:python中的分布式爬蟲指的是什么
文章轉(zhuǎn)載:http://jinyejixie.com/article34/jjpese.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站、品牌網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)、App設(shè)計(jì)、建站公司、ChatGPT
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)