前言
目前創(chuàng)新互聯(lián)已為上千家的企業(yè)提供了網(wǎng)站建設(shè)、域名、雅安服務(wù)器托管、成都網(wǎng)站托管、企業(yè)網(wǎng)站設(shè)計(jì)、鹽田網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長(zhǎng),共同發(fā)展。通常我們?cè)谝粋€(gè)站站點(diǎn)進(jìn)行采集的時(shí)候,如果是小站的話 我們使用scrapy本身就可以滿足。
但是如果在面對(duì)一些比較大型的站點(diǎn)的時(shí)候,單個(gè)scrapy就顯得力不從心了。
要是我們能夠多個(gè)Scrapy一起采集該多好啊 人多力量大。
很遺憾Scrapy官方并不支持多個(gè)同時(shí)采集一個(gè)站點(diǎn),雖然官方給出一個(gè)方法:
**將一個(gè)站點(diǎn)的分割成幾部分 交給不同的scrapy去采集**
似乎是個(gè)解決辦法,但是很麻煩誒!畢竟分割很麻煩的哇
下面就改輪到我們的額主角Scrapy-Redis登場(chǎng)了!
能看到這篇文章的小伙伴肯定已經(jīng)知道什么是Scrapy以及Scrapy-Redis了,基礎(chǔ)概念這里就不再介紹。默認(rèn)情況下Scrapy-Redis是發(fā)送GET請(qǐng)求獲取數(shù)據(jù)的,對(duì)于某些使用POST請(qǐng)求的情況需要重寫make_request_from_data函數(shù)即可,但奇怪的是居然沒在網(wǎng)上搜到簡(jiǎn)潔明了的答案,或許是太簡(jiǎn)單了?。
這里我以httpbin.org這個(gè)網(wǎng)站為例,首先在settings.py中添加所需配置,這里需要根據(jù)實(shí)際情況進(jìn)行修改:
SCHEDULER = "scrapy_redis.scheduler.Scheduler" #啟用Redis調(diào)度存儲(chǔ)請(qǐng)求隊(duì)列 SCHEDULER_PERSIST = True #不清除Redis隊(duì)列、這樣可以暫停/恢復(fù) 爬取 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" #確保所有的爬蟲通過Redis去重 SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue' REDIS_URL = "redis://127.0.0.1:6379"
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。
當(dāng)前題目:Scrapy-Redis結(jié)合POST請(qǐng)求獲取數(shù)據(jù)的方法示例-創(chuàng)新互聯(lián)
文章起源:http://jinyejixie.com/article10/csdego.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站、虛擬主機(jī)、云服務(wù)器、營(yíng)銷型網(wǎng)站建設(shè)、網(wǎng)站維護(hù)、移動(dòng)網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容