成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

爬蟲CrawlSpider模板的用法

本篇內(nèi)容介紹了“爬蟲Crawl Spider模板的用法”的有關(guān)知識(shí),在實(shí)際案例的操作過程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

成都創(chuàng)新互聯(lián)-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價(jià)比長(zhǎng)順網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫(kù),直接使用。一站式長(zhǎng)順網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋長(zhǎng)順地區(qū)。費(fèi)用合理售后完善,十年實(shí)體公司更值得信賴。

1.Spider模板

  • scrapy默認(rèn)創(chuàng)建的spider模板就是basic模板,創(chuàng)建spider文件的命令是:scrapy genspider dribbble dribbble.com,查看spider模板的命令是:scrapy genspider --list

  • 在項(xiàng)目中明確指明使用crawl生成模板生成spider的命令是:scrapy genspider -t crawl csdn www.csdn.net ;

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class CsDNSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['https://www.csdn.net/']
    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        return item

2.CrawlSpider類介紹

  • CrawlSpider是Spider的派生類,目的是對(duì)全站信息爬取更加簡(jiǎn)單,爬取那些具有一定規(guī)則網(wǎng)站的常用的爬蟲, 它基于Spider并有一些獨(dú)特屬性;

3.rules規(guī)則列表

  • 語(yǔ)法:Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None),rules是Rule對(duì)象的集合,用于匹配目標(biāo)網(wǎng)站并排除干擾;

  • link_extractor:是一個(gè)LinkExtractor對(duì)象,其定義了如何從爬取到的頁(yè)面提取鏈接;

  • callback:從link_extractor中每獲取到鏈接得到Responses時(shí),會(huì)調(diào)用參數(shù)所指定的值作為回調(diào)函數(shù),該回調(diào) 函數(shù)接收一個(gè)response作為其一個(gè)參數(shù);

  • cb_kwargs:用于作為**kwargs參數(shù),傳遞給callback;

  • follow:是一個(gè)布爾值,指爬取了之后,是否還繼續(xù)從該頁(yè)面提取鏈接,然后繼續(xù)爬下去, 默認(rèn)是False;

  • process_links:指定spider中哪個(gè)的函數(shù)將會(huì)被調(diào)用,從link_extractor中獲取到鏈接列表時(shí)將會(huì)調(diào)用該函數(shù) 。該方法主要用來(lái)過濾;

  • process_request:指定處理函數(shù),根據(jù)該Rule提取到的每個(gè)Request時(shí),該函數(shù)將會(huì)被調(diào)用,可以對(duì)Request進(jìn) 行處理,該函數(shù)必須返回Request或者None;

4.LinkExtractors

  • LinkExtractors 的目的是提取鏈接,每個(gè)LinkExtractor有唯一的公共方法是extract_links(),它接收一個(gè) Response對(duì)象,并返回一個(gè)scrapy.link.Link對(duì)象;

  • Link Extractors要實(shí)例化一次,并且 extract_links 方法會(huì)根據(jù)不同的 response 調(diào)用多次提取鏈接;

主要參數(shù):

  • allow:滿足括號(hào)中”正則表達(dá)式”的值會(huì)被提取,如果為空,則全部匹配;

  • deny:與這個(gè)正則表達(dá)式(或正則表達(dá)式列表)不匹配的url一定不提??;

  • allow_domains:會(huì)被提取的連接的;

  • deny_domains:一定不會(huì)被提取鏈接的domains;

  • restrict_xpaths:使用xpath表達(dá)式,和allow共同作用過濾鏈接;

5.爬取CSDN的文章, 且提取URL和文章標(biāo)題

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class DoubanSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['blog.csdn.net']
    start_urls = ['https://blog.csdn.net']
    # 指定鏈接提取的規(guī)律
    rules = (
        # follow:是指爬取了之后,是否還繼續(xù)從該頁(yè)面提取鏈接,然后繼續(xù)爬下去
        Rule(LinkExtractor(allow=r'.*/article/.*'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        print('-'*100)
        print(response.url)
        title = response.css('h2::text').extract()[0]
        print(title)
        print('-' * 100)
        return None

“爬蟲Crawl Spider模板的用法”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

分享標(biāo)題:爬蟲CrawlSpider模板的用法
文章分享:http://jinyejixie.com/article0/gdpeoo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App設(shè)計(jì)服務(wù)器托管、做網(wǎng)站、網(wǎng)站導(dǎo)航、小程序開發(fā)、品牌網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

綿陽(yáng)服務(wù)器托管
晋州市| 宁强县| 定襄县| 盖州市| 富阳市| 鹿泉市| 嘉峪关市| 苍山县| 绥中县| 鹿泉市| 海南省| 秭归县| 吉安县| 东乌| 明水县| 麻栗坡县| 淄博市| 南投县| 凌源市| 宜川县| 长阳| 鄂伦春自治旗| 吴江市| 浦江县| 新邵县| 屯昌县| 浦北县| 郑州市| 邛崃市| 城口县| 攀枝花市| 岳普湖县| 乳源| 伊通| 南木林县| 屏东市| 于田县| 衡山县| 克山县| 师宗县| 清远市|