python爬蟲怎么利用spider抓取程序-創(chuàng)新互聯(lián)

今天就跟大家聊聊有關(guān)python爬蟲怎么利用spider抓取程序，可能很多人都不太了解，為了讓大家更加了解，小編給大家總結(jié)了以下內(nèi)容，希望大家根據(jù)這篇文章可以有所收獲。

網(wǎng)站建設(shè)哪家好，找成都創(chuàng)新互聯(lián)！專注于網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、成都小程序開發(fā)、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項(xiàng)目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了鎮(zhèn)巴免費(fèi)建站歡迎大家使用！

spider抓取程序：

在貼上代碼之前，先對抓取的頁面和鏈接做一個分析：

python爬蟲怎么利用spider抓取程序

網(wǎng)址：http://category.dangdang.com/pg4-cp01.25.17.00.00.00.html

這個是當(dāng)當(dāng)網(wǎng)圖書的鏈接，經(jīng)過分析發(fā)現(xiàn)：大種類的id號對應(yīng) cp01.25 中的25，小種類對應(yīng)id號中的第三個 17，pg4代表大種類 —>小種類下圖書的第17頁信息。

為了在抓取圖書信息的同時找到這本圖書屬于哪一大種類下的小種類的歸類信息，我們需要分三步走，第一步：大種類劃分，在首頁找到圖書各大種類名稱和對應(yīng)的id號；第二步，根據(jù)大種類id號生成的鏈接，找到每個大種類下的二級子種類名稱，及對應(yīng)的id號；第三步，在大種類 —>小種類的歸類下抓取每本圖書信息。

分步驟介紹下：

1、我們繼承RedisSpider作為父類，start_urls作為初始鏈接，用于請求首頁圖書數(shù)據(jù)

# -*- coding: utf-8 -*-
import scrapy
import requests
from scrapy import Selector
from lxml import etree
from ..items import DangdangItem
from scrapy_redis.spiders import RedisSpider
 
class DangdangSpider(RedisSpider):
  name = 'dangdangspider'
  redis_key = 'dangdangspider:urls'
  allowed_domains = ["dangdang.com"]
  start_urls = 'http://category.dangdang.com/cp01.00.00.00.00.00.html'
  def start_requests(self):
    user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 \
           Safari/537.36 SE 2.X MetaSr 1.0'
    headers = {'User-Agent': user_agent}
    yield scrapy.Request(url=self.start_urls, headers=headers, method='GET', callback=self.parse)

網(wǎng)頁標(biāo)題：python爬蟲怎么利用spider抓取程序-創(chuàng)新互聯(lián)
標(biāo)題URL：http://jinyejixie.com/article12/depegc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站策劃、網(wǎng)站營銷、關(guān)鍵詞優(yōu)化、響應(yīng)式網(wǎng)站、App設(shè)計(jì)、微信公眾號

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

python爬蟲怎么利用spider抓取程序-創(chuàng)新互聯(lián)