創(chuàng)新互聯(lián)www.cdcxhl.cn八線動(dòng)態(tài)BGP香港云服務(wù)器提供商,新人活動(dòng)買多久送多久,劃算不套路!
站在用戶的角度思考問(wèn)題,與客戶深入溝通,找到溫州網(wǎng)站設(shè)計(jì)與溫州網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗(yàn),讓設(shè)計(jì)與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個(gè)性化、用戶體驗(yàn)好的作品,建站類型包括:成都網(wǎng)站制作、成都網(wǎng)站建設(shè)、外貿(mào)營(yíng)銷網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、國(guó)際域名空間、網(wǎng)絡(luò)空間、企業(yè)郵箱。業(yè)務(wù)覆蓋溫州地區(qū)。本篇文章給大家分享的是有關(guān)Python爬蟲利用scrapy創(chuàng)建項(xiàng)目,小編覺得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說(shuō),跟著小編一起來(lái)看看吧。
一、安裝scrapy
1.1linux系統(tǒng)使用:pip install scrapy
1.2Windows系統(tǒng):
pip install wheel
下載twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted (根據(jù)Python的版本進(jìn)行下載,這里我的Python版本是3.7所以就下的3.7)
pip install 路徑\Twisted-19.2.1-cp37-cp37m-win_amd64 pip install pywin32 pip install scrapy
環(huán)境:Windows 7 x64 Python3.7.1 pycharm
二、創(chuàng)建scrapy項(xiàng)目
1、新建一個(gè)項(xiàng)目,選擇Python即可。我這里創(chuàng)建的項(xiàng)目名是demo。創(chuàng)建好后是一個(gè)空的項(xiàng)目。
2、點(diǎn)擊pycharm下面的terminal,如下圖所示:
在終端中輸入:scrapy startproject demo 命令,創(chuàng)建scrapy項(xiàng)目,創(chuàng)建成功后會(huì)出現(xiàn)如下目錄結(jié)構(gòu):
各文件作用大致如下:
scrapy.cfg::項(xiàng)目的配置文件
demo/:該項(xiàng)目的python模塊。在此加入代碼。
demo/items.py:項(xiàng)目中的item文件主要用于定義數(shù)據(jù)的結(jié)構(gòu)化存儲(chǔ),類似于ORM中的models。
demo/pipelines.py:項(xiàng)目中的pipelines文件,指定數(shù)據(jù)的存儲(chǔ)方式(以文件的形式存儲(chǔ),存儲(chǔ)到數(shù)據(jù)庫(kù)中)。
demo/settings.py:項(xiàng)目的設(shè)置文件.
demo/spiders/:放置spider代碼的目錄。我們寫的爬蟲代碼在這個(gè)目錄下。
3、創(chuàng)建爬蟲文件
3.1在終端中輸入:cd demo(我這里輸入demo是因?yàn)槲业捻?xiàng)目名是demo)
3.2在終端中輸入:scrapy genspider books books.toscrape.com (scrapy genspider 應(yīng)用名稱 爬取網(wǎng)頁(yè)的起始url)
4、打開books文件,該文件結(jié)構(gòu)如下:
5、爬取http://books.toscrape.com/的書籍信息。
5.1分析http://books.toscrape.com/頁(yè)面。
由上圖我們可以知道所有書籍都存放在div/ol/下的li標(biāo)簽中。這里我們只打印書名,由此我們可以像下面這樣寫來(lái)提取數(shù)據(jù)。
5.2books中的部分代碼如下:
def parse(self, response): ''' 數(shù)據(jù)解析,提取。 :param response: 爬取到的response對(duì)象 :return: ''' book_list = response.xpath('/html/body/div/div/div/div/section/div[2]/ol/li') for book in book_list: print(book.xpath('./article/div[1]/a/img/@alt').extract())
5.3在setting.py中配置如下:
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0' # UA頭 ROBOTSTXT_OBEY = False # 如果為True表示準(zhǔn)信robots協(xié)議,則大多數(shù)數(shù)據(jù)都爬不了。所以這里設(shè)置為Flase LOG_LEVEL = 'ERROR' # 日志等級(jí)
5.4在終端中執(zhí)行爬取命令:
scrapy crawl books
打印內(nèi)容如下
['A Light in the Attic'] ['Tipping the Velvet'] ['Soumission'] ['Sharp Objects'] ['Sapiens: A Brief History of Humankind'] ['The Requiem Red'] ['The Dirty Little Secrets of Getting Your Dream Job'] ['The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull'] ['The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics'] ['The Black Maria'] ['Starving Hearts (Triangular Trade Trilogy, #1)'] ["Shakespeare's Sonnets"] ['Set Me Free'] ["Scott Pilgrim's Precious Little Life (Scott Pilgrim #1)"] ['Rip it Up and Start Again'] ['Our Band Could Be Your Life: Scenes from the American Indie Underground, 1981-1991'] ['Olio'] ['Mesaerion: The Best Science Fiction Stories 1800-1849'] ['Libertarianism for Beginners'] ["It's Only the Himalayas"]
由此我們可以看出這里只是爬取了1頁(yè),下面來(lái)爬取所有書籍名稱。
6、爬取所有頁(yè)面的書籍。
最終books.py的內(nèi)容看起來(lái)像下面這樣:
# -*- coding: utf-8 -*- import scrapy class BooksSpider(scrapy.Spider): name = 'books' # 爬蟲的唯一標(biāo)識(shí) allowed_domains = ['books.toscrape.com'] # 要爬取的起點(diǎn),可以是多個(gè)。 start_urls = ['http://books.toscrape.com/'] url = 'http://books.toscrape.com/catalogue/page-%d.html' # url模板用于拼接新的url page_num = 2 def parse(self, response): ''' 數(shù)據(jù)解析,提取。 :param response: 爬取到的response對(duì)象 :return: ''' print(f'當(dāng)前頁(yè)數(shù){self.page_num}') # 打印當(dāng)前頁(yè)數(shù)的數(shù)據(jù) book_list = response.xpath('/html/body/div/div/div/div/section/div[2]/ol/li') for book in book_list: print(book.xpath('./article/div[1]/a/img/@alt').extract()) if self.page_num < 50: # 總共50頁(yè)的內(nèi)容 new_url = format(self.url % self.page_num) # 拼接處新的URL self.page_num += 1 # 頁(yè)數(shù)加1 yield scrapy.Request(url=new_url, callback=self.parse) # 手動(dòng)發(fā)送請(qǐng)求
在終端中執(zhí)行命令獲取書名:
scrapy crawl books
如果一切順利你會(huì)看到打印的最終部分結(jié)果如下:
今日小結(jié):
(1)創(chuàng)建scrapy項(xiàng)目:scrapy startproject 爬蟲項(xiàng)目名稱。
(2)創(chuàng)建爬蟲應(yīng)用:scrapy genspider books books.toscrape.com ((scrapy genspider 應(yīng)用名稱 爬取網(wǎng)頁(yè)的起始url))應(yīng)用名稱在整個(gè)項(xiàng)目中作為唯一標(biāo)識(shí),不能出現(xiàn)同名的爬蟲應(yīng)用。
(3)運(yùn)行爬蟲程序:scrapy crawl books(scrapy crawl 爬蟲應(yīng)用)。
(4)parse方法:當(dāng)一個(gè)頁(yè)面下載完成后,Scrapy引擎會(huì)回調(diào)一個(gè)我們指定的頁(yè)面解析函數(shù)(默認(rèn)為parse方法)解析頁(yè)面。
一個(gè)頁(yè)面解析函數(shù)通常需要完成以下兩個(gè)任務(wù):
1、提取頁(yè)面中的數(shù)據(jù)(使用XPath或CSS選擇器)。
2、提取頁(yè)面中的鏈接,并產(chǎn)生對(duì)鏈接頁(yè)面的下載請(qǐng)求。
頁(yè)面解析函數(shù)通常被實(shí)現(xiàn)成一個(gè)生成器函數(shù),每一項(xiàng)從頁(yè)面中提取的數(shù)據(jù)以及每一個(gè)對(duì)鏈接頁(yè)面的下載請(qǐng)求都由yield語(yǔ)句提交給Scrapy引擎。
parse方法的工作機(jī)制:
(1)因?yàn)槭褂玫膟ield,而不是return。parse函數(shù)將會(huì)被當(dāng)做一個(gè)生成器使用。scrapy會(huì)逐一獲取parse方法中生成的結(jié)果,并判斷該結(jié)果是一個(gè)什么樣的類型;
(2)如果是request則加入爬取隊(duì)列,如果是item類型則使用pipeline處理,其他類型則返回錯(cuò)誤信息。
(3)scrapy取到第一部分的request不會(huì)立馬就去發(fā)送這個(gè)request,只是把這個(gè)request放到隊(duì)列里,然后接著從生成器里獲取;
(4)取盡第一部分的request,然后再獲取第二部分的item,取到item了,就會(huì)放到對(duì)應(yīng)的pipeline里處理;
(5)parse()方法作為回調(diào)函數(shù)(callback)賦值給了Request,指定parse()方法來(lái)處理這些請(qǐng)求 scrapy.Request(url, callback=self.parse)
(6)Request對(duì)象經(jīng)過(guò)調(diào)度,執(zhí)行生成 scrapy.http.response()的響應(yīng)對(duì)象,并送回給parse()方法,直到調(diào)度器中沒有Request(遞歸的思路)
(7)取盡之后,parse()工作結(jié)束,引擎再根據(jù)隊(duì)列和pipelines中的內(nèi)容去執(zhí)行相應(yīng)的操作;
(8)程序在取得各個(gè)頁(yè)面的items前,會(huì)先處理完之前所有的request隊(duì)列里的請(qǐng)求,然后再提取items。
(9)這一切的一切,Scrapy引擎和調(diào)度器將負(fù)責(zé)到底。
以上就是Python爬蟲利用scrapy創(chuàng)建項(xiàng)目,小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘9ぷ鲿?huì)見到或用到的。希望你能通過(guò)這篇文章學(xué)到更多知識(shí)。更多詳情敬請(qǐng)關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道。
網(wǎng)站標(biāo)題:Python爬蟲利用scrapy創(chuàng)建項(xiàng)目-創(chuàng)新互聯(lián)
分享路徑:http://jinyejixie.com/article32/ghipc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供企業(yè)網(wǎng)站制作、電子商務(wù)、App設(shè)計(jì)、外貿(mào)網(wǎng)站建設(shè)、App開發(fā)、微信公眾號(hào)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容