成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

如何理解Python中Scrapy框架結(jié)構(gòu)

如何理解Python中Scrapy框架結(jié)構(gòu),針對(duì)這個(gè)問題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問題的小伙伴找到更簡(jiǎn)單易行的方法。

成都創(chuàng)新互聯(lián)是一家朝氣蓬勃的網(wǎng)站建設(shè)公司。公司專注于為企業(yè)提供信息化建設(shè)解決方案。從事網(wǎng)站開發(fā),網(wǎng)站制作,網(wǎng)站設(shè)計(jì),網(wǎng)站模板,微信公眾號(hào)開發(fā),軟件開發(fā),微信平臺(tái)小程序開發(fā),10年建站對(duì)成都戶外休閑椅等多個(gè)行業(yè),擁有多年的網(wǎng)站運(yùn)維經(jīng)驗(yàn)。

scrapy 為什么是框架而不是庫(kù)?

scrapy 是如何工作的?

項(xiàng)目結(jié)構(gòu)

在開始爬取之前,必須創(chuàng)建一個(gè)新的 Scrapy 項(xiàng)目。 進(jìn)入您打算存儲(chǔ)代碼的目錄中,運(yùn)行下列命令:

注意:創(chuàng)建項(xiàng)目時(shí),會(huì)在當(dāng)前目錄下新建爬蟲項(xiàng)目的目錄。

這些文件分別是:

  • scrapy.cfg : 項(xiàng)目的配置文件

  • quotes/ : 該項(xiàng)目的python模塊。之后您將在此加入代碼。 quotes/items.py : 項(xiàng)目中的item文件.

  • quotes/middlewares.py : 爬蟲中間件、下載中間件(處理請(qǐng)求體與響應(yīng)體)

  • quotes/pipelines.py : 項(xiàng)目中的pipelines文件. quotes/settings.py : 項(xiàng)目的設(shè)置文件

  • quotes/spiders/ : 放置spider代碼的目錄.

Scrapy原理圖

各個(gè)組件的介紹

  1. Engine。引擎,處理整個(gè)系統(tǒng)的數(shù)據(jù)流處理、觸發(fā)事務(wù),是整個(gè)框架的核心。

  2. Item。項(xiàng)目,它定義了爬取結(jié)果的數(shù)據(jù)結(jié)構(gòu),爬取的數(shù)據(jù)會(huì)被賦值成該Item對(duì)象。

  3. Scheduler。調(diào)度器,接受引擎發(fā)過來(lái)的請(qǐng)求并將其加入隊(duì)列中,在引擎再次請(qǐng)求的時(shí)候?qū)⒄?qǐng)求提供給引擎。

  4. Downloader。下載器,下載網(wǎng)頁(yè)內(nèi)容,并將網(wǎng)頁(yè)內(nèi)容返回給蜘蛛。

  5. Spiders。 蜘蛛,其內(nèi)定義了爬取的邏輯和網(wǎng)頁(yè)的解析規(guī)則,它主要負(fù)責(zé)解析響應(yīng)并生成提結(jié)果和新的請(qǐng)求。

  6. Item Pipeline。項(xiàng)目管道,負(fù)責(zé)處理由蜘蛛從網(wǎng)頁(yè)中抽取的項(xiàng)目,它的主要任務(wù)是清洗、驗(yàn)證和存儲(chǔ)數(shù)據(jù)。

  7. Downloader Middlewares。下載器中間件,位于引擎和下載器之間的鉤子框架,主要處理引擎與下載器之間的請(qǐng)求及響應(yīng)。

  8. Spider Middlewares。 蜘蛛中間件,位于引擎和蜘蛛之間的鉤子框架,主要處理蜘蛛輸入的響應(yīng)和輸出的結(jié)果及新的請(qǐng)求

數(shù)據(jù)的流動(dòng)

  • Scrapy Engine(引擎): 負(fù)責(zé)Spider、ItemPipeline、Downloader、Scheduler中間的通訊,信號(hào)、數(shù)據(jù)傳遞等。

  • Scheduler(調(diào)度器): 負(fù)責(zé)接受引擎發(fā)送過來(lái)的Request請(qǐng)求,并按照一定的方式進(jìn)行整理排列,入隊(duì),當(dāng)引擎需要
    時(shí),交還給引擎。

  • Downloader(下載器):負(fù)責(zé)下載Scrapy Engine(引擎)發(fā)送的所有Requests請(qǐng)求,并將其獲取到的Responses交還給Scrapy Engine(引擎),由引擎交給Spider來(lái)處理

  • Spider(爬蟲):負(fù)責(zé)處理所有Responses,從中分析提取數(shù)據(jù),獲取Item字段需要的數(shù)據(jù),并將需要跟進(jìn)的URL提交給引擎,再次進(jìn)入Scheduler(調(diào)度器)

  • Item Pipeline(管道):負(fù)責(zé)處理Spider中獲取到的Item,并進(jìn)行進(jìn)行后期處理(詳細(xì)分析、過濾、存儲(chǔ)等)的地方.

  • Downloader Middlewares(下載中間件):你可以當(dāng)作是一個(gè)可以自定義擴(kuò)展下載功能的組件。

  • Spider Middlewares(Spider中間件):你可以理解為是一個(gè)可以自定擴(kuò)展和操作引擎和Spider中間通信的功能組件(比如進(jìn)入Spider的Responses;和從Spider出去的Requests)

關(guān)于如何理解Python中Scrapy框架結(jié)構(gòu)問題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識(shí)。

網(wǎng)站題目:如何理解Python中Scrapy框架結(jié)構(gòu)
標(biāo)題來(lái)源:http://jinyejixie.com/article26/ggsecg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供外貿(mào)網(wǎng)站建設(shè)、云服務(wù)器、品牌網(wǎng)站設(shè)計(jì)、面包屑導(dǎo)航、、做網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)
陕西省| 垦利县| 宁乡县| 南涧| 锡林郭勒盟| 克山县| 利川市| 玉林市| 江永县| 大丰市| 东光县| 山阳县| 钟祥市| 平顺县| 左贡县| 永济市| 凌云县| 蓝田县| 泰州市| 遵义县| 平定县| 瓦房店市| 凤翔县| 涿州市| 德兴市| 东安县| 吴川市| 潮安县| 西充县| 靖西县| 宕昌县| 比如县| 花垣县| 茌平县| 龙井市| 北票市| 邯郸县| 靖边县| 伊川县| 西城区| 射洪县|