成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

怎么實(shí)現(xiàn)python爬蟲(chóng)

這篇文章主要為大家展示了“怎么實(shí)現(xiàn)python爬蟲(chóng)”,內(nèi)容簡(jiǎn)而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“怎么實(shí)現(xiàn)python爬蟲(chóng)”這篇文章吧。

公司主營(yíng)業(yè)務(wù):成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站制作、移動(dòng)網(wǎng)站開(kāi)發(fā)等業(yè)務(wù)。幫助企業(yè)客戶(hù)真正實(shí)現(xiàn)互聯(lián)網(wǎng)宣傳,提高企業(yè)的競(jìng)爭(zhēng)能力。創(chuàng)新互聯(lián)是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊(duì)。公司秉承以“開(kāi)放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化,感謝他們對(duì)我們的高要求,感謝他們從不同領(lǐng)域給我們帶來(lái)的挑戰(zhàn),讓我們激情的團(tuán)隊(duì)有機(jī)會(huì)用頭腦與智慧不斷的給客戶(hù)帶來(lái)驚喜。創(chuàng)新互聯(lián)推出西峽免費(fèi)做網(wǎng)站回饋大家。

一:爬蟲(chóng)準(zhǔn)備

1.爬蟲(chóng)首先需要做的事情就是要確定好你想要爬取數(shù)據(jù)的對(duì)象,這里我將以百度主頁(yè)logo圖片的地址為例進(jìn)行講解。

2.首先,是打開(kāi)百度主頁(yè)界面,然后把鼠標(biāo)移動(dòng)到主頁(yè)界面的百度logo圖標(biāo)上面,點(diǎn)擊鼠標(biāo)右鍵,然后點(diǎn)擊審查元素,即可打開(kāi)開(kāi)發(fā)者界面。

3.然后再下面的界面里面,可以看到該logo圖標(biāo)在HTML里面的排版模式,<img hidefocus="true" src="//百度/img/bd_logo1.png" width="270" height="129">,這里百度我用字替換了。

二:開(kāi)始爬蟲(chóng)

1.爬蟲(chóng)主要分為兩個(gè)部分,第一個(gè)是網(wǎng)頁(yè)界面的獲取,第二個(gè)是網(wǎng)頁(yè)界面的解析;爬蟲(chóng)的原理是利用代碼模擬瀏覽器訪問(wèn)網(wǎng)站,與瀏覽器不同的是,爬蟲(chóng)獲取到的是網(wǎng)頁(yè)的源代碼,沒(méi)有了瀏覽器的翻譯效果。

2.首先,我們進(jìn)行頁(yè)面獲取,python爬蟲(chóng)的話很多模塊包提供給開(kāi)發(fā)者直接抓取網(wǎng)頁(yè),urllib,urllib2,requests(urllib3)等等,這里我們使用urllib2進(jìn)行網(wǎng)站頁(yè)面的獲取;首先導(dǎo)入urllib2模塊包(該包是默認(rèn)安裝的):import urllib2

3.導(dǎo)入模塊包之后,然后調(diào)用urllib2中的urlopen方法鏈接網(wǎng)站,代碼如下repr = urllib2.urlopen("XXXXXX"),XXXXXX代表的是網(wǎng)站名稱(chēng)。

4.得到網(wǎng)站的響應(yīng)之后,然后就是將頁(yè)面的源代碼讀取出來(lái),調(diào)用read方法,html = repr.read()

5.獲取到頁(yè)面的源代碼之后,然后接下來(lái)的工作就是將自己想要的數(shù)據(jù)從html界面源代碼中解析出來(lái),解析界面的模塊包有很多,原始的re,好用的BeautifulSoup,以及高大上的lxml等等,這里我就簡(jiǎn)單的用re介紹介紹,首先導(dǎo)入re模塊包:import re

6.然后進(jìn)行利用re進(jìn)行搜索,這里我有使用正則表達(dá)式,看不懂的同學(xué)需去補(bǔ)充點(diǎn)正則表達(dá)式方面的知識(shí)。

7.然后,我這里就實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的爬蟲(chóng)流程,打印url,可以看見(jiàn)剛好就是之前我們看見(jiàn)的百度主頁(yè)logo的地址。

8.源代碼:

import urllib2

repr = urllib2.urlopen("URL")

html = repr.read()

import re

省略一行代碼

print url

以上是“怎么實(shí)現(xiàn)python爬蟲(chóng)”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!

文章題目:怎么實(shí)現(xiàn)python爬蟲(chóng)
分享地址:http://jinyejixie.com/article2/gdjiic.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供定制開(kāi)發(fā)、標(biāo)簽優(yōu)化、品牌網(wǎng)站制作、網(wǎng)站內(nèi)鏈、微信公眾號(hào)網(wǎng)頁(yè)設(shè)計(jì)公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都網(wǎng)頁(yè)設(shè)計(jì)公司