Python如何爬取指定百度搜索的內(nèi)容并提取網(wǎng)頁的標(biāo)題內(nèi)容,針對(duì)這個(gè)問題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問題的小伙伴找到更簡(jiǎn)單易行的方法。
十多年的齊齊哈爾網(wǎng)站建設(shè)經(jīng)驗(yàn),針對(duì)設(shè)計(jì)、前端、開發(fā)、售后、文案、推廣等六對(duì)一服務(wù),響應(yīng)快,48小時(shí)及時(shí)工作處理。成都營銷網(wǎng)站建設(shè)的優(yōu)勢(shì)是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動(dòng)調(diào)整齊齊哈爾建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì),從而大程度地提升瀏覽體驗(yàn)。創(chuàng)新互聯(lián)從事“齊齊哈爾網(wǎng)站設(shè)計(jì)”,“齊齊哈爾網(wǎng)站推廣”以來,每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。
hello,大家好。今天為大家?guī)淼氖侵胺窒磉^的requests庫與lxml庫的結(jié)合使用案例一:指定百度搜索的內(nèi)容并提取網(wǎng)頁的標(biāo)題內(nèi)容。好的,廢話不多說,直接上主菜。
下面我們來完成我們的第一步,分析我們的目標(biāo)。大家可千萬不要小看這一步哦,因?yàn)槲覀冎挥兴悸非逦拍茉谳^短的時(shí)間里面寫出漂亮的代碼。
首先,我們想要請(qǐng)求網(wǎng)頁,必須知道我們的url(即網(wǎng)址)是什么。下面,我打開Chrome(谷歌)瀏覽器,并且打開百度頁面,指定搜索“python”,得到下圖結(jié)果:
寫python程序,有時(shí)候很矛盾,是用面向?qū)ο竽??還是面向過程呢?其實(shí)都隨意(我比較隨意,因?yàn)闆]有人要求我必須使用什么寫),這里我采取面向?qū)ο蟮姆绞絹韺戇@個(gè)程序。
#文件一 import requests class MySpider(object): def __init__(self): self.url = 'http://www.baidu.com/s?wd={name}' #這里采用format的格式化輸入 self.headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36' } def main(self): #處理url self.target = input('請(qǐng)輸入你感興趣的內(nèi)容:') self.url = self.url.format(name=self.target) #重新構(gòu)建url,大家測(cè)試的時(shí)候可以嘗試打印 #請(qǐng)求 text = self.get() #寫入文件 self.write(text) def get(self): '''請(qǐng)求并返回網(wǎng)頁源代碼''' pass def write(self,text): '''將返回的源代碼寫入文件,等待之后解析用''' pass if __name__ == '__main__': spider = MySpider() spider.main()
這里有幾個(gè)原因。
1>我們寫代碼,一般來說都不可能一次寫成功,總是需要修改和測(cè)試的。平時(shí)我們寫代碼,自然可以隨意的測(cè)試運(yùn)行,都可以檢測(cè)代碼是否正確,但是爬蟲卻不能這樣。因?yàn)槿绻阍谳^短時(shí)間內(nèi)訪問了網(wǎng)站次數(shù)過多,可能會(huì)導(dǎo)致網(wǎng)站對(duì)你做出一些限制性舉動(dòng),比如:增加驗(yàn)證碼判斷你是否為人類,嚴(yán)重點(diǎn)的短時(shí)間內(nèi)封禁你的ip。因此,我們將網(wǎng)頁源代碼寫入文件,這樣在之后寫解析代碼的時(shí)候就不需要重新去訪問網(wǎng)站了。
2>我們以html的形式寫入文件,可以用瀏覽器打開這個(gè)文件,可以比較清晰的看出這個(gè)文件是否為我們需要爬取的文件。如下圖是我爬取后存入的文件以谷歌瀏覽器打開的結(jié)果:
下面我們來完成獲取頁面的程序代碼:
def get(self): '''請(qǐng)求并返回網(wǎng)頁源代碼''' response = requests.get(self.url,self.headers) if response.status_code == 200: return response.text
這個(gè)沒什么好說的,是最基礎(chǔ)的代碼。
def write(self,text): with open('%s.html'%self.target,'w',encoding='utf-8') as f: #這里的self.target為輸入搜索的內(nèi)容 f.write(text)
這個(gè)也只是文件的基本操作,沒什么好講解的地方,只是注意我們這里存入的為html文件,而不是txt文件。
這里檢測(cè)的方式我前面已經(jīng)提及,就是瀏覽器打開相應(yīng)的頁面即可。如下圖操作:
說明程序正常運(yùn)行。
from lxml import etree class Parse(object): def __init__(self): #讀取內(nèi)容并且初始化 with open('python.html','r',encoding='utf-8') as f: self.html = etree.HTML(f.read()) #解析頁面 def parse(self): pass if __name__ == '__main__': parser = Parse() parser.parse()
下面我們來完成最后一步,解析函數(shù)的敲寫。
首先我們需要分析下,我們想要獲取的內(nèi)容在什么標(biāo)簽里面。分析過程如圖(個(gè)人認(rèn)為這部分比較重要,因?yàn)槲页鯇W(xué)的時(shí)候主要困惑于兩點(diǎn):如何處理失敗的請(qǐng)求,解析的思路是什么)
好的,分析清楚了我們需要的內(nèi)容在哪里之后,可以使用lxml來寫代碼了,如下:
def parse(self): #獲取url h4_tags = self.html.xpath('//h4[contains(@class,"t")]//text()') h4_tags = [i.strip() for i in h4_tags] print(h4_tags)
下面要做的工作就是處理這些字符串,但是這個(gè)并不是我們的重點(diǎn),并且這些數(shù)據(jù)并不重要,所以就不處理了。
# -*- coding:utf-8 -*- #獲取網(wǎng)頁內(nèi)容文件 import requests class MySpider(object): def __init__(self): self.url = 'http://www.baidu.com/s?wd={name}' #寫清楚獲取headers途徑 self.headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36' } def main(self): #處理url self.target = input('請(qǐng)輸入你感興趣的內(nèi)容:') self.url = self.url.format(name=self.target) #請(qǐng)求 text = self.get() #寫入文件 # self.write(text) def get(self): '''請(qǐng)求并返回網(wǎng)頁源代碼''' response = requests.get(self.url,self.headers) if response.status_code == 200: return response.text def write(self,text): with open('%s.html'%self.target,'w',encoding='utf-8') as f: f.write(text) if __name__ == '__main__': spider = MySpider() spider.main()
# -*- coding:utf-8 -*- #解析頁面文件 from lxml import etree class Parse(object): def __init__(self): with open('python.html','r',encoding='utf-8') as f: self.html = etree.HTML(f.read()) def parse(self): #獲取標(biāo)題 h4_tags = self.html.xpath('//h4[contains(@class,"t")]//text()') h4_tags = [i.strip() for i in h4_tags] print(h4_tags) if __name__ == '__main__': parser = Parse() parser.parse()
好的,今天的分享就到此為止了。這是最基礎(chǔ)的案例,主要目的是讓大家先熟悉下,如何使用requests和lxml寫一個(gè)爬蟲程序,其次就是讓大家熟悉下分析網(wǎng)站的思路。
關(guān)于Python如何爬取指定百度搜索的內(nèi)容并提取網(wǎng)頁的標(biāo)題內(nèi)容問題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識(shí)。
當(dāng)前題目:Python如何爬取指定百度搜索的內(nèi)容并提取網(wǎng)頁的標(biāo)題內(nèi)容
URL標(biāo)題:http://jinyejixie.com/article14/joooge.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供Google、小程序開發(fā)、動(dòng)態(tài)網(wǎng)站、面包屑導(dǎo)航、、電子商務(wù)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)