使用python爬取百度貼吧的案例?這個問題可能是我們?nèi)粘W(xué)習(xí)或工作經(jīng)常見到的。希望通過這個問題能讓你收獲頗深。下面是小編給大家?guī)淼膮⒖純?nèi)容,讓我們一起來看看吧!
成都網(wǎng)站設(shè)計、做網(wǎng)站、成都外貿(mào)網(wǎng)站建設(shè)公司的開發(fā),更需要了解用戶,從用戶角度來建設(shè)網(wǎng)站,獲得較好的用戶體驗。成都創(chuàng)新互聯(lián)公司多年互聯(lián)網(wǎng)經(jīng)驗,見的多,溝通容易、能幫助客戶提出的運營建議。作為成都一家網(wǎng)絡(luò)公司,打造的就是網(wǎng)站建設(shè)產(chǎn)品直銷的概念。選擇成都創(chuàng)新互聯(lián)公司,不只是建站,我們把建站作為產(chǎn)品,不斷的更新、完善,讓每位來訪用戶感受到浩方產(chǎn)品的價值服務(wù)。寫在最前面:
我們用 urllib 爬取頁面,再用BeautifulSoup提取有用信息,最后用 xlsxwriter 把獲取的信息 寫入到excel表。
一、技術(shù)列表
python 基礎(chǔ)
xlsxwriter 用來寫入excel文件的
urllib——python內(nèi)置爬蟲工具
BeautifulSoup解析提取數(shù)據(jù)
二、找到目標(biāo)頁面
https://tieba.baidu.com/f?kw=%E6%97%85%E6%B8%B8&ie=utf-8&pn=0
三、輸出結(jié)果
四、安裝必要的庫
win+R 打開運行
輸出cmd 進入控制臺
分別安裝beautifulsoup4,lxml,xlsxwriter
pip install lxml
pip install beautifulsoup4
pip install xlsxwriter
五、分析頁面
1. 頁面規(guī)律
我們單擊分頁按鈕,拿到頁面最后一個參數(shù)的規(guī)律
第二頁:https://tieba.baidu.com/f?kw=旅游&ie=utf-8&pn= 50
第三頁:https://tieba.baidu.com/f?kw=旅游&ie=utf-8&pn= 100
第四頁:https://tieba.baidu.com/f?kw=旅游&ie=utf-8&pn= 150
2. 頁面信息
旅游信息列表打開網(wǎng)頁https://tieba.baidu.com/f?kw=旅游&ie=utf-8&pn= 50按鍵盤F12鍵或者 鼠標(biāo)右鍵"檢查元素"(我用的谷歌chrome瀏覽器)
發(fā)現(xiàn)所有旅游列表都有個共同的class類名j_thread_list
作者與創(chuàng)建時間
作者的class為frs-author-name
創(chuàng)建時間的class為is_show_create_time
標(biāo)題
標(biāo)題的class為j_th_tit
六、全部代碼
import xlsxwriter
# 用來寫入excel文件的
import urllib.parse
# URL編碼格式轉(zhuǎn)換的
import urllib.request
# 發(fā)起http請求的
from bs4 import BeautifulSoup
# css方法解析提取信息
url='https://tieba.baidu.com/f?kw='+urllib.parse.quote('旅游')+'&ie=utf-8&pn='
# 百度貼吧旅游信息
# parse.quote("旅游") # 結(jié)果為%E6%97%85%E6%B8%B8
herders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36', 'Referer':'https://tieba.baidu.com/','Connection':'keep-alive'}
# 請求頭信息
data = []
# 所有爬蟲的數(shù)據(jù)都存放到 這個data列表里面
"""
getList 獲取分頁中的列表信息
url 分頁地址
"""
def getList(url):
req = urllib.request.Request(url,headers=herders)
# 設(shè)置請求頭
response=urllib.request.urlopen(req)
# 發(fā)起請求得到 響應(yīng)結(jié)果response
htmlText = response.read().decode("utf-8").replace("<!--","").replace("-->","")
# htmlText = 響應(yīng)結(jié)果read讀取.decode 轉(zhuǎn)換為utf文本.replace 替換掉html中的注釋
# 我們需要的結(jié)果在注釋中,所以要先替換掉注釋標(biāo)簽 <!-- -->
html = BeautifulSoup(htmlText,"lxml")
# 創(chuàng)建beautifulSoup對象
thread_list=html.select(".j_thread_list")
# 獲取到所有的旅游類別
# 遍歷旅游列表
for thread in thread_list:
title = thread.select(".j_th_tit")[0].get_text()
author = thread.select(".frs-author-name")[0].get_text()
time= thread.select(".is_show_create_time")[0].get_text()
# 提取標(biāo)題,作者,事件
print(title) # 打印標(biāo)簽
data.append([title,author,time])
# 追加到總數(shù)據(jù)中
"""
獲取到所有的分頁地址,大5頁
url 頁面地址
p=5 最多5頁
"""
def getPage(url,p=5):
for i in range(5):
link = url+str(i*50)
# 再一次拼接 第1頁0 第2頁50 第3頁100 第4頁150
getList(link)
# 執(zhí)行獲取頁面函數(shù)getList
"""
寫入excel文件
data 被寫入的數(shù)據(jù)
"""
def writeExecl(data):
lens = len(data)
# 獲取頁面的長度
workbook = xlsxwriter.Workbook('travel.xlsx')
# 創(chuàng)建一個excel文件
sheet = workbook.add_worksheet()
# 添加一張工作表
sheet.write_row("A1",["標(biāo)題","作者","時間"])
# 寫入一行標(biāo)題
for i in range(2, lens + 2):
sheet.write_row("A"+str(i),data[i - 2])
# 遍歷data 寫入行數(shù)據(jù)到excel
workbook.close()
# 關(guān)閉excel文件
print("xlsx格式表格寫入數(shù)據(jù)成功!")
"""
定義主函數(shù)
"""
def main():
getPage(url,5) #獲取分頁
writeExecl(data) #寫入數(shù)據(jù)到excel
# 如果到模塊的名字是__main__ 執(zhí)行main主函數(shù)
if __name__ == '__main__':
main()
七、單詞表
main 主要的
def (define) 定義
getPage 獲取頁面
writeExcel 寫入excel
workbook 工作簿
sheet 表
write_row 寫入行
add 添加
close 關(guān)閉
len length長度
data 數(shù)據(jù)
range 范圍
str (string)字符串
append 追加
author 作者
select 選擇
Beautiful 美麗
Soup 糖
herders 頭信息
response 響應(yīng)
read 讀
decode 編碼
Request 請求
parse 解析
quote 引用
感謝各位的閱讀!看完上述內(nèi)容,你們對使用python爬取百度貼吧的案例大概了解了嗎?希望文章內(nèi)容對大家有所幫助。如果想了解更多相關(guān)文章內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道。
當(dāng)前標(biāo)題:使用python爬取百度貼吧的案例-創(chuàng)新互聯(lián)
標(biāo)題路徑:http://jinyejixie.com/article14/djeede.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供手機網(wǎng)站建設(shè)、品牌網(wǎng)站設(shè)計、做網(wǎng)站、定制網(wǎng)站、網(wǎng)站導(dǎo)航、營銷型網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容