使用python爬取百度貼吧的案例-創(chuàng)新互聯(lián)

使用python爬取百度貼吧的案例？這個問題可能是我們?nèi)粘W(xué)習(xí)或工作經(jīng)常見到的。希望通過這個問題能讓你收獲頗深。下面是小編給大家?guī)淼膮⒖純?nèi)容，讓我們一起來看看吧！

成都網(wǎng)站設(shè)計、做網(wǎng)站、成都外貿(mào)網(wǎng)站建設(shè)公司的開發(fā)，更需要了解用戶，從用戶角度來建設(shè)網(wǎng)站，獲得較好的用戶體驗。成都創(chuàng)新互聯(lián)公司多年互聯(lián)網(wǎng)經(jīng)驗，見的多，溝通容易、能幫助客戶提出的運營建議。作為成都一家網(wǎng)絡(luò)公司，打造的就是網(wǎng)站建設(shè)產(chǎn)品直銷的概念。選擇成都創(chuàng)新互聯(lián)公司，不只是建站，我們把建站作為產(chǎn)品，不斷的更新、完善，讓每位來訪用戶感受到浩方產(chǎn)品的價值服務(wù)。

寫在最前面：

我們用 urllib 爬取頁面，再用BeautifulSoup提取有用信息，最后用 xlsxwriter 把獲取的信息寫入到excel表。

一、技術(shù)列表

python 基礎(chǔ)
xlsxwriter 用來寫入excel文件的
urllib——python內(nèi)置爬蟲工具
BeautifulSoup解析提取數(shù)據(jù)

二、找到目標(biāo)頁面

https://tieba.baidu.com/f?kw=%E6%97%85%E6%B8%B8&ie=utf-8&pn=0

使用python爬取百度貼吧的案例

三、輸出結(jié)果

使用python爬取百度貼吧的案例

四、安裝必要的庫

win+R 打開運行
輸出cmd 進入控制臺
分別安裝beautifulsoup4,lxml,xlsxwriter

pip install   lxml
pip install   beautifulsoup4
pip install   xlsxwriter

五、分析頁面

1. 頁面規(guī)律

我們單擊分頁按鈕，拿到頁面最后一個參數(shù)的規(guī)律

第二頁：https://tieba.baidu.com/f?kw=旅游&ie=utf-8&pn= 50
第三頁：https://tieba.baidu.com/f?kw=旅游&ie=utf-8&pn= 100
第四頁：https://tieba.baidu.com/f?kw=旅游&ie=utf-8&pn= 150

使用python爬取百度貼吧的案例

2. 頁面信息

旅游信息列表打開網(wǎng)頁https://tieba.baidu.com/f?kw=旅游&ie=utf-8&pn= 50按鍵盤F12鍵或者鼠標(biāo)右鍵"檢查元素"（我用的谷歌chrome瀏覽器）

發(fā)現(xiàn)所有旅游列表都有個共同的class類名j_thread_list

使用python爬取百度貼吧的案例

作者與創(chuàng)建時間

作者的class為frs-author-name

創(chuàng)建時間的class為is_show_create_time

使用python爬取百度貼吧的案例

標(biāo)題

標(biāo)題的class為j_th_tit

使用python爬取百度貼吧的案例

六、全部代碼

import xlsxwriter
# 用來寫入excel文件的
import urllib.parse
# URL編碼格式轉(zhuǎn)換的
import urllib.request
# 發(fā)起http請求的
from bs4 import BeautifulSoup
# css方法解析提取信息

url='https://tieba.baidu.com/f?kw='+urllib.parse.quote('旅游')+'&ie=utf-8&pn='
# 百度貼吧旅游信息
# parse.quote("旅游") # 結(jié)果為%E6%97%85%E6%B8%B8

herders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36', 'Referer':'https://tieba.baidu.com/','Connection':'keep-alive'}
# 請求頭信息

data = []
# 所有爬蟲的數(shù)據(jù)都存放到 這個data列表里面

"""
getList 獲取分頁中的列表信息
url   分頁地址
"""
def getList(url):

    req = urllib.request.Request(url,headers=herders)
    # 設(shè)置請求頭
    response=urllib.request.urlopen(req)
    # 發(fā)起請求得到 響應(yīng)結(jié)果response

    htmlText = response.read().decode("utf-8").replace("<!--","").replace("-->","")
    # htmlText = 響應(yīng)結(jié)果read讀取.decode 轉(zhuǎn)換為utf文本.replace 替換掉html中的注釋
    # 我們需要的結(jié)果在注釋中，所以要先替換掉注釋標(biāo)簽 <!-- -->

    html = BeautifulSoup(htmlText,"lxml")
    # 創(chuàng)建beautifulSoup對象

    thread_list=html.select(".j_thread_list")
    # 獲取到所有的旅游類別


    # 遍歷旅游列表
    for thread in thread_list:
        title = thread.select(".j_th_tit")[0].get_text()
        author = thread.select(".frs-author-name")[0].get_text()
        time= thread.select(".is_show_create_time")[0].get_text()
        # 提取標(biāo)題，作者，事件
        print(title) # 打印標(biāo)簽
        data.append([title,author,time])
        # 追加到總數(shù)據(jù)中

"""
獲取到所有的分頁地址，大5頁
url 頁面地址
p=5 最多5頁
"""
def getPage(url,p=5):
    for i in range(5):
        link = url+str(i*50)
        # 再一次拼接 第1頁0  第2頁50 第3頁100 第4頁150
        getList(link)
        # 執(zhí)行獲取頁面函數(shù)getList

"""
寫入excel文件
data 被寫入的數(shù)據(jù)
"""
def writeExecl(data):
    lens = len(data)
    # 獲取頁面的長度
    workbook = xlsxwriter.Workbook('travel.xlsx')
    # 創(chuàng)建一個excel文件
    sheet = workbook.add_worksheet()
    # 添加一張工作表
    sheet.write_row("A1",["標(biāo)題","作者","時間"])
    # 寫入一行標(biāo)題
    for i in range(2, lens + 2):
        sheet.write_row("A"+str(i),data[i - 2])
    # 遍歷data 寫入行數(shù)據(jù)到excel
    workbook.close()
    # 關(guān)閉excel文件
    print("xlsx格式表格寫入數(shù)據(jù)成功！")

"""
定義主函數(shù)
"""
def main():
    getPage(url,5) #獲取分頁
    writeExecl(data) #寫入數(shù)據(jù)到excel

# 如果到模塊的名字是__main__ 執(zhí)行main主函數(shù)
if __name__ == '__main__':
    main()

七、單詞表

main        主要的
def         (define) 定義
getPage     獲取頁面
writeExcel  寫入excel
workbook    工作簿
sheet       表
write_row   寫入行
add         添加
close       關(guān)閉
len         length長度
data        數(shù)據(jù)
range       范圍
str         （string）字符串
append      追加
author      作者
select      選擇
Beautiful   美麗
Soup        糖
herders     頭信息
response    響應(yīng)
read        讀
decode      編碼
Request     請求
parse       解析
quote       引用

感謝各位的閱讀！看完上述內(nèi)容，你們對使用python爬取百度貼吧的案例大概了解了嗎？希望文章內(nèi)容對大家有所幫助。如果想了解更多相關(guān)文章內(nèi)容，歡迎關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道。

當(dāng)前標(biāo)題：使用python爬取百度貼吧的案例-創(chuàng)新互聯(lián)
標(biāo)題路徑：http://jinyejixie.com/article14/djeede.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供手機網(wǎng)站建設(shè)、品牌網(wǎng)站設(shè)計、做網(wǎng)站、定制網(wǎng)站、網(wǎng)站導(dǎo)航、營銷型網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

使用python爬取百度貼吧的案例-創(chuàng)新互聯(lián)