小白的python爬蟲，40代碼教你爬取豆瓣小說

這篇文章寫了很久了，一直沒有發(fā)布；
爬蟲學(xué)的差不多了，覺得這篇文章對(duì)新手實(shí)踐還是有些作用的。畢竟這也是我剛學(xué)爬蟲的時(shí)候練習(xí)的，爬取了比較好爬的網(wǎng)站，也比較經(jīng)典；多余的解釋不說了，代碼里每一行都有注釋，解釋的很清楚；
后續(xù)有時(shí)間的話還會(huì)發(fā)布一些爬蟲文章的；

10年積累的網(wǎng)站設(shè)計(jì)、成都網(wǎng)站設(shè)計(jì)經(jīng)驗(yàn)，可以快速應(yīng)對(duì)客戶對(duì)網(wǎng)站的新想法和需求。提供各種問題對(duì)應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識(shí)你，你也不認(rèn)識(shí)我。但先網(wǎng)站制作后付款的網(wǎng)站建設(shè)流程，更有西盟免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

=============================================

直接上代碼：

import requests
from bs4 import BeautifulSoup
from lxml import etree
#抓取豆瓣小說的 書名、評(píng)分；

page = 0            #定義頁(yè)數(shù)初始值；
lists_book = []     #定義書名列表；
lists_grade = []    #定義評(píng)分的列表；
for u in range(0,20):   #循環(huán)20次，每一次循環(huán)爬取一頁(yè)，即：抓取20頁(yè)；
    basic_url = 'https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=' + str(page) + '&type=T'
    page += 20      #每循環(huán)一次 +20，適應(yīng)鏈接變化；

    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
    }
    #發(fā)送請(qǐng)求
    response = requests.get(basic_url, headers=headers, timeout=10)     #requests請(qǐng)求；
    response.encoding = 'utf-8'     #設(shè)置編碼
    htm = response.text     #返回text文本；

    #解析請(qǐng)求
    selector = etree.HTML(htm)      #利用 etree.HTML 初始化
    book_name = selector.xpath('//*[@id="subject_list"]/ul/li/div[2]/h3/a/text()')  #獲取書名
    grade = selector.xpath('//*[@id="subject_list"]/ul/li/div[2]/div[2]/span[2]/text()')    #獲取評(píng)分；

    #將書名存入到lists_book列表；
    for i in book_name:
        lists_book.append(i.strip())     #去除字符串空格，存入列表；
        while '' in lists_book:      #如果列表中有空元素，則刪除空元素；
            lists_book.remove('')
    #將評(píng)分存入到lists_grade列表；
    for i in grade:
        lists_grade.append(i.strip())     #去除字符串空格，存入列表；
        while '' in lists_grade:      #如果列表中有空元素，則刪除空元素；
            lists_grade.remove('')

print(lists_book)           #輸出爬取的書名列表；
print(len(lists_book))      #輸出列表的長(zhǎng)度，即：爬取了多少本書
print(lists_grade)          #輸出評(píng)分的列表；
print(len(lists_grade))     #輸出評(píng)分列表的長(zhǎng)度；為了和書的數(shù)目核對(duì)，防止偏差；
print("評(píng)分最高: "+ str(max(lists_grade)) + "\n" + "書名: " + lists_book[lists_grade.index(max(lists_grade))])

運(yùn)行后結(jié)果輸出到了屏幕上，并沒有存入數(shù)據(jù)庫(kù)，后續(xù)需要也可以繼續(xù)添加代碼將爬取結(jié)果存入數(shù)據(jù)庫(kù)；

網(wǎng)頁(yè)題目：小白的python爬蟲，40代碼教你爬取豆瓣小說
標(biāo)題路徑：http://jinyejixie.com/article42/psiiec.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供服務(wù)器托管、網(wǎng)站導(dǎo)航、域名注冊(cè)、建站公司、網(wǎng)站設(shè)計(jì)、微信公眾號(hào)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

小白的python爬蟲，40代碼教你爬取豆瓣小說

=============================================

小白的python爬蟲，40代碼教你爬取豆瓣小說