成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

使用IP代理池和用戶代理池爬取糗事百科文章-創(chuàng)新互聯(lián)

簡單使用IP代理池和用戶代理池的爬蟲

成都創(chuàng)新互聯(lián)公司專注于綿陽企業(yè)網(wǎng)站建設(shè),響應(yīng)式網(wǎng)站,成都商城網(wǎng)站開發(fā)。綿陽網(wǎng)站建設(shè)公司,為綿陽等地區(qū)提供建站服務(wù)。全流程按需定制網(wǎng)站,專業(yè)設(shè)計,全程項目跟蹤,成都創(chuàng)新互聯(lián)公司專業(yè)和態(tài)度為您提供的服務(wù)
import re
import random
import urllib.request as urlreq
import urllib.error as urlerr

#用戶代理池
uapools = [
    "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.79 Safari/537.36 Edge/14.14393"
]
#ip代理池
ipools = []

#獲取用戶代理
def get_ua(uapools):
    thisua = random.choice(uapools)
    header = ("User-Agent", thisua)
    url_opener = urlreq.build_opener()
    url_opener.addheaders = [header]
    urlreq.install_opener(url_opener)

#獲取ip池,這里從西刺獲取首頁IP保存到列表中
def get_ipools(ipurl):
    get_ua(uapools)
    data = urlreq.urlopen(ipurl).read().decode("utf-8","ignore")
    pat = "/></td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>"
    ret = re.compile(pat, re.S).findall(data)
    # print(ret)
    for i in ret:
        ips = i[0] + ":" + i[1]
        ipools.append(ips)
    return ipools

#解析糗事百科的文章
def get_article(data):
    pat = '<div class="content">.*?<span>(.*?)</span>.*?</div>'
    rst = re.compile(pat, re.S).findall(data)
    print(rst)
    # down_file(rst, i)

def get_html(urlweb):
    for i in range(1, 6):     #爬取前五頁文章
        while 1:
            try:
                page = urlweb + str(i)
                thisua = random.choice(uapools)
                header = ("User-Agent", thisua)               #構(gòu)建用戶代理
                ip = random.choice(ipools)
                print("當(dāng)前使用的ip為" + ip)
                proxy = urlreq.ProxyHandler({"http": ip})   #構(gòu)建IP代理
                url_opener = urlreq.build_opener(proxy, urlreq.HTTPHandler)   #添加IP代理頭
                url_opener.addheaders = [header]                           #添加用戶代理頭
                urlreq.install_opener(url_opener)                             #設(shè)為全局變量
                data = urlreq.urlopen(page).read().decode("utf-8","ignore")
            except Exception as e:
                print(e)
                ipools.remove(ip)   #爬取失敗時,從IP池中刪除IP,重新爬取文章
                continue
            get_article(data)   #解析文章
            break                    #完成一頁的爬取

if __name__ == "__main__":
    ipurl = "https://www.xicidaili.com/nn/"
    ipools = get_ipools(ipurl)        #獲取ip池
    urlweb = "https://www.qiushibaike.com/text/page/"
    get_html(urlweb)

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

網(wǎng)站標(biāo)題:使用IP代理池和用戶代理池爬取糗事百科文章-創(chuàng)新互聯(lián)
網(wǎng)址分享:http://jinyejixie.com/article16/jijdg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站、網(wǎng)站維護(hù)、網(wǎng)站營銷、網(wǎng)站策劃、移動網(wǎng)站建設(shè)、虛擬主機(jī)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站建設(shè)網(wǎng)站維護(hù)公司