Python爬蟲入門【9】：圖蟲網多線程爬取-創(chuàng)新互聯(lián)

圖蟲網-寫在前面

經歷了一頓噼里啪啦的操作之后，終于我把博客寫到了第10篇，后面，慢慢的會涉及到更多的爬蟲模塊，有人問scrapy 啥時候開始用，這個我預計要在30篇以后了吧，后面的套路依舊慢節(jié)奏的，所以莫著急了，100篇呢，預計4~5個月寫完，常見的反反爬后面也會寫的，還有fuck login類的內容。

成都創(chuàng)新互聯(lián)自2013年創(chuàng)立以來，先為鹿邑等服務建站，鹿邑等地企業(yè)，進行企業(yè)商務咨詢服務。為鹿邑企業(yè)網站制作PC+手機+微官網三網同步一站式服務解決您的所有建站問題。

Python爬蟲入門【9】：圖蟲網多線程爬取

圖蟲網-爬取圖蟲網

為什么要爬取這個網站，不知道哎~ 莫名奇妙的收到了，感覺圖片質量不錯，不是那些妖艷賤貨 可以比的，所以就開始爬了，搜了一下網上有人也在爬，但是基本都是py2，py3的還沒有人寫，所以順手寫一篇吧。

起始頁面

https://tuchong.com/explore/
這個頁面中有很多的標簽，每個標簽下面都有很多圖片，為了和諧，我選擇了一個非常好的標簽花卉 你可以選擇其他的，甚至，你可以把所有的都爬取下來。

https://tuchong.com/tags/%E8%8A%B1%E5%8D%89/  # 花卉編碼成了  %E8%8A%B1%E5%8D%89  這個無所謂

我們這次也玩點以前沒寫過的，使用python中的queue，也就是隊列

下面是我從別人那順來的一些解釋，基本爬蟲初期也就用到這么多

1. 初始化： class Queue.Queue(maxsize) FIFO 先進先出

2\. 包中的常用方法:

    - queue.qsize() 返回隊列的大小
    - queue.empty() 如果隊列為空，返回True,反之False
    - queue.full() 如果隊列滿了，返回True,反之False
    - queue.full 與 maxsize 大小對應
    - queue.get([block[, timeout]])獲取隊列，timeout等待時間

3. 創(chuàng)建一個“隊列”對象
    import queue
    myqueue = queue.Queue(maxsize = 10)

4. 將一個值放入隊列中
    myqueue.put(10)

5. 將一個值從隊列中取出
    myqueue.get()

開始編碼

首先我們先實現(xiàn)主要方法的框架，我依舊是把一些核心的點，都寫在注釋上面

def main():
    # 聲明一個隊列，使用循環(huán)在里面存入100個頁碼
    page_queue  = Queue(100)
    for i in range(1,101):
        page_queue.put(i)

    # 采集結果(等待下載的圖片地址)
    data_queue = Queue()

    # 記錄線程的列表
    thread_crawl = []
    # 每次開啟4個線程
    craw_list = ['采集線程1號','采集線程2號','采集線程3號','采集線程4號']
    for thread_name in craw_list:
        c_thread = ThreadCrawl(thread_name, page_queue, data_queue)
        c_thread.start()
        thread_crawl.append(c_thread)

    # 等待page_queue隊列為空，也就是等待之前的操作執(zhí)行完畢
    while not page_queue.empty():
        pass

if __name__ == '__main__':
    main()
Python資源分享qun 784758214 ,內有安裝包，PDF，學習視頻，這里是Python學習者的聚集地，零基礎，進階，都歡迎

代碼運行之后，成功啟動了4個線程，然后等待線程結束，這個地方注意，你需要把 ThreadCrawl 類補充完整

class ThreadCrawl(threading.Thread):

    def __init__(self, thread_name, page_queue, data_queue):
        # threading.Thread.__init__(self)
        # 調用父類初始化方法
        super(ThreadCrawl, self).__init__()
        self.threadName = thread_name
        self.page_queue = page_queue
        self.data_queue = data_queue

    def run(self):
        print(self.threadName + ' 啟動************')

運行結果

Python爬蟲入門【9】：圖蟲網多線程爬取

線程已經開啟，在run方法中，補充爬取數(shù)據(jù)的代碼就好了,這個地方引入一個全局變量，用來標識爬取狀態(tài)
CRAWL_EXIT = False

先在main方法中加入如下代碼

CRAWL_EXIT = False  # 這個變量聲明在這個位置
class ThreadCrawl(threading.Thread):

    def __init__(self, thread_name, page_queue, data_queue):
        # threading.Thread.__init__(self)
        # 調用父類初始化方法
        super(ThreadCrawl, self).__init__()
        self.threadName = thread_name
        self.page_queue = page_queue
        self.data_queue = data_queue

    def run(self):
        print(self.threadName + ' 啟動************')
        while not CRAWL_EXIT:
            try:
                global tag, url, headers,img_format  # 把全局的值拿過來
                # 隊列為空 產生異常
                page = self.page_queue.get(block=False)   # 從里面獲取值
                spider_url = url_format.format(tag,page,100)   # 拼接要爬取的URL
                print(spider_url)
            except:
                break

            timeout = 4   # 合格地方是嘗試獲取3次，3次都失敗，就跳出
            while timeout > 0:
                timeout -= 1
                try:
                    with requests.Session() as s:
                        response = s.get(spider_url, headers=headers, timeout=3)
                        json_data = response.json()
                        if json_data is not None:
                            imgs = json_data["postList"]
                            for i in imgs:
                                imgs = i["images"]
                                for img in imgs:
                                    img = img_format.format(img["user_id"],img["img_id"])
                                    self.data_queue.put(img)  # 捕獲到圖片鏈接，之后，存入一個新的隊列里面，等待下一步的操作

                    break

                except Exception as e:
                    print(e)

            if timeout <= 0:
                print('time out!')
def main():
    # 代碼在上面

    # 等待page_queue隊列為空，也就是等待之前的操作執(zhí)行完畢
    while not page_queue.empty():
        pass

    # 如果page_queue為空，采集線程退出循環(huán)
    global CRAWL_EXIT
    CRAWL_EXIT = True

    # 測試一下隊列里面是否有值
    print(data_queue)

經過測試，data_queue 里面有數(shù)據(jù)啦?。?，哈哈，下面在使用相同的操作，去下載圖片就好嘍

Python爬蟲入門【9】：圖蟲網多線程爬取

完善main方法

def main():
    # 代碼在上面

    for thread in thread_crawl:
        thread.join()
        print("抓取線程結束")

    thread_image = []
    image_list = ['下載線程1號', '下載線程2號', '下載線程3號', '下載線程4號']
    for thread_name in image_list:
        Ithread = ThreadDown(thread_name, data_queue)
        Ithread.start()
        thread_image.append(Ithread)

    while not data_queue.empty():
        pass

    global DOWN_EXIT
    DOWN_EXIT = True

    for thread in thread_image:
        thread.join()
        print("下載線程結束")

還是補充一個 ThreadDown 類，這個類就是用來下載圖片的。


class ThreadDown(threading.Thread):
    def __init__(self, thread_name, data_queue):
        super(ThreadDown, self).__init__()
        self.thread_name = thread_name
        self.data_queue = data_queue

    def run(self):
        print(self.thread_name + ' 啟動************')
        while not DOWN_EXIT:
            try:
                img_link = self.data_queue.get(block=False)
                self.write_image(img_link)
            except Exception as e:
                pass

    def write_image(self, url):

        with requests.Session() as s:
            response = s.get(url, timeout=3)
            img = response.content   # 獲取二進制流

        try:
            file = open('image/' + str(time.time())+'.jpg', 'wb')
            file.write(img)
            file.close()
            print('image/' + str(time.time())+'.jpg 圖片下載完畢')

        except Exception as e:
            print(e)
            return
Python資源分享qun 784758214 ,內有安裝包，PDF，學習視頻，這里是Python學習者的聚集地，零基礎，進階，都歡迎

運行之后,等待圖片下載就可以啦~~

Python爬蟲入門【9】：圖蟲網多線程爬取

關鍵注釋已經添加到代碼里面了,收圖吧 (????)，這次代碼回頭在上傳到github上因為比較簡單

Python爬蟲入門【9】：圖蟲網多線程爬取

當你把上面的花卉修改成比如xx啥的<sub>，就是天外飛仙了</sub>

另外有需要云服務器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn，海內外云服務器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應用場景需求。

文章名稱：Python爬蟲入門【9】：圖蟲網多線程爬取-創(chuàng)新互聯(lián)
轉載來源：http://jinyejixie.com/article2/hgdoc.html

成都網站建設公司_創(chuàng)新互聯(lián)，為您提供自適應網站、做網站、全網營銷推廣、外貿網站建設、網站改版、用戶體驗

聲明：本網站發(fā)布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內容

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

Python爬蟲入門【9】：圖蟲網多線程爬取-創(chuàng)新互聯(lián)

圖蟲網-寫在前面

圖蟲網-爬取圖蟲網

起始頁面

開始編碼