?Python爬蟲怎么實(shí)現(xiàn)url去重-創(chuàng)新互聯(lián)

這篇文章主要介紹“Python爬蟲怎么實(shí)現(xiàn)url去重”，在日常操作中，相信很多人在Python爬蟲怎么實(shí)現(xiàn)url去重問題上存在疑惑，小編查閱了各式資料，整理出簡(jiǎn)單好用的操作方法，希望對(duì)大家解答”Python爬蟲怎么實(shí)現(xiàn)url去重”的疑惑有所幫助！接下來，請(qǐng)跟著小編一起來學(xué)習(xí)吧！

專注于為中小企業(yè)提供網(wǎng)站設(shè)計(jì)、成都做網(wǎng)站服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)從江免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都，凝聚了一批互聯(lián)網(wǎng)行業(yè)人才，有力地推動(dòng)了上1000+企業(yè)的穩(wěn)健成長(zhǎng)，幫助中小企業(yè)通過網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。

一、前言

Python爬蟲里url去重策略及實(shí)現(xiàn)。

二、url去重及策略簡(jiǎn)介

1.url去重

????從字面上理解，url去重即去除重復(fù)的url,在爬蟲中就是去除已經(jīng)爬取過的url,避免重復(fù)爬取，既影響爬蟲效率，又產(chǎn)生冗余數(shù)據(jù)。

2.url去重策略

????從表面上看，url去重策略就是消除url重復(fù)的方法，常見的url去重策略有五種，如下：

1# 1.將訪問過的ur保存到數(shù)據(jù)庫中
2# 2.將訪問過的ur保存到set(集合)中,只需要o(1)的代價(jià)就可以查詢url
3#       10000000*2byte*50個(gè)字符/1024/1024/1024=9G
4# 3.url經(jīng)過md5等方法哈希后保存到set中
5# 4.用 bitmap方法,將訪問過的ur通過hash函數(shù)映射到某一位
6# 5. bloomfilter方法對(duì) bitmap進(jìn)行改進(jìn),多重hash函數(shù)降低沖突

三、看代碼，邊學(xué)邊敲邊記url去重策略

1.將訪問過的ur保存到數(shù)據(jù)庫中（初學(xué)使用）

實(shí)現(xiàn)起來最簡(jiǎn)單，但效率最低。
其核心思想是，把頁面上爬取到的每個(gè)url存儲(chǔ)到數(shù)據(jù)庫，為了避免重復(fù)，每次存儲(chǔ)前都要遍歷查詢數(shù)據(jù)庫中是否已經(jīng)存在當(dāng)前url（即是否已經(jīng)爬取過了）,若存在，則不保存，否則，保存當(dāng)前url,繼續(xù)保存下一條，直至結(jié)束。

2.將訪問過的ur保存到set內(nèi)存中

將訪問過的ur保存到set中,只需要o(1)的代價(jià)就可以查詢url，取url方便快速，基本不用查詢，但是隨著存儲(chǔ)的url越來越多，占用內(nèi)存會(huì)越來越大。

1# 簡(jiǎn)單計(jì)算：假設(shè)有1億條url,每個(gè)url平均長(zhǎng)度為50個(gè)字符，python里unicode編碼，每個(gè)字符16位，占2
2# 個(gè)字節(jié)（byte）
3# 計(jì)算式：10^8 x 50個(gè)字符 x 2個(gè)byte / 1024 / 1024 / 1024 = 9G
4#                                    B      M      G
5如果是2億個(gè)url,那么占用內(nèi)存將達(dá)18G，也不是特別方便，適合小型爬蟲。

3.url經(jīng)過md5縮減到固定長(zhǎng)度

 1'''

 2簡(jiǎn)單計(jì)算：一個(gè)url經(jīng)MD5轉(zhuǎn)換，變成一個(gè)128bit(位)的字符串，占16byte(字節(jié))，方法二中一個(gè)url保守

 3估計(jì)占50個(gè)字符 x 2 = 100byte(字節(jié))，

 4計(jì)算式： 這樣一比較，MD5的空間節(jié)省率為：（100-16）/100 = 84%（相比于方法二）

 5(Scrapy框架url去重就是采用的類似方法)

 6'''

 7# 維基百科看MD5算法

 8'''

 9MD5概述
10設(shè)計(jì)者 : 羅納德·李維斯特
11首次發(fā)布 : 1992年4月
12系列 : MD, MD2, MD3, MD4, MD5
13編碼長(zhǎng)度 : 128位
14結(jié)構(gòu) :　Merkle–Damg?rd construction
15    MD5消息摘要算法（英語：MD5 Message-Digest Algorithm），一種被廣泛使用的密碼散列函數(shù)，可
16以產(chǎn)生出一個(gè)128位（16字節(jié)）的散列值（hash value），用于確保信息傳輸完整一致。MD5由美國(guó)密碼學(xué)家
17羅納德·李維斯特（Ronald Linn Rivest）設(shè)計(jì)，于1992年公開，用以取代MD4算法。這套算法的程序在 
18RFC 1321 中被加以規(guī)范。
19將數(shù)據(jù)（如一段文字）運(yùn)算變?yōu)榱硪还潭ㄩL(zhǎng)度值，是散列算法的基礎(chǔ)原理。
20'''

MD5使用實(shí)例：

 1# 在python3中使用hashlib模塊進(jìn)行md5操作

 2import hashlib

 3

 4# 待加密信息

 5str01 = 'This is your md5 password!'

 6# 創(chuàng)建md5對(duì)象

 7md5_obj = hashlib.md5()

 8# 進(jìn)行MD5加密前必須 encode(編碼)，python里默認(rèn)是unicode編碼，必須轉(zhuǎn)換成utf-8

 9# 否則報(bào)錯(cuò)：TypeError: Unicode-objects must be encoded before hashing
10md5_obj.update(str01.encode(encoding='utf-8'))
11
12print('XksA的原話為 ：' + str01)
13print('MD5加密后為 ：' + md5_obj.hexdigest())
14
15# result?。?br/>16#        XksA的原話為 ：This is your md5 password!
17#        MD5加密后為 ：0a5f76e7b0f352e47fed559f904c9159

4.用 bitmap方法,將訪問過的ur通過hash函數(shù)映射到某一位

 1'''

 2實(shí)現(xiàn)原理：通過hash函數(shù)，將每個(gè)url映射到一個(gè)hash位置中，一個(gè)hash位可以只占用一個(gè)bit(位)大小，那

 3么相對(duì)于方法三：一個(gè)url占128bit(位)，hash函數(shù)法的空間節(jié)省成百倍增長(zhǎng)。

 4計(jì)算式：這樣一比較，bitmap方法的空間節(jié)省率為：

 5（128-1）/128= 99.2%(相比于方法三)

 6（100 * 8 - 1）/（100*8）= 99.88%（相比于方法一）

 7                       ##   (缺點(diǎn)：容易產(chǎn)生沖突)  ##

 8'''

 9# 維基百科看Hash 函數(shù)
10'''
11hash函數(shù)：
12散列函數(shù)（英語：Hash function）又稱散列算法、哈希函數(shù)，是一種從任何一種數(shù)據(jù)中創(chuàng)建小的數(shù)字“指紋”
13的方法。散列函數(shù)把消息或數(shù)據(jù)壓縮成摘要，使得數(shù)據(jù)量變小，將數(shù)據(jù)的格式固定下來。該函數(shù)將數(shù)據(jù)打亂混
14合，重新創(chuàng)建一個(gè)叫做散列值（hash values，hash codes，hash sums，或hashes）的指紋。散列值通常
15用一個(gè)短的隨機(jī)字母和數(shù)字組成的字符串來代表。好的散列函數(shù)在輸入域中很少出現(xiàn)散列沖突。在散列表和數(shù)
16據(jù)處理中，不抑制沖突來區(qū)別數(shù)據(jù)，會(huì)使得數(shù)據(jù)庫記錄更難找到。
17'''

5.bloomfilter方法對(duì) bitmap進(jìn)行改進(jìn),多重hash函數(shù)降低沖突

 1# 維基百科看Bloomfilter

 2'''

 3# 基本概述

 4   如果想判斷一個(gè)元素是不是在一個(gè)集合里，一般想到的是將集合中所有元素保存起來，然后通過比較確定。

 5鏈表、樹、散列表（又叫哈希表，Hash table）等等數(shù)據(jù)結(jié)構(gòu)都是這種思路。但是隨著集合中元素的增加，

 6我們需要的存儲(chǔ)空間越來越大。同時(shí)檢索速度也越來越慢，上述三種結(jié)構(gòu)的檢索時(shí)間復(fù)雜度分別為：

 7                            O(n),O(log n),O(n/k)

 8# 原理概述

 9   布隆過濾器的原理是，當(dāng)一個(gè)元素被加入集合時(shí)，通過K個(gè)散列函數(shù)將這個(gè)元素映射成一個(gè)位數(shù)組中的K個(gè)
10點(diǎn)，把它們置為1。檢索時(shí)，我們只要看看這些點(diǎn)是不是都是1就（大約）知道集合中有沒有它了：如果這些點(diǎn)
11有任何一個(gè)0，則被檢元素一定不在；如果都是1，則被檢元素很可能在。這就是布隆過濾器的基本思想。
12# 優(yōu)缺點(diǎn)
13    布隆過濾器可以用于檢索一個(gè)元素是否在一個(gè)集合中。
14    優(yōu)點(diǎn)是空間效率和查詢時(shí)間都遠(yuǎn)遠(yuǎn)超過一般的算法。
15    缺點(diǎn)是有一定的誤識(shí)別率和刪除困難。
16'''
17# Bloomfilter介紹還可以看這里：https://blog.csdn.net/preyta/article/details/72804148

Bloomfilter底層實(shí)現(xiàn)：

 1# 源碼地址：https://github.com/preytaren/fastbloom/blob/master/fastbloom/bloomfilter.py

 2import math

 3import logging

 4import functools

 5

 6import pyhash

 7

 8from bitset import MmapBitSet

 9from hash_tools import hashes
10
11
12class BloomFilter(object):
13    """
14    A bloom filter implementation,
15    which use Murmur hash and Spooky hash
16    """
17    def __init__(self, capacity, error_rate=0.0001, fname=None,
18                 h2=pyhash.murmur3_x64_128(), h3=pyhash.spooky_128()):
19        """
20        :param capacity: size of possible input elements
21        :param error_rate: posi
22        :param fname:
23        :param h2:
24        :param h3:
25        """
26        # calculate m & k
27        self.capacity = capacity
28        self.error_rate = error_rate
29        self.num_of_bits, self.num_of_hashes = self._adjust_param(4096 * 8,
30                                                                  error_rate)
31        self._fname = fname
32        self._data_store = MmapBitSet(self.num_of_bits)
33        self._size = len(self._data_store)
34        self._hashes = functools.partial(hashes, h2=h2, h3=h3, number=self.num_of_hashes)
35
36    def _adjust_param(self, bits_size, expected_error_rate):
37        """
38        adjust k & m through 4 steps:
39        1. Choose a ballpark value for n
40        2. Choose a value for m
41        3. Calculate the optimal value of k
42        4. Calculate the error rate for our chosen values of n, m, and k.
43           If it's unacceptable, return to step 2 and change m;
44           otherwise we're done.
45        in every loop, m = m * 2
46        :param bits_size:
47        :param expected_error_rate:
48        :return:
49        """
50        n, estimated_m, estimated_k, error_rate = self.capacity, int(bits_size / 2), None, 1
51        weight, e = math.log(2), math.exp(1)
52        while error_rate > expected_error_rate:
53            estimated_m *= 2
54            estimated_k = int((float(estimated_m) / n) * weight) + 1
55            error_rate = (1 - math.exp(- (estimated_k * n) / estimated_m)) ** estimated_k
56            logging.info(estimated_m, estimated_k, error_rate)
57        return estimated_m, estimated_k
58
59    def add(self, msg):
60        """
61        add a string to bloomfilter
62        :param msg:
63        :return:
64        """
65        if not isinstance(msg, str):
66            msg = str(msg)
67        positions = []
68        for _hash_value in self._hashes(msg):
69            positions.append(_hash_value % self.num_of_bits)
70        for pos in sorted(positions):
71            self._data_store.set(int(pos))
72
73    @staticmethod
74    def open(self, fname):
75        with open(fname) as fp:
76            raise NotImplementedError
77
78    def __str__(self):
79        """
80        output bitset directly
81        :return:
82        """
83        pass
84
85    def __contains__(self, msg):
86        if not isinstance(msg, str):
87            msg = str(msg)
88        positions = []
89        for _hash_value in self._hashes(msg):
90            positions.append(_hash_value % self.num_of_bits)
91        for position in sorted(positions):
92            if not self._data_store.test(position):
93                return False
94        return True
95
96    def __len__(self):
97        return self._size

到此，關(guān)于“Python爬蟲怎么實(shí)現(xiàn)url去重”的學(xué)習(xí)就結(jié)束了，希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí)，快去試試吧！若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí)，請(qǐng)繼續(xù)關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司網(wǎng)站，小編會(huì)繼續(xù)努力為大家?guī)砀鄬?shí)用的文章！

當(dāng)前名稱：?Python爬蟲怎么實(shí)現(xiàn)url去重-創(chuàng)新互聯(lián)
分享地址：http://jinyejixie.com/article14/dijhge.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供軟件開發(fā)、自適應(yīng)網(wǎng)站、建站公司、標(biāo)簽優(yōu)化、定制開發(fā)、網(wǎng)站收錄

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

?Python爬蟲怎么實(shí)現(xiàn)url去重-創(chuàng)新互聯(lián)

一、前言

二、url去重及策略簡(jiǎn)介

1.url去重

2.url去重策略

三、看代碼，邊學(xué)邊敲邊記url去重策略

一、前言

二、url去重及策略簡(jiǎn)介

三、看代碼，邊學(xué)邊敲邊記url去重策略