搜索引擎蜘蛛在您網(wǎng)站的爬去方式

2023-12-20 分類：網(wǎng)站建設(shè)

搜索引擎蜘蛛每天是怎么樣去爬取我們的網(wǎng)的呢？你是否應(yīng)該有些考慮了？試著對自己的網(wǎng)站進(jìn)行改變了？以下的一些原因說明了搜索引擎的更新是有規(guī)律以及有章法進(jìn)行的，要想更能適應(yīng)搜索引擎的更新原則和蜘蛛爬取原則，我們就應(yīng)該從更基礎(chǔ)的入手去進(jìn)行全面的分析和總結(jié)。

第一、寬度優(yōu)化遍歷策略

寬度優(yōu)化遍歷是一種非常簡單直觀且歷史很悠久的遍歷方法，在搜索引擎爬蟲一出現(xiàn)就開始采用了。新提出的抓取策略往

往會將這種方法作為比較基準(zhǔn)，但應(yīng)該注意到的是，這種策略也是一種相當(dāng)強(qiáng)悍的方法，很多新方法實際效果不見昨比寬

度優(yōu)化遍歷策略好，所以至今這種方法也是很多實際爬蟲系統(tǒng)優(yōu)先采用的爬取策略。網(wǎng)頁爬取順序基本是按照網(wǎng)頁的重要

性排序的。之所以如此，有研究人員認(rèn)為，如果某個網(wǎng)頁包含很多入鏈，那么更有可能被寬度優(yōu)化遍歷策略早早爬到，而

入鏈這個數(shù)從側(cè)面體現(xiàn)了網(wǎng)頁的重要性，即實際上寬度優(yōu)化遍歷策略隱含了一些網(wǎng)頁優(yōu)化級假設(shè)。

第二、非完全pagerank策略

PageRank是一種著名的鏈接分析算法，可以用來衡量網(wǎng)頁的重要性。很自然地，可以想到用PageRank的思想來對URL優(yōu)化

級進(jìn)行排序。但是這里有個問題，PageRank是個全局性算法，也就是說當(dāng)所有網(wǎng)頁下載完成后，其計算結(jié)果才是可靠的，

而爬蟲的目的就是去下載網(wǎng)頁，在運行過程中只能看到一部分頁面，所以在爬取階段的網(wǎng)頁是無法獲得可靠的PageRank得

分的。對于已經(jīng)下載的網(wǎng)頁，加上待爬取的URL隊列中的一URL一起，形成網(wǎng)頁集合，在此集合內(nèi)進(jìn)行PageRank計算，計算

完成之后，將待爬取URL隊列里的網(wǎng)頁按照按照PageRank得分由高低排序，形成的序列就是爬蟲接下來應(yīng)該依次爬取的URL

列表。這也是為何稱之為“非完全PageRank”的原因，。

第三、OPIC策略( Online Page Importance Computation)

OPIC的字面含義是“在線頁面重要性計算”，可以將其看做是一種改進(jìn)的PageRank算法。在算法開始之前，每個互聯(lián)網(wǎng)頁

面都給予相同的現(xiàn)金，每當(dāng)下載了某個頁面P后，P就將自己擁有的現(xiàn)金平均分配給頁面中包含的鏈接頁面，氫自己的現(xiàn)金

清空。而對于待爬取URL隊列中的網(wǎng)頁，則根據(jù)其手頭擁有的現(xiàn)金金額多少排序，優(yōu)先下載現(xiàn)金最充裕的網(wǎng)頁，OPIC從大

的框架上與PageRank思路基本一致，區(qū)別在于：PageRank每次需要迭代計算，而OPIC策略不需要迭代過程。所以計算速度

遠(yuǎn)遠(yuǎn)快與PageRank，適合實時計算使用。同時，PageRank，在計算時，存在向無鏈接關(guān)系網(wǎng)頁的遠(yuǎn)程跳轉(zhuǎn)過程，而OPIC

沒有這一計算因子。實驗結(jié)果表明，OPIC是較好的重要性衡量策略，效果略優(yōu)于寬度優(yōu)化遍歷策略。

第四、大站優(yōu)化策略

大部優(yōu)化策略思路很直接：以網(wǎng)站為單位來選題網(wǎng)頁重要性，對于待爬取URL隊列中的網(wǎng)頁根據(jù)所屬網(wǎng)站歸類，如果哪個

網(wǎng)站等待下載的頁面最多，則優(yōu)化先下載這些鏈接，其本質(zhì)思想傾向于優(yōu)先下載大型網(wǎng)站。因為大型網(wǎng)站往往包含更多的

頁面。鑒于大型網(wǎng)站往往是著名企業(yè)的內(nèi)容，其網(wǎng)頁質(zhì)量一般較高，所以這個思路雖然簡單，但是有一定依據(jù)。實驗表明

這個算法效果也要略優(yōu)先于寬度優(yōu)先遍歷策略。

第五、網(wǎng)頁更新策略

互聯(lián)網(wǎng)的動態(tài)是其顯著特征，隨時都有新出現(xiàn)的頁面，頁面的內(nèi)容被更改或者本來存在的頁面刪除。對于爬蟲來說，并非

將網(wǎng)頁抓取到本地就算完成任務(wù)，也要體現(xiàn)出互聯(lián)網(wǎng)這種動態(tài)性。本地下載的網(wǎng)頁可被看做是互聯(lián)網(wǎng)頁的鏡像，爬蟲要盡

可能保證其一致性?？梢约僭O(shè)一種情況：某個網(wǎng)頁已被刪除或者內(nèi)容做出重大變動，而搜索引擎對此惘然無知，仍然按

其舊有內(nèi)容排序，將其作為搜索結(jié)果提供給用記，其用戶體驗度之糟糕不言而喻。所以對于已經(jīng)爬取的網(wǎng)頁，爬蟲還要負(fù)

責(zé)保持其內(nèi)容和互聯(lián)網(wǎng)頁面內(nèi)容的同步，這取決于爬蟲所彩用的網(wǎng)頁更新策略。網(wǎng)頁更新策略的任務(wù)是要決定何時重新爬

取之前已經(jīng)下載過和網(wǎng)頁，以盡可能使得本地下載網(wǎng)頁和互聯(lián)網(wǎng)原始頁面內(nèi)容保持一致。常用的網(wǎng)頁更新策略有三種：歷

史參考策略，用戶體驗度策略和聚類抽樣策略。

（1）什么是歷史參考策略？

歷史參考策略是最直觀的一種更新策略，它建立于如下假設(shè)之上：過去頻繁更新的網(wǎng)頁，那么將來也會頻繁更新，所以為

了預(yù)估某個網(wǎng)頁何時進(jìn)行更新，可以通過參考其歷史更新情況來做出決定。

從這一點可以看出，我們網(wǎng)站的更新一定要有規(guī)律的進(jìn)行，這樣才能讓搜索引擎蜘蛛更好的來關(guān)注你的網(wǎng)站，把握你的網(wǎng)

站，很多人在更新網(wǎng)站的時候，不知道為什么要做規(guī)律性的更新，這就是真正存在的原因。

（2）什么是用戶體驗度策略？

這個很明顯，大家都知道。一般來說，搜索引擎用戶提交查詢結(jié)果后，相關(guān)的搜索結(jié)果可能成千上萬，而用戶沒有耐心去

查看排在后面的搜索結(jié)果，往往只盾前三頁搜索內(nèi)容，用戶體驗策略就是利用搜索引擎用戶的這個特點來設(shè)計更新策略的

。

（3）聚類抽樣策略

上面介紹的兩種網(wǎng)頁更新策略嚴(yán)重依賴網(wǎng)頁的歷史更新信息，因為這是能夠進(jìn)行后續(xù)計算的基礎(chǔ)。但在現(xiàn)實中為每個網(wǎng)頁

保存歷史信息，搜索系統(tǒng)會增加額外的負(fù)擔(dān)。從另外一個角度考慮，如果是首次爬取的網(wǎng)頁，因為沒有歷史信息，所以

也就無法按照這兩種思路去預(yù)估其更新周期，聚類抽樣，策略即是為了解決上述缺點而提出的。網(wǎng)頁一般具有一些屬性，

根據(jù)這些屬性可以預(yù)測其更新周期，具有相信屬性的網(wǎng)頁，其更新周期也是類似的。

本文來自于成都網(wǎng)站建設(shè)與成都網(wǎng)站設(shè)計公司-創(chuàng)新互聯(lián)公司

網(wǎng)站題目：搜索引擎蜘蛛在您網(wǎng)站的爬去方式
文章鏈接：http://jinyejixie.com/news23/309473.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供關(guān)鍵詞優(yōu)化、標(biāo)簽優(yōu)化、全網(wǎng)營銷推廣、虛擬主機(jī)、定制網(wǎng)站、網(wǎng)站維護(hù)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

搭建外貿(mào)獨立網(wǎng)站固然好不會全球推廣依然打水漂！ 2023-12-20
成都外語網(wǎng)站的建立我們需要注意哪些事項？ 2023-12-20
如何進(jìn)行反向圖像搜索？ 2023-12-20
網(wǎng)站優(yōu)化可以帶來哪些價值？ 2023-12-20
美國服務(wù)器機(jī)房的發(fā)展 2023-12-20
如何判斷關(guān)鍵詞競爭度 2023-12-20
什么時候應(yīng)該切換到專用主機(jī)？專用托管在提高電子商務(wù)銷售中的作用 2023-12-20

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

搜索引擎蜘蛛在您網(wǎng)站的爬去方式