2023-05-01 分類: 網(wǎng)站建設(shè)
搜索引擎處理大量的網(wǎng)頁(yè)。一方面,為了節(jié)省帶寬、計(jì)算和存儲(chǔ)資源,另一方面,為了滿足用戶的搜索需求,使用有限的資源來(lái)捕獲最有價(jià)值的網(wǎng)頁(yè),因此搜索引擎在處理大量網(wǎng)頁(yè)時(shí)會(huì)有一定的策略。本文簡(jiǎn)要介紹了網(wǎng)絡(luò)爬行的主要策略,如廣度優(yōu)先、深度遍歷策略、非重復(fù)爬行策略、大站點(diǎn)優(yōu)先策略、不完全pagerank策略、OCIP策略、協(xié)同爬行策略。
深度優(yōu)先,深度優(yōu)先的遍歷策略;廣度優(yōu)先的原因是重要的網(wǎng)頁(yè)往往接近種子網(wǎng)站;萬(wàn)維網(wǎng)的深度沒(méi)有我們預(yù)期的那么深,而是出乎意料的深(中國(guó)萬(wàn)維網(wǎng)只有17個(gè)直徑和長(zhǎng)度,即在任意兩個(gè)網(wǎng)頁(yè)之間可以訪問(wèn)17次);多履帶協(xié)同抓取深度優(yōu)先的不利結(jié)果:容易使履帶陷入死區(qū),不應(yīng)重復(fù)抓??;不應(yīng)抓住機(jī)會(huì);
解決上述兩個(gè)缺點(diǎn)的方法是深度優(yōu)先抓取和非重復(fù)抓取策略;防止履帶從無(wú)限期地以寬度優(yōu)先抓取,必須在一定的深度抓取。達(dá)到此深度即萬(wàn)維網(wǎng)的直徑和長(zhǎng)度后,限制程度并停止抓取。當(dāng)爬行停止在大深度時(shí),那些太深而沒(méi)有爬行的頁(yè)面總是期望從其他種子站點(diǎn)更經(jīng)濟(jì)地到達(dá)。
限制抓取深度會(huì)破壞死循環(huán)的條件,即使循環(huán)發(fā)生,也會(huì)在有限的次數(shù)后停止。評(píng)價(jià):寬度優(yōu)先、深度優(yōu)先的遍歷策略可以有效地保證爬行過(guò)程的緊密性,即在爬行過(guò)程(遍歷路徑)中,總是對(duì)同一域名下的網(wǎng)頁(yè)進(jìn)行爬行,而對(duì)其他域名下的網(wǎng)頁(yè)則很少。
無(wú)重復(fù)抓取策略保證了一個(gè)變化不大的網(wǎng)頁(yè)只能被抓取一次,防止重復(fù)抓取占用大量的CPU和帶寬資源,從而集中有限的資源區(qū)域來(lái)抓取更重要、更高質(zhì)量的網(wǎng)頁(yè)。Larser網(wǎng)站優(yōu)先通常是大型網(wǎng)站的高質(zhì)量?jī)?nèi)容,網(wǎng)頁(yè)質(zhì)量一般較高。從網(wǎng)站的角度衡量網(wǎng)頁(yè)的重要性有一定的依據(jù)。對(duì)于要爬網(wǎng)的URL隊(duì)列中的頁(yè)面,下載優(yōu)先級(jí)由等待下載的頁(yè)面數(shù)決定。
下載頁(yè)面(不完整Internet頁(yè)面的子集)的部分pagerank策略(部分pagerank)與待爬行的URL隊(duì)列中的URL一起形成一組頁(yè)面,并在集合中計(jì)算pagerank;經(jīng)過(guò)計(jì)算,待爬行的URL隊(duì)列中的頁(yè)面根據(jù)pagerank得分由高到低排序,形成一個(gè)SE。那是履帶式拼接。應(yīng)依次向下爬行的URL列表。由于pagerank是一種全局算法,即當(dāng)所有的頁(yè)面都被下載時(shí),計(jì)算結(jié)果是可靠的,但是爬行器在爬行過(guò)程中只能接觸到部分頁(yè)面,所以爬行時(shí)不能進(jìn)行可靠的pagerank計(jì)算,所以稱為不完全pagerank策略。
OCIP策略(在線頁(yè)面重要性計(jì)算)字面意思是“在線頁(yè)面重要性計(jì)算”,這是一種改進(jìn)的pagerank算法。在算法開始之前,每個(gè)Internet頁(yè)面都被分配相同的值。當(dāng)一個(gè)頁(yè)面p被下載時(shí),p將它自己的值平均分配給頁(yè)面中包含的鏈接,同時(shí)清除它自己的值。對(duì)于要爬網(wǎng)的URL隊(duì)列中的網(wǎng)頁(yè),優(yōu)先考慮根據(jù)現(xiàn)有值的大小下載值較大的網(wǎng)頁(yè)。
協(xié)同爬行策略(爬行加速策略)可以通過(guò)增加爬行器的數(shù)量來(lái)提高整體的爬行速度,但工作負(fù)載需要分解為不同的網(wǎng)絡(luò)爬行器,以確保分工清晰,防止多個(gè)爬行器在同一頁(yè)面上爬行,浪費(fèi)資源。
通過(guò)分解網(wǎng)絡(luò)主機(jī)的IP地址,讓爬蟲只抓取中小型網(wǎng)站的一個(gè)網(wǎng)頁(yè)段,出于經(jīng)濟(jì)原因,通常在一臺(tái)服務(wù)器上提供不同的網(wǎng)絡(luò)服務(wù),使多個(gè)域名對(duì)應(yīng)一個(gè)IP段;而新浪、搜狐等大型網(wǎng)站通常使用負(fù)載均衡的IP gro。向上技術(shù),同一域名對(duì)應(yīng)多個(gè)。IP地址。因此,這種方法不方便。通過(guò)分解網(wǎng)頁(yè)的域名,爬蟲只能對(duì)網(wǎng)頁(yè)的域名部分進(jìn)行爬蟲,并為不同的爬蟲分配不同的域名。
網(wǎng)站標(biāo)題:從廣度優(yōu)化抓取策略研究搜索引擎蜘蛛爬行規(guī)則
分享網(wǎng)址:http://jinyejixie.com/news29/257529.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供建站公司、網(wǎng)站維護(hù)、商城網(wǎng)站、App開發(fā)、網(wǎng)站設(shè)計(jì)公司、動(dòng)態(tài)網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容