2020-01-18 分類(lèi): 網(wǎng)站建設(shè)
為抓取到網(wǎng)站上盡量多的頁(yè)面,搜索引擎蜘蛛會(huì)跟蹤網(wǎng)頁(yè)上的鏈接,從一個(gè)頁(yè)面爬到下一個(gè)頁(yè)面,這和蜘蛛在蜘蛛網(wǎng)上爬行是一樣的,這也就是搜索引擎機(jī)器人稱(chēng)為蜘蛛的由來(lái)。
整個(gè)互聯(lián)網(wǎng)是由相互鏈接的網(wǎng)站及頁(yè)面組成的。從理論上說(shuō),蜘蛛可以從任何一個(gè)頁(yè)面出發(fā),順著鏈接可以爬行到網(wǎng)上任何一個(gè)頁(yè)面。當(dāng)然,由于網(wǎng)站及頁(yè)面鏈接結(jié)構(gòu)異常復(fù)雜, 蜘蛛需要采取一定的爬行策略才能行走于整個(gè)互聯(lián)網(wǎng)海洋。
通常搜索引擎蜘蛛爬行遍歷策略分有兩種,一種是深度優(yōu)先,另一種是廣度優(yōu)先。
所謂深度優(yōu)先,指的是蜘蛛沿著發(fā)現(xiàn)的鏈接一直向前爬行,直到前面再也沒(méi)有其他鏈接,正所謂不撞南墻;然后返回到第一個(gè)頁(yè)面,沿著另一個(gè)鏈接再一直往下爬行。
如圖1所示,蜘蛛跟蹤鏈接,從A頁(yè)面爬行到Al,A2, A3,A4,到A4頁(yè)面后, 己經(jīng)沒(méi)有其他鏈接可以跟蹤就返回A頁(yè)面,順著頁(yè)面上的另一個(gè)鏈接,爬行到Bl,B2, B3, B4。在深度優(yōu)先策略中,蜘蛛一直爬到這個(gè)鏈接的盡頭,在返回到起點(diǎn),爬向另一條鏈接。
廣度優(yōu)先是指蜘蛛在一個(gè)頁(yè)面上發(fā)現(xiàn)多個(gè)鏈接時(shí),不是順著一個(gè)鏈接一直向前,而是把頁(yè)面上所有第一層鏈接都爬一遍,然后再沿著第二層頁(yè)面上發(fā)現(xiàn)的鏈接爬向第三層頁(yè)面。
如圖2所示,蜘蛛從A頁(yè)面順著鏈接爬行到Al,Bl, C1頁(yè)面,直到A頁(yè)面上的所 有鏈接都爬行完,然后再?gòu)腁1頁(yè)面發(fā)現(xiàn)的下一層鏈接,爬行到A2, A3, A4,……頁(yè)面。
文章標(biāo)題:蜘蛛爬取網(wǎng)站的基本方式
文章鏈接:http://jinyejixie.com/news/81221.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站策劃、手機(jī)網(wǎng)站建設(shè)、網(wǎng)頁(yè)設(shè)計(jì)公司、網(wǎng)站設(shè)計(jì)公司、商城網(wǎng)站、域名注冊(cè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容