2021-10-13 分類: 網(wǎng)站建設(shè)
首先,我們要來個免責(zé)聲明-他們并不一定是必要的-但以防萬一…但你必須注意的是,這些是一個概念化的東西,至少我是這樣認(rèn)為的,還沒有進(jìn)行實際的測試和實踐證明。蜘蛛的逆向爬行…至少我第一次起這個名字的時候我是這樣想的。這種想法來源于很多的地方:網(wǎng)站的頁面的深度如果很高的話那對爬行和索引來說都是一個挑戰(zhàn),因為他們的結(jié)構(gòu)很深,擁有大量的頁面,會有爬行的障礙(例如那些大量基于參數(shù)的URL或者那些被認(rèn)為沒有什么價值的頁面,這種情況會經(jīng)常出現(xiàn)在一些電子商務(wù)的網(wǎng)站。)
或者一個網(wǎng)站希望能夠盡可能的充分并迅速的被索引(也許一個網(wǎng)站添加了新的內(nèi)容,它的URL就會發(fā)生戲劇化的改變,盡管301已經(jīng)被定位了,或者這是一個新的站點(diǎn))。因此,怎樣才能使網(wǎng)站能夠被正常的爬行和索引通常是通過以下的幾種方式:發(fā)現(xiàn):搜索引擎蜘蛛會根據(jù)鏈接進(jìn)入到你的網(wǎng)站提交:一個站長會把站點(diǎn)和頁面提交給搜索引擎XML網(wǎng)站地圖:一個站長給他們的網(wǎng)站創(chuàng)建一個XML網(wǎng)站地圖,并通過搜索引擎使他們變得有效,或者就把它放在網(wǎng)站的根目錄作為一個網(wǎng)站地圖或者利用ROBOTS文件來進(jìn)行自動搜索。
這些方法都是優(yōu)點(diǎn)和缺點(diǎn)的,但是他們至少解決了如何讓蜘蛛進(jìn)入他們的站點(diǎn),通過使用XML網(wǎng)站地圖,可以幫助蜘蛛越過一些爬行的障礙。無論是直接還是間接,主頁被發(fā)現(xiàn)了。那么蜘蛛就會按照他們自己的路線進(jìn)行爬行。從頂級的導(dǎo)航到第二層讓后到子導(dǎo)航,爬行到頂級的分類頁面,通過子分類的界面,然后到更深的產(chǎn)品和信息頁面。反過來說,你想進(jìn)行索引的這些頁面同時占領(lǐng)了頭部和長尾的搜索。這些也很有可能是產(chǎn)生交易或者是轉(zhuǎn)化的頁面。
蜘蛛來到你頁面的頻率是多少它們一次性通常會爬多少頁面新的頁面會多久才會被發(fā)現(xiàn)和抓取相對而言舊的頁面會多久被發(fā)現(xiàn)和抓取本質(zhì)上來說,應(yīng)該平衡抓取,這就解釋了為什么排除重復(fù)性內(nèi)容的重要性。你不想心愛的蜘蛛把時間浪費(fèi)在爬過和收錄過的內(nèi)容。
當(dāng)你為一些大型的網(wǎng)站指出這些問題的話,你發(fā)現(xiàn)想讓蜘蛛去爬行和喜歡的URL實在是多的讓人覺得可怕,即使沒有那些隱藏著的爬行障礙。請記住,甚至是XML網(wǎng)站地圖,每個網(wǎng)站地圖最多只能包括50000個URL,最少20個單獨(dú)的網(wǎng)站地圖的話加起來就會有1000000個頁面。
要說的是,我要提醒大家這種情況并不適用于所有的網(wǎng)站和情況。這種“蜘蛛逆向爬行”的基礎(chǔ)和使用XML網(wǎng)站地圖是有些不同的。典型的XML網(wǎng)站地圖策略是要提交每一個URL,就是希望每個頁面都能被索引。這也許不是最好的策略,但是這是另外一個問題了。即使那樣,這些策略往往會給首頁過多的權(quán)重和優(yōu)先權(quán)。
恰恰相反,我們應(yīng)該把網(wǎng)站地圖的重點(diǎn)放在一些低等級的頁面上。通常都是單個的產(chǎn)品和信息頁面。這種思想就是讓蜘蛛去那些最深層最難爬的頁面。它們之后還會去哪兒呢他們會按照蜘蛛做的那樣做,開始爬行。想想這些深層次的頁面。但愿他們內(nèi)容豐富并且富有關(guān)鍵詞。他們也許包括一些可以導(dǎo)航的元素,即使不是完全的高等級的導(dǎo)航,至少是一些分類導(dǎo)航。如果網(wǎng)站有類似的面包屑導(dǎo)航的話,我們可以直接喂給蜘蛛這些面包屑。在這點(diǎn)上,我們應(yīng)該更好的以更多的方式給蜘蛛展現(xiàn)我們的網(wǎng)站。這個觀念也許并不是關(guān)于逆向爬行的,反而是關(guān)于讓蜘蛛從兩個底端開始爬行,這樣的爬行最終也能到頂部的導(dǎo)航。
我們通常會假設(shè)蜘蛛會很自然的首先去找首頁然后順勢往下爬遍整個網(wǎng)站。和那些多樣化的產(chǎn)品等級的頁面相比從主頁到頂層頁面有多少個唯一的URL我的猜想是因為頁面深度的不同,兩個等級的頁面的抓取數(shù)量是有很大的不同的。正如我提到的,我認(rèn)為這是一個低風(fēng)險的路線。無論有沒有xml網(wǎng)站地圖,蜘蛛們都能找到頁面的。他們會找到不在網(wǎng)站地圖中的頁面,因此即使是一個沒有首頁和頂級頁面的網(wǎng)站地圖,也不會遺漏掉這些頁面。在自然環(huán)境下,也許不會出現(xiàn)這些問題。蜘蛛會迅速爬過整個網(wǎng)站。一旦他們發(fā)現(xiàn)了鏈接他們就會追根究底。也許這些頁面埋得太深了,他們有點(diǎn)兒不太喜歡。
無論如何,讓這些網(wǎng)頁被爬到和索引是很重要的,對于我的站來說這的確是一個艱難的過程?;蛟S這只是一個時間問題。至少我要去嘗試。一旦像我想象的那樣整個網(wǎng)站的那個等級的頁面都被建立了索引,我就可以繼續(xù)并在XML網(wǎng)站地圖中添加其他的URL,或者我可以做個實驗,不把網(wǎng)站地圖放在網(wǎng)站里。
新聞名稱:如何能做到使蜘蛛逆向爬行索引
URL分享:http://jinyejixie.com/news44/131044.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站、微信小程序、靜態(tài)網(wǎng)站、商城網(wǎng)站、企業(yè)建站、域名注冊
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容