搜索引擎蜘蛛對(duì)搜索引擎來說就是信息來源所在,對(duì)于網(wǎng)站站長,總是希望網(wǎng)站對(duì)搜索引擎蜘蛛友好,希望蜘蛛能在自己的網(wǎng)站多待會(huì)多抓取點(diǎn)網(wǎng)頁。其實(shí)這些蜘蛛又何嘗不想多抓取點(diǎn)頁面,多更新點(diǎn)頁面呢,只不過互聯(lián)網(wǎng)信息過于巨大,有時(shí)候蜘蛛也是力不能及。這就引出了對(duì)搜索引擎蜘蛛的一個(gè)考核,蜘蛛每天也是在辛苦的干活,也是需要考核評(píng)價(jià)的,合肥
網(wǎng)站建設(shè)小編認(rèn)為最主要的考核標(biāo)準(zhǔn)也就3個(gè):抓取網(wǎng)頁覆蓋率、抓取網(wǎng)頁時(shí)效性及抓取網(wǎng)頁的重要性,
第一、抓取網(wǎng)頁覆蓋率
對(duì)于現(xiàn)在的搜索引擎來說,還沒有哪個(gè)搜索引擎能抓取互聯(lián)網(wǎng)上出現(xiàn)的所有網(wǎng)頁,所有搜索引擎只能索引互聯(lián)網(wǎng)的一部分而已,這里就有一個(gè)概念——“暗網(wǎng)”,暗網(wǎng)是指目前搜索引擎蜘蛛按照常規(guī)方式很難抓取到的互聯(lián)網(wǎng)頁面,蜘蛛是依賴頁面中的鏈接發(fā)現(xiàn)新的頁面,進(jìn)而抓取索引,但是很多頁面內(nèi)容是以數(shù)據(jù)庫方式存儲(chǔ)的。這樣蜘蛛很難或無法抓取這些信息,結(jié)果就是用戶也無法在搜索引擎搜索得到這些信息。
抓取網(wǎng)頁覆蓋率指的是蜘蛛抓取的網(wǎng)頁數(shù)量占互聯(lián)網(wǎng)所有網(wǎng)頁數(shù)量的比例,很明顯,這個(gè)覆蓋率越高,搜索引擎所能索引排名的數(shù)量級(jí)也就越大,能夠參與比較展現(xiàn)的搜索結(jié)果也就越多,用戶搜索體驗(yàn)也越好。所以為了讓用戶在搜索時(shí)可以得到更精準(zhǔn)、更全面的結(jié)果,提供抓取網(wǎng)頁覆蓋率至關(guān)重要,而除了抓取方式的提高,對(duì)暗網(wǎng)數(shù)據(jù)的抓取已成為各大搜索引擎的重要研究方向。
由此可見,抓取網(wǎng)頁覆蓋率是考核搜索引擎蜘蛛的一個(gè)關(guān)鍵標(biāo)準(zhǔn),這是一個(gè)很大的基數(shù),關(guān)乎到后面的索引量、排序量和展現(xiàn)量等,對(duì)于用戶搜索體驗(yàn)至關(guān)重要。
第二、抓取網(wǎng)頁時(shí)效性
說到用戶的搜索體驗(yàn),網(wǎng)頁的時(shí)效性相對(duì)覆蓋率句更加直觀了,比如你在搜索結(jié)果搜索到了一個(gè)結(jié)果,當(dāng)你點(diǎn)擊后頁面是不存在的,有何感想?搜索引擎是在努力避免這些的,所以蜘蛛抓取網(wǎng)頁時(shí)效性同樣是一個(gè)重要考核點(diǎn)?;ヂ?lián)網(wǎng)信息比較多,蜘蛛抓取一輪需要較長的時(shí)間周期,這個(gè)時(shí)間內(nèi)之前建立索引的很多網(wǎng)頁可能已經(jīng)發(fā)生變化或者被刪除,這就導(dǎo)致搜索結(jié)果中有一部分是過期的數(shù)據(jù)。
用一句話就是蜘蛛不能在網(wǎng)頁變化后第一時(shí)間將這些變化反映到網(wǎng)頁庫中,這樣問題就來了,首先比如頁面只是內(nèi)容發(fā)生變化,搜索引擎不能及時(shí)的去重新比較這些變化,給予用戶更合理的排名。其次,如果排在搜索結(jié)果前面的頁面已經(jīng)被刪除了,由于沒有及時(shí)抓取更新,還排在重要位置,那么無疑對(duì)用戶是一種傷害。最后,很多人會(huì)在頁面收錄后另外加一些不好的信息,這樣用之前的排名展現(xiàn)現(xiàn)在的信息,下次蜘蛛更新才會(huì)處理。
所以對(duì)于搜索引擎而言,肯定是希望數(shù)據(jù)庫內(nèi)網(wǎng)頁能及時(shí)更新的,網(wǎng)頁庫過期的數(shù)據(jù)越少,則網(wǎng)頁的時(shí)效性越好,這對(duì)用戶體驗(yàn)的作用不言而喻。
第三、抓取網(wǎng)頁的重要性
蜘蛛抓取了很多內(nèi)容,也及時(shí)更新了,但如果抓取的都是一些低質(zhì)量?jī)?nèi)容,那肯定是不行的。盡管要多抓勤抓,但是每個(gè)網(wǎng)頁重要性差異很大,這就是矛盾的地方,搜索引擎蜘蛛不僅要干得多、干得快、還要干得好。所以必然會(huì)優(yōu)先照顧部分能經(jīng)常提供高質(zhì)量?jī)?nèi)容的網(wǎng)站,特別是定時(shí)定量更新的,這樣才能大程度上保證優(yōu)質(zhì)內(nèi)容不被漏掉,這也可以說是沒辦法的辦法。如果搜索引擎蜘蛛抓回的網(wǎng)頁大都是比較重要的網(wǎng)頁,則可說其在抓取網(wǎng)頁重要性方面做得很好。
總而言之,目前的搜索引擎蜘蛛由于種種原因限制,只能抓取互聯(lián)網(wǎng)部分網(wǎng)頁的,所以在努力抓取盡可能多頁面的同時(shí)會(huì)盡可能選擇比較重要的那部分頁面來索引,而對(duì)于己經(jīng)抓取到的網(wǎng)頁,也會(huì)盡可能快地更新其內(nèi)容。注意所有的這些都是盡可能而已,所以這是各大搜索引擎努力的方向。如果這3個(gè)方面都做得好,搜索引擎用戶體驗(yàn)肯定會(huì)更好。
總之,搜索引擎對(duì)于以上3個(gè)標(biāo)準(zhǔn)一直在做努力,同時(shí)也號(hào)召站長一起進(jìn)行,比如百度站長平臺(tái)的數(shù)據(jù)提交就能很好的擴(kuò)大百度蜘蛛抓取覆蓋率,再比如百度鼓勵(lì)站長對(duì)網(wǎng)頁進(jìn)行提交或直接提交sitemap,這也為蜘蛛的抓取更新提供便利。搜索引擎蜘蛛工作比較累,要干得多,還要干得快,更要干得好,一點(diǎn)都不容易。所以網(wǎng)站站長首先就應(yīng)該讓網(wǎng)站鏈接路徑便于抓取,結(jié)構(gòu)扁平,讓蜘蛛在有限的時(shí)間能抓取更多的東西,讓蜘蛛在你的網(wǎng)站能干得多而且干得快,同時(shí)有規(guī)律的更新高質(zhì)量?jī)?nèi)容,讓蜘蛛在你這能干得好,這樣久而久之,蜘蛛在你的網(wǎng)站就會(huì)干得更多、干得更快、干得更好,因?yàn)樗枰?。如果網(wǎng)站結(jié)構(gòu)混亂,總是更新垃圾內(nèi)容或不更新,那蜘蛛也只能走走停停了,因?yàn)樗惨苫睢?br />
當(dāng)前名稱:搜索引擎蜘蛛3個(gè)考核標(biāo)準(zhǔn)
網(wǎng)頁地址:http://jinyejixie.com/news/180122.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供Google、網(wǎng)頁設(shè)計(jì)公司、做網(wǎng)站、品牌網(wǎng)站建設(shè)、外貿(mào)建站、小程序開發(fā)
廣告
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源:
創(chuàng)新互聯(lián)