搜索引擎的下載系統(tǒng)搜索引擎的下載系統(tǒng)采用多線程方式工作,每一個(gè)線程就是我們經(jīng)常提到的蜘蛛。如果下載系統(tǒng)中只有一只蜘蛛工作,想要抓取互聯(lián)網(wǎng)上的全部網(wǎng)頁是不可能的。依目前情況來看,多線程都不能完全抓取互聯(lián)網(wǎng)上的所有網(wǎng)頁。搜索引擎的服務(wù)器遍布世界各地,每一臺(tái)服務(wù)器都會(huì)派出多只蜘蛛同時(shí)去抓取網(wǎng)頁,那么要確保不重復(fù)抓取,同時(shí)提高速度和效率,搜索引擎是怎么做到的呢?
搜索引擎在下載網(wǎng)頁的時(shí)候,會(huì)建立兩張不同的表,一張表記錄已經(jīng)訪問過的網(wǎng)站,一張表記錄沒有訪問過的網(wǎng)站。因?yàn)楹芏嗑W(wǎng)站都會(huì)做外部鏈接,這樣就有可能很多網(wǎng)頁都指向了一個(gè)網(wǎng)站,而搜索引擎蜘蛛是順著鏈接來抓取網(wǎng)頁的,蜘蛛會(huì)從很多外部鏈接頁面重復(fù)抓取一個(gè)網(wǎng)站,這樣會(huì)造成大量的重復(fù)工作,降低工作效率。
而建立這張表后,就完全地解決這個(gè)問題,提高了工作效率。當(dāng)蜘蛛抓取某個(gè)外部鏈接頁面的URL的時(shí)候,它會(huì)把這個(gè)URL下載回來分析,當(dāng)蜘蛛全部分析完這個(gè)URL后,會(huì)將這個(gè)URL存入相應(yīng)的表中,這時(shí)當(dāng)另外的蜘蛛從其他的網(wǎng)站或者其他頁面又發(fā)現(xiàn)了這個(gè)URL時(shí),它會(huì)對比看看已訪問列表有沒有,如果有,這個(gè)URL蜘蛛會(huì)自動(dòng)丟棄,不需要再訪問,盡量做到一個(gè)頁面只訪問一次,從而提高了搜索引擎的工作效率。
搜索引擎收集信息類型為html、pdf、doc等格式的頁面,這些格式都可以通過一些工具非常簡單、快速地轉(zhuǎn)化為文本。其實(shí)我們可以在百度中輸入文檔進(jìn)行搜索,也可以搜索指定類型的文檔,例如,pdf、doc。我們可以利用pdf、doc來做一些優(yōu)化上的處理,效果也是比較好的。
搜索引擎不是說互聯(lián)網(wǎng)上所有的網(wǎng)頁都會(huì)抓取過來,因?yàn)榛ヂ?lián)網(wǎng)上的網(wǎng)頁實(shí)在太多了,不可能全部抓取過來。這方面,Google可能會(huì)比百度好一點(diǎn)兒,百度會(huì)處理一些數(shù)據(jù),數(shù)據(jù)量越大效率自然會(huì)降低,所以它會(huì)選擇重要的網(wǎng)頁來優(yōu)先抓取。那么,深圳
網(wǎng)站建設(shè)小編介紹什么樣的網(wǎng)頁才算是重要的網(wǎng)頁呢?
1)網(wǎng)頁的外鏈多,入度大,被引用得多
2)網(wǎng)頁的鏡像度高
3)網(wǎng)頁的上層頁面入度大
4)網(wǎng)頁的目錄深度小
當(dāng)一個(gè)網(wǎng)頁重要性高的時(shí)候,搜索引擎會(huì)優(yōu)先抓取這樣的頁面,而且抓取完畢后,很快給它一個(gè)好的排名,在搜索結(jié)果中很快出現(xiàn)。這對一個(gè)網(wǎng)站來說是非常重要的,因?yàn)?a href="http://jinyejixie.com/" target="_blank">做網(wǎng)站都是為了賺錢,排名出現(xiàn)得越早,賺到的錢就越多,不能小看。
網(wǎng)頁標(biāo)題:搜索引擎的下載系統(tǒng)
地址分享:http://jinyejixie.com/news26/117876.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供建站公司、標(biāo)簽優(yōu)化、移動(dòng)網(wǎng)站建設(shè)、定制開發(fā)、網(wǎng)站改版、面包屑導(dǎo)航
廣告
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源:
創(chuàng)新互聯(lián)