基本流程
抓取網(wǎng)頁:每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序爬蟲(Spider)。爬蟲順著網(wǎng)頁中的超鏈接,從這個網(wǎng)站爬到另一個網(wǎng)站,通過超鏈接分析連續(xù)訪問抓取更多網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。
處理網(wǎng)頁:
搜索引擎抓到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,重要的就是提取關(guān)鍵詞,建立索引庫和索引。其他還包括去除重復(fù)網(wǎng)頁、分詞(中文)、判斷網(wǎng)頁類型、分析超鏈接、計算網(wǎng)頁的重要度/豐富度等。
提供檢索服務(wù):
用戶輸入關(guān)鍵詞進行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁;為了用戶便于判斷,除了網(wǎng)頁標(biāo)題和 URL 外,還會提供一段來自網(wǎng)頁的摘要以及其他信息。 搜索引擎的自動信息搜集功能提交網(wǎng)站搜索,站長主動向搜索引擎提交網(wǎng)址,它在一定時間內(nèi)定向向你的網(wǎng)站派出爬蟲,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫,以備用戶查詢。由于搜索引擎索引規(guī)則相對于過去已發(fā)生很大變化,主動提交網(wǎng)址并不保證你的網(wǎng)站能進入搜索引擎數(shù)據(jù)庫,因此站長應(yīng)該在網(wǎng)站內(nèi)容上多下功夫,并讓搜索引擎有更多機會找到你并自動將你的網(wǎng)站收錄。當(dāng)用戶以關(guān)鍵詞查找信息時,搜索引擎會在數(shù)據(jù)庫中進行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度,出現(xiàn)的位置、頻次,鏈接質(zhì)量等——計算出各網(wǎng)頁的相關(guān)度及排名等級,然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。
溫馨提示
我們想說的是您應(yīng)該將您優(yōu)化的重心和出發(fā)點主要放在用戶體驗上,因為用戶才是您網(wǎng)站內(nèi)容的主要受眾,是他們通過搜索引擎找到了您的網(wǎng)站。過度專注于用特定的技巧獲取搜索引擎自然搜索結(jié)果的排名不一定能夠達(dá)到您想要的結(jié)果。
當(dāng)前標(biāo)題:深度解析搜索引擎工作原理
分享鏈接:http://jinyejixie.com/news11/251611.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供企業(yè)網(wǎng)站制作、網(wǎng)站策劃、網(wǎng)站維護、服務(wù)器托管、做網(wǎng)站、手機網(wǎng)站建設(shè)
廣告
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源:
創(chuàng)新互聯(lián)