搜索引擎工作原理，順義SEO公司告訴你

2015-10-02 分類：網(wǎng)站建設(shè)

搜索引擎的核心技術(shù)架構(gòu)，大體包括以下三塊，第一，是蜘蛛/爬蟲技術(shù)；第二，是索引技術(shù)；第三是查詢展現(xiàn)的技術(shù)；當(dāng)然，我不是搜索引擎的架構(gòu)師，我只能用比較粗淺的方式來做一個結(jié)構(gòu)的切分。那么我們該怎么更好的理解呢，下面就由順義seo公司來給我們講解吧！

1、蜘蛛，也叫爬蟲，是將互聯(lián)網(wǎng)的信息，抓取并存儲的一種技術(shù)實(shí)現(xiàn)。

搜索引擎的信息收錄，很多不明所以的人會有很多誤解，以為是付費(fèi)收錄，或者有什么其他特殊的提交技巧，其實(shí)并不是，搜索引擎通過互聯(lián)網(wǎng)一些公開知名的網(wǎng)站，抓取內(nèi)容，并分析其中的鏈接，然后有選擇的抓取鏈接里的內(nèi)容，然后再分析其中的鏈接，以此類推，通過有限的入口，基于彼此鏈接，形成強(qiáng)大的信息抓取能力。

有些搜索引擎本身也有鏈接提交入口，但基本上，不是主要的收錄入口，不過作為創(chuàng)業(yè)者，建議了解一下相關(guān)信息，百度，google都有站長平臺和管理后臺，這里很多內(nèi)容是需要非常非常認(rèn)真的對待的。

反過來說，在這樣的原理下，一個網(wǎng)站，只有被其他網(wǎng)站所鏈接，才有機(jī)會被搜索引擎抓取。如果這個網(wǎng)站沒有外部鏈接，或者外部鏈接在搜索引擎中被認(rèn)為是垃圾或無效鏈接，那么搜索引擎可能就不抓取他的頁面。

2、索引系統(tǒng)

蜘蛛抓取的是網(wǎng)頁的內(nèi)容，那么要想讓用戶快速的通過關(guān)鍵詞搜索到這個網(wǎng)頁，就必須對網(wǎng)頁做關(guān)鍵詞的索引，從而提升查詢效率，簡單說就是，把網(wǎng)頁的每個關(guān)鍵詞提取出來，并針對這些關(guān)鍵詞在網(wǎng)頁中的出現(xiàn)頻率，位置，特殊標(biāo)記等諸多因素，給予不同的權(quán)值標(biāo)定，然后，存儲到索引庫中。

索引系統(tǒng)除了分詞之外，還有一些要點(diǎn)，比如實(shí)時索引，因?yàn)橐淮嗡饕龓斓母率莻€大動靜，一般網(wǎng)站運(yùn)營者知道，自己網(wǎng)站內(nèi)容更新后，需要等索引庫下一次更新才能看到效果，而且索引庫針對不同權(quán)重的網(wǎng)站內(nèi)容，更新的頻次也不太一樣。但諸如一些高優(yōu)先的資訊網(wǎng)站，以及新聞搜索，索引庫是可以做到近似實(shí)時索引的，所以我們在新聞搜索里，幾分鐘前的信息就已經(jīng)可以搜索到了。

3、查詢展現(xiàn)

用戶在瀏覽器或者在手機(jī)客戶端輸入一個關(guān)鍵詞，或者幾個關(guān)鍵詞，甚至一句話，這個在服務(wù)端，應(yīng)答程序獲取后處理步驟如下

第一步，會檢查最近時間有沒有人搜索過同樣的關(guān)鍵詞，如果存在這樣的緩存，最快的處理是將這塊緩存提供給你，這樣查詢效率高，對后端負(fù)載壓力最低。

第二步，發(fā)現(xiàn)這個輸入查詢最近沒有搜索，或者有其他條件的原因必須更新結(jié)果，那么會將這個用戶輸入的詞，進(jìn)行分詞，沒錯，如果不止一個關(guān)鍵詞，或者是一句話的情況下，應(yīng)答程序會又一次分詞，將搜索的查詢拆成幾個不同的關(guān)鍵詞。

第三步，將切分后的關(guān)鍵詞分發(fā)到查詢系統(tǒng)中，查詢系統(tǒng)會去索引庫查詢，索引庫是個龐大的分布式系統(tǒng)，先分析這個關(guān)鍵詞屬于哪一塊哪一臺服務(wù)器，索引是一種有序的數(shù)據(jù)組合，我們用可以用近似二分法的方式思考，不管數(shù)據(jù)規(guī)模多大，你用二分法去查找一個結(jié)果，查詢頻次是log2(N)，這個就保證了海量數(shù)據(jù)下，查詢一個關(guān)鍵詞是非常快非?？斓?。當(dāng)然，實(shí)際情況會比二分法復(fù)雜很多，這樣說比較容易理解而已，再復(fù)雜些不是我不告訴大家，是我自己都不是很清楚呢。

第四步，不同關(guān)鍵詞的查詢結(jié)果（只是按權(quán)值排序的部分頂部結(jié)果，絕對不是全部結(jié)果），基于權(quán)值倒序，會再匯總在一起，然后把共同命中的部分反饋回來，并做最后的權(quán)值排序。

記住，搜索引擎絕對不會返回所有結(jié)果，這個開銷誰都受不了，百度也不行，google也不行，翻頁都是有限制的。

再記住，如果你多個關(guān)鍵詞里有多個不同品類冷門詞，搜索引擎有可能會舍棄其中一個冷門詞，因?yàn)閰R總數(shù)據(jù)很可能不包含共同結(jié)果。搜索技術(shù)不要神話，這樣的范例偶爾會出現(xiàn)。

這是三大部分，多說一點(diǎn)，其實(shí)還有第四部分。

用戶點(diǎn)擊行為采集和反饋部分

基于用戶的翻頁，點(diǎn)擊分布，對搜索結(jié)果的優(yōu)劣做判定，并對權(quán)值做調(diào)整，但這個早期搜索引擎是沒有的，后面才有，所以暫時不列為必備的三大塊。

此外，一些對搜索優(yōu)化的機(jī)器學(xué)習(xí)策略，對易混詞識別，同音詞識別等等，相當(dāng)部分也都基于用戶行為反饋進(jìn)行，這是后話，這里不展開。

關(guān)于第四部分，點(diǎn)擊提權(quán)，我說這個詞價值千金，我猜很多人并沒理解。沒理解就好，要不我要被一些同行罵死了。

以上是單指搜索引擎的工作原理，和一些技術(shù)邏輯，當(dāng)然，只是入門級的解讀，畢竟再深入就不是我能講解的了。

當(dāng)前標(biāo)題：搜索引擎工作原理，順義SEO公司告訴你
URL網(wǎng)址：http://jinyejixie.com/news44/27544.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供商城網(wǎng)站、關(guān)鍵詞優(yōu)化、響應(yīng)式網(wǎng)站、云服務(wù)器、靜態(tài)網(wǎng)站、營銷型網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

搜索引擎實(shí)現(xiàn)對頁面的索引與排名原理，創(chuàng)新互聯(lián)告訴你 2015-10-02
搜索引擎友好的站點(diǎn)符合什么標(biāo)準(zhǔn)？ 2014-07-04
搜狗競價推廣 2015-10-01
搜狐自媒體怎么做可以有收益？ 2014-07-03
提高網(wǎng)站轉(zhuǎn)化的5個設(shè)計技巧! 2015-01-19
提高網(wǎng)站訪客量的設(shè)計是什么？ 2015-01-19

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

搜索引擎工作原理，順義SEO公司告訴你