2015-10-02 分類: 網(wǎng)站建設(shè)
搜索引擎的核心技術(shù)架構(gòu),大體包括以下三塊,第一,是蜘蛛/爬蟲技術(shù);第二,是索引技術(shù);第三是查詢展現(xiàn)的技術(shù);當(dāng)然,我不是搜索引擎的架構(gòu)師,我只能用比較粗淺的方式來做一個結(jié)構(gòu)的切分。那么我們該怎么更好的理解呢,下面就由順義seo公司來給我們講解吧!
1、 蜘蛛,也叫爬蟲,是將互聯(lián)網(wǎng)的信息,抓取并存儲的一種技術(shù)實(shí)現(xiàn)。
搜索引擎的信息收錄,很多不明所以的人會有很多誤解,以為是付費(fèi)收錄,或者有什么其他特殊的提交技巧,其實(shí)并不是,搜索引擎通過互聯(lián)網(wǎng)一些公開知名的網(wǎng)站,抓取內(nèi)容,并分析其中的鏈接,然后有選擇的抓取鏈接里的內(nèi)容,然后再分析其中的鏈接,以此類推,通過有限的入口,基于彼此鏈接,形成強(qiáng)大的信息抓取能力。
有些搜索引擎本身也有鏈接提交入口,但基本上,不是主要的收錄入口,不過作為創(chuàng)業(yè)者,建議了解一下相關(guān)信息,百度,google都有站長平臺和管理后臺,這里很多內(nèi)容是需要非常非常認(rèn)真的對待的。
反過來說,在這樣的原理下,一個網(wǎng)站,只有被其他網(wǎng)站所鏈接,才有機(jī)會被搜索引擎抓取。如果這個網(wǎng)站沒有外部鏈接,或者外部鏈接在搜索引擎中被認(rèn)為是垃圾或無效鏈接,那么搜索引擎可能就不抓取他的頁面。
2、索引系統(tǒng)
蜘蛛抓取的是網(wǎng)頁的內(nèi)容,那么要想讓用戶快速的通過關(guān)鍵詞搜索到這個網(wǎng)頁,就必須對網(wǎng)頁做關(guān)鍵詞的索引,從而提升查詢效率,簡單說就是,把網(wǎng)頁的每個關(guān)鍵詞提取出來,并針對這些關(guān)鍵詞在網(wǎng)頁中的出現(xiàn)頻率,位置,特殊標(biāo)記等諸多因素,給予不同的權(quán)值標(biāo)定,然后,存儲到索引庫中。
索引系統(tǒng)除了分詞之外,還有一些要點(diǎn),比如實(shí)時索引,因?yàn)橐淮嗡饕龓斓母率莻€大動靜,一般網(wǎng)站運(yùn)營者知道,自己網(wǎng)站內(nèi)容更新后,需要等索引庫下一次更新才能看到效果,而且索引庫針對不同權(quán)重的網(wǎng)站內(nèi)容,更新的頻次也不太一樣。但諸如一些高優(yōu)先的資訊網(wǎng)站,以及新聞搜索,索引庫是可以做到近似實(shí)時索引的,所以我們在新聞搜索里,幾分鐘前的信息就已經(jīng)可以搜索到了。
3、查詢展現(xiàn)
用戶在瀏覽器或者在手機(jī)客戶端輸入一個關(guān)鍵詞,或者幾個關(guān)鍵詞,甚至一句話,這個在服務(wù)端,應(yīng)答程序獲取后處理步驟如下
第一步,會檢查最近時間有沒有人搜索過同樣的關(guān)鍵詞,如果存在這樣的緩存,最快的處理是將這塊緩存提供給你,這樣查詢效率高,對后端負(fù)載壓力最低。
第二步,發(fā)現(xiàn)這個輸入查詢最近沒有搜索,或者有其他條件的原因必須更新結(jié)果,那么會將這個用戶輸入的詞,進(jìn)行分詞,沒錯,如果不止一個關(guān)鍵詞,或者是一句話的情況下,應(yīng)答程序會又一次分詞,將搜索的查詢拆成幾個不同的關(guān)鍵詞。
第三步,將切分后的關(guān)鍵詞分發(fā)到查詢系統(tǒng)中,查詢系統(tǒng)會去索引庫查詢,索引庫是個龐大的分布式系統(tǒng),先分析這個關(guān)鍵詞屬于哪一塊哪一臺服務(wù)器,索引是一種有序的數(shù)據(jù)組合,我們用可以用近似二分法的方式思考,不管數(shù)據(jù)規(guī)模多大,你用二分法去查找一個結(jié)果,查詢頻次是log2(N),這個就保證了海量數(shù)據(jù)下,查詢一個關(guān)鍵詞是非常快非??斓?。當(dāng)然,實(shí)際情況會比二分法復(fù)雜很多,這樣說比較容易理解而已,再復(fù)雜些不是我不告訴大家,是我自己都不是很清楚呢。
第四步,不同關(guān)鍵詞的查詢結(jié)果(只是按權(quán)值排序的部分頂部結(jié)果,絕對不是全部結(jié)果),基于權(quán)值倒序,會再匯總在一起,然后把共同命中的部分反饋回來,并做最后的權(quán)值排序。
記住,搜索引擎絕對不會返回所有結(jié)果,這個開銷誰都受不了,百度也不行,google也不行,翻頁都是有限制的。
再記住,如果你多個關(guān)鍵詞里有多個不同品類冷門詞,搜索引擎有可能會舍棄其中一個冷門詞,因?yàn)閰R總數(shù)據(jù)很可能不包含共同結(jié)果。搜索技術(shù)不要神話,這樣的范例偶爾會出現(xiàn)。
這是三大部分,多說一點(diǎn),其實(shí)還有第四部分。
用戶點(diǎn)擊行為采集和反饋部分
基于用戶的翻頁,點(diǎn)擊分布,對搜索結(jié)果的優(yōu)劣做判定,并對權(quán)值做調(diào)整,但這個早期搜索引擎是沒有的,后面才有,所以暫時不列為必備的三大塊。
此外,一些對搜索優(yōu)化的機(jī)器學(xué)習(xí)策略,對易混詞識別,同音詞識別等等,相當(dāng)部分也都基于用戶行為反饋進(jìn)行,這是后話,這里不展開。
關(guān)于第四部分,點(diǎn)擊提權(quán),我說這個詞價值千金,我猜很多人并沒理解。沒理解就好,要不我要被一些同行罵死了。
以上是單指搜索引擎的工作原理,和一些技術(shù)邏輯,當(dāng)然,只是入門級的解讀,畢竟再深入就不是我能講解的了。
當(dāng)前標(biāo)題:搜索引擎工作原理,順義SEO公司告訴你
URL網(wǎng)址:http://jinyejixie.com/news44/27544.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供商城網(wǎng)站、關(guān)鍵詞優(yōu)化、響應(yīng)式網(wǎng)站、云服務(wù)器、靜態(tài)網(wǎng)站、營銷型網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容