2022-03-16 分類: 網(wǎng)站建設(shè)
互聯(lián)網(wǎng)上肯定會存在大量的重復(fù)內(nèi)容網(wǎng)頁,這時需要有一個過濾的機制,主要目的是處理文本內(nèi)容的去重、過濾和聚類,而百度指紋算法是屬于文章質(zhì)量度的一種算法。那么百度指紋算法是什么?常見的搜索引擎指紋算法有哪些?【百度優(yōu)化】
一、百度指紋算法是什么?
簡單來說搜索引擎指紋算法就和人的指紋一樣,看起來這個手指是差不多的,但是實際上每一個人的手指都有一個獨一無二的指紋,而我們所看到的網(wǎng)頁也是一樣的。不少網(wǎng)頁內(nèi)容其實都是差不多的,但是每一個網(wǎng)頁搜索引擎抓取以后都會保存,然后建立一個指紋,可以理解為唯一標(biāo)識符,而這個算法大的好處就是可以通過這個唯一標(biāo)識別符來計算網(wǎng)頁的重復(fù)。
搜索引擎網(wǎng)頁指紋技術(shù)在百度百科中的解釋是:提取一個信息的特征,通常是一組詞或者一組詞+權(quán)重,然后根據(jù)這組詞調(diào)用特別的算法,例如MD5,將之轉(zhuǎn)化為一組代碼,這組代碼就成為標(biāo)識這個信息的指紋。搜索引擎在抓取內(nèi)容之后,會首先剔除掉文章中的一些非特征信息關(guān)鍵詞,比如:你、我、他等稱謂;而且、但是等連接詞;哦、呢、吧等語氣詞。這些詞對于信息標(biāo)識是沒有幫助的,然后就是對文字信息的提取與處理,經(jīng)過一系列復(fù)雜的算法流程。
二、常見的搜索引擎指紋算法有哪些?
最簡單的指紋構(gòu)造方式就是計算文本的md5或者sha哈希值,除非輸入相同的文本,否則會發(fā)生“雪崩效應(yīng)”,極小的文本差異通過md5或者sha計算出來的指紋就會不同(發(fā)生沖撞的概率極低),那么對于稍加改動的文本,計算出來的指紋也是不一樣。
因此,一個好的指紋應(yīng)該具備如下特點:
1、指紋是確定性的,相同的文本的指紋是相同的;
2、指紋越相似,文本相似性就越高;
3、指紋生成和匹配效率高。
業(yè)界關(guān)于文本指紋去重的算法眾多,如k-shingle算法、google提出的simhash算法、Minhash算法、top k最長句子簽名算法等。搜索引擎指紋算法和一般的算法不一樣的地方在于它是針對網(wǎng)頁集合來進(jìn)行判斷的,不像網(wǎng)頁去重這種算法是頁面與頁面之間判斷。而指紋是通過大數(shù)據(jù)進(jìn)行集合判斷,最后通過唯一標(biāo)識符號判斷網(wǎng)頁內(nèi)容是否原創(chuàng)。
以上就是《百度指紋算法是什么?常見的搜索引擎指紋算法有哪些?》的全部內(nèi)容,僅供站長朋友們互動交流學(xué)習(xí),SEO優(yōu)化是一個需要堅持的過程,希望大家一起共同進(jìn)步。
文章題目:【網(wǎng)站優(yōu)化】百度指紋算法是什么?常見的搜索引擎指紋算法有哪些?
標(biāo)題路徑:http://jinyejixie.com/news34/144734.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站收錄、移動網(wǎng)站建設(shè)、定制開發(fā)、手機網(wǎng)站建設(shè)、外貿(mào)建站、響應(yīng)式網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容