2021-09-17 分類: 網(wǎng)站建設(shè)
第一步、抓取
百度蜘蛛或baiduspider就是百度的一個程序,他的工作就是搜集互聯(lián)網(wǎng)上,搜索引擎會通過復(fù)雜的計算,來決定對哪些網(wǎng)站進(jìn)行頁面抓取,以及抓取的頻率和內(nèi)容。而且搜索引擎在計算過程中會參考你網(wǎng)站的歷史表現(xiàn)記錄。比如更新時間,內(nèi)容質(zhì)量,是否有對用戶不友好的設(shè)置等。當(dāng)你的網(wǎng)站產(chǎn)生新的頁面的時候,百度蜘蛛會通過互聯(lián)網(wǎng)上的鏈接指向進(jìn)行訪問和抓取,如果你沒有設(shè)置任何外部鏈接指向網(wǎng)站中的新增內(nèi)容,那么百度蜘蛛就不會及時的進(jìn)行抓取。對于已經(jīng)被抓取過的頁面內(nèi)容,搜索引擎會對抓取的頁面進(jìn)行記錄,并根據(jù)這些頁面對用戶的重要程度計算出不同頻率的抓取更新工作。但是需要注意的是,有些抓取軟件為了達(dá)到某種目的而偽裝成各種蜘蛛對網(wǎng)站進(jìn)行抓取,如果你在網(wǎng)站日志中發(fā)現(xiàn)這種情況,要學(xué)會判斷蜘蛛的真?zhèn)蝸聿扇〈胧?,防止網(wǎng)站的正常運(yùn)行受到影響。
第二步、過濾
在百度抓取回來的頁面中,不是所有的頁面都是對用戶有用的,比如一些明顯欺騙用戶的頁面,死鏈接,空白頁,抄襲內(nèi)容等。這些頁面對于用戶來說都是沒有意義的,因此百度會自動對這些內(nèi)容頁面進(jìn)行過濾,刪除那些低質(zhì)量的網(wǎng)頁,網(wǎng)百度收錄的頁面盡可能的是對用戶有效的。這樣才能保證百度給用戶展示的頁面都是優(yōu)質(zhì)的頁面。提升他自己的用戶體驗(yàn)。
第三步、建立索引
搜索引擎會對蜘蛛抓取回來的頁面內(nèi)容進(jìn)行逐一標(biāo)記和識別,將這些標(biāo)記進(jìn)行存儲為結(jié)構(gòu)化數(shù)據(jù),比如頁面的基本title信息,tag,discripition,keywords,網(wǎng)頁外鏈描述,抓取記錄等一系列內(nèi)容。以便在用戶搜索的時候提供最匹配的內(nèi)容頁面。
第四步、輸出結(jié)果
當(dāng)用戶在搜索框輸入關(guān)鍵詞的時候,百度會對其進(jìn)行復(fù)雜的算法,并更具分析結(jié)果,在索引庫中尋找最為匹配的一系列網(wǎng)頁。按照用戶的需求強(qiáng)弱和網(wǎng)頁的質(zhì)量來進(jìn)行打分,而最終根據(jù)分?jǐn)?shù)進(jìn)行排列,來展現(xiàn)最優(yōu)質(zhì)的內(nèi)容給用戶。我們從搜索引擎的工作原理不難發(fā)現(xiàn),只有您網(wǎng)站上的內(nèi)容能給用戶帶來更好的體驗(yàn),才能得到搜索引擎的親睞,所以內(nèi)容是否對用戶有價值是我們終究要考慮的一個問題。
當(dāng)前文章:從“搜索引擎的工作原理”看SEO該怎么做
文章路徑:http://jinyejixie.com/news41/127091.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供云服務(wù)器、全網(wǎng)營銷推廣、小程序開發(fā)、電子商務(wù)、微信小程序、標(biāo)簽優(yōu)化
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容