淺談搜索引擎的分析系統(tǒng)
搜索引擎為什么要對網(wǎng)頁進(jìn)行分析?深圳
網(wǎng)站建設(shè)小編對此進(jìn)行分析:因?yàn)樗阉饕娌⒉皇侨耍瑳]長眼睛,不能看到整個頁面上寫的是什么內(nèi)容,而只能通過分析知道這個網(wǎng)頁上寫的大概是什么樣的內(nèi)容,是否有反動或者黃色及不應(yīng)該出現(xiàn)的內(nèi)容。
搜索引擎會對這些頁面進(jìn)行分析,分析完畢后會將垃圾頁面過濾掉,即使沒有過濾掉,也不會給這些網(wǎng)頁好的排名,要不用戶搜索出來的信息都是垃圾信息,就沒有人再使用搜索引擎了。
網(wǎng)頁消重對搜索引擎來說是非常重要的。互聯(lián)網(wǎng)鏡像頁面和采集頁面非常多,有好多人的電影站,都是用同樣的程序來做的,網(wǎng)站的資源都一樣,所以網(wǎng)站里面的內(nèi)容也都是一樣的。這些人經(jīng)常抱怨,重要的內(nèi)容頁面沒有收錄多少,只收錄了此頁面。
原因其實(shí)很簡單,內(nèi)容頁面都是和其他網(wǎng)站一模一樣的,那為什么收錄tag頁面呢?因?yàn)檫@些tag頁面是系統(tǒng)隨機(jī)產(chǎn)生的,這樣的頁面重復(fù)性非常低,所以被收錄了。想要讓這些內(nèi)容頁面被收錄,偽原創(chuàng)是非常必要的。
一個網(wǎng)頁什么地方是最重要的,那么就應(yīng)該將網(wǎng)站的關(guān)鍵詞放到這些重要的地方。就像我們平時買東西,首先要買一些日常必需品,之后再考慮那些可買可不買的東西。如果將錢都用在了不該買的東西上,等真正需要錢的時候,就會非常著急。搜索引擎也是一樣,它認(rèn)為重要的地方,一定要充分利用,不能放過。
搜索引擎雖然看不懂網(wǎng)頁,但是它有辦法來解決這個問題,那就是對網(wǎng)頁進(jìn)行切詞。從字面上應(yīng)該能理解切詞是什么意思,即搜索引擎將一個很長的句子分解成若干個詞語。
例如用戶在百度上搜索“搜索引擎4大系統(tǒng)”,搜索引擎會將這句話切詞成為“搜索引擎,4,大,系統(tǒng)”。搜索引擎切詞完畢后會去掉一些高頻無關(guān)詞,像一些語氣詞就是高頻無關(guān)詞,因?yàn)檫@樣的詞在網(wǎng)頁中是沒有什么意義的,剩下的詞搜索引擎會把它建成一個索引。通過切詞,搜索引擎會把你的網(wǎng)頁轉(zhuǎn)化成一個關(guān)鍵詞集合,這樣做有一個好處,變成了關(guān)鍵詞集合以后才能對網(wǎng)頁建立索引,才能在用戶的搜索結(jié)果中展現(xiàn)。
網(wǎng)頁標(biāo)題:淺談搜索引擎的分析系統(tǒng)
標(biāo)題鏈接:http://jinyejixie.com/news/116428.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供軟件開發(fā)、品牌網(wǎng)站建設(shè)、網(wǎng)站收錄、網(wǎng)站排名、網(wǎng)站制作、網(wǎng)站改版
廣告
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源:
創(chuàng)新互聯(lián)