關(guān)于網(wǎng)站優(yōu)化robots.txt的相關(guān)知識介紹

2016-03-04 分類：網(wǎng)站建設(shè)

一.robots.txt具體作用
1.對搜索引擎做出規(guī)定，抓取或者不抓取。
2.由于有些信息規(guī)定了不讓抓取，所以可以保護(hù)到一些必要的信息，比如：網(wǎng)站后臺，用戶信息。

3.節(jié)省搜索引擎抓取資源。

二.robots.txt規(guī)則
1.User-agent，用于告訴識別蜘蛛類型。比如，User-agent: Baiduspider 就是指百度蜘蛛。
各類蜘蛛列舉如下：
百度蜘蛛：Baiduspider
谷歌機(jī)器人：GoogleBot
360蜘蛛：360Spider
搜狗蜘蛛：Sogou News Spider
雅虎蜘蛛：“Yahoo! Slurp China” 或者 Yahoo!
有道蜘蛛：Youdaobot 或者 Yodaobot
Soso蜘蛛：Sosospider
2.Allow，允許蜘蛛抓取指定目錄或文件，默認(rèn)是允許抓取所有。
3.Disallow，不允許蜘蛛抓取指定目錄或文件。
4.通配符，“*”，匹配0或多個任意字符。
5.終止符，“$”，可以匹配以指定字符結(jié)尾的字符。
舉個例子：下面是一個wordpress程序的robots.txt
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /*.js$
Disallow: /*?*
Sitemap: http://chengdu.cdcxhl.com/
解釋：
User-agent: *：對所有搜索引擎都使用下面的規(guī)則。
Disallow: /wp-admin/：不讓蜘蛛抓取根目錄下的wp-admin文件夾。
Disallow: /*.js$：不讓蜘蛛抓取根目錄下所有的js文件。
Disallow: /*?*：不抓取所有的動態(tài)鏈接。

Sitemap: http://chengdu.cdcxhl.com/：給蜘蛛提供網(wǎng)站地圖，方便蜘蛛抓取網(wǎng)站內(nèi)容。

三.robots.txt注意事項
1.如果你希望搜索引擎收錄網(wǎng)站上所有的內(nèi)容，那么就不要建立robots.txt文件。
2.如果同時存在動態(tài)和靜態(tài)鏈接，那么建議屏蔽動態(tài)鏈接。
3.robots.txt只能是屏蔽站內(nèi)文件的，對站外文件沒有屏蔽功能。
4.User-agent，Allow，Disallow，Sitemap的首字母都是大寫的。
5.User-agent，Allow，Disallow，Sitemap的冒號后面都是有空格的，沒有寫空格直接寫接下來的內(nèi)容會出錯。
6.網(wǎng)站通常會屏蔽搜索結(jié)果頁面。因為搜索結(jié)果頁和正常展示的內(nèi)容頁相比，標(biāo)題和內(nèi)容上相同的，而這兩個頁面鏈接是不同的。那搜索引擎該將這篇文章歸屬于哪個內(nèi)鏈呢?這樣就會造成內(nèi)鏈之間相互競爭，造成內(nèi)部資源損耗。
比如上面舉的例子，那個wordpress程序，在沒有設(shè)置偽靜態(tài)，還是動態(tài)鏈接的時候，搜索結(jié)果頁面鏈接都包含有/?s=，而標(biāo)題和內(nèi)容與正常展示的動態(tài)鏈接內(nèi)容頁重復(fù)，可以通過Disallow: /?=*來屏蔽搜索結(jié)果頁面。
而現(xiàn)在那個wordpress程序已經(jīng)設(shè)置了偽靜態(tài)，也設(shè)置了Disallow: /*?*，Disallow: /*?*本身就包含了Disallow: /?=*，所以Disallow: /?=*這句寫不寫都沒有關(guān)系
7.建議屏蔽js文件。Disallow: /*.js$，以 .js 結(jié)尾的路徑統(tǒng)統(tǒng)被屏蔽，這樣就屏蔽了js文件。
8.路徑是區(qū)分大小寫的。Disallow: /ab/ 和 Disallow: /Ab/ 是不一樣的。
9.robots.txt會暴露網(wǎng)站相關(guān)目錄，寫robots.txt時要考慮到這一點。
10.有些seo會將文件直接備份在服務(wù)器中，文件是 .zip 格式，然后在robots.txt中屏蔽。個人不建議這樣，這就是明顯告訴人家你的備份文件位置。建議文件和數(shù)據(jù)都備份到本地。
11.一些特殊規(guī)則對比：
①Disallow: /和Disallow: / ab (/后面有個空格，再有ab)是一樣的，/后面多了個空格，蜘蛛之認(rèn)空格前面那一段，就是Disallow: /，所以兩個都是屏蔽整站的。
②Disallow: /ab和Disallow: /ab*是一樣的。比如兩個都能屏蔽http://域名/ab，http://域名/abc，http://域名/abcd。
③Disallow: /ab/和Disallow: /ab是不一樣的。很明顯，Disallow: /ab范圍更廣，包含了Disallow: /ab/。因為Disallow: /ab/只能屏蔽http：//域名/ab/，http：//域名/ab/....這樣的路徑，也就是只能屏蔽ab目錄和ab目錄下的文件不被蜘蛛抓取。

新聞名稱：關(guān)于網(wǎng)站優(yōu)化robots.txt的相關(guān)知識介紹
文章起源：http://jinyejixie.com/news15/33665.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供小程序開發(fā)、網(wǎng)頁設(shè)計公司、網(wǎng)站策劃、App開發(fā)、網(wǎng)站改版、定制開發(fā)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

通過百度蜘蛛爬行返回代碼判斷網(wǎng)站優(yōu)化的現(xiàn)狀 2016-03-04
如何設(shè)計讓客戶更容易滿意 2015-11-25
應(yīng)該如何制作企業(yè)品牌網(wǎng)站 2015-02-22
提高企業(yè)網(wǎng)站流量的方法大全 2015-02-21
解決網(wǎng)站流量驟減的幾個方法 2015-02-21
在網(wǎng)站頁面中放視頻需要注意的7個點 2015-02-21
二手車電商將會怎樣發(fā)展？ 2015-02-20
創(chuàng)新網(wǎng)絡(luò)與您探討：用戶精細(xì)化運營的方法 2015-02-20

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

關(guān)于網(wǎng)站優(yōu)化robots.txt的相關(guān)知識介紹