詳細(xì)的robots.txt學(xué)習(xí)方法，新手學(xué)完分分鐘成大牛

2022-06-06 分類：網(wǎng)站建設(shè)

關(guān)于這個(gè)robots.txt正確的寫法，創(chuàng)新互聯(lián)參考了很多的資料，發(fā)現(xiàn)有的作者解釋或者寫法太過簡(jiǎn)單，造成新手不易理解，下面就和創(chuàng)新互聯(lián)一起去了解詳細(xì)的robots.txt學(xué)習(xí)方法吧。

robots.txt是以什么形式存在?robots.txt就是一份網(wǎng)站和搜索引擎雙方簽訂的規(guī)則協(xié)議書。每一個(gè)搜索引擎的蜘蛛訪問一個(gè)站點(diǎn)時(shí)，它首先爬行來檢查該站點(diǎn)根目錄下是否存在robots.txt。如果存在，蜘蛛就會(huì)按照該協(xié)議書上的規(guī)則來確定自己的訪問范圍;如果沒有robots.txt，那么蜘蛛就會(huì)沿著鏈接抓取。

請(qǐng)牢牢記?。簉obots.txt必須放置在站點(diǎn)的根目錄下，而且文件名必須全部小寫。Disallow后面的冒號(hào)必須為英文狀態(tài)的。

我們先來理解User-agent和Disallow的定義。

● User-agent：該項(xiàng)用于描述搜索引擎蜘蛛的名字。(1)規(guī)定所有蜘蛛：User-agent:*;(2)規(guī)定某一個(gè)蜘蛛：User-agent:BaiduSpider。

● Disallow：該項(xiàng)用于描述不希望被抓取和索引的一個(gè)URL，這個(gè)URL可以是一條完整的路徑。這有幾種不同定義和寫法：(1)Disallow:/AAA.net，任何以域名+Disallow描述的內(nèi)容開頭的URL均不會(huì)被蜘蛛訪問，也就是說以AAA.net目錄內(nèi)的文件均不會(huì)被蜘蛛訪問;(2)Disallow：/AAA.net/則允許robots抓取和索引AAA.net/index.html，而不能抓取和索引AAA.net/admin.html;(3)如果Disallow記錄為空，說明該網(wǎng)站的所有部分都允許被訪問。在robots.txt文件中，至少應(yīng)有Disallow記錄，如果robots.txt為空文件，則對(duì)所有的搜索引擎robot來說，該網(wǎng)站都是開放的。

1、國(guó)內(nèi)建站需要用到的常見搜索引擎robot的名稱。

有時(shí)候我們覺得網(wǎng)站訪問量(IP)不多，但是網(wǎng)站流量為什么耗的快?有很多的原因是垃圾(沒有)蜘蛛爬行和抓取消耗的。而網(wǎng)站要屏蔽哪個(gè)搜索引擎或只讓哪個(gè)搜索引擎收錄的話，首先要知道每個(gè)搜索引擎robot的名稱。

2、robots.txt文件基本常用寫法：

首先，你先建一個(gè)空白文本文檔(記事本)，然后命名為：robots.txt。

(1)禁止所有搜索引擎訪問網(wǎng)站的任何部分。

User-agent: *

Disallow: /

(2)允許所有的robots訪問，無任何限制。

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

還可以建立一個(gè)空文件robots.txt或者不建立robots.txt。

(3)僅禁止某個(gè)搜索引擎的訪問(例如：百度baiduspider)

User-agent: BaiduSpider

Disallow:/

(4)允許某個(gè)搜索引擎的訪問(還是百度)

User-agent: BaiduSpider

Disallow:

User-agent: *

Disallow: /

這里需要注意，如果你還需要允許谷歌bot，那么也是在“User-agent: *”前面加上，而不是在“User-agent: *”后面。

(5)禁止Spider訪問特定目錄和特定文件(圖片、壓縮文件)。

User-agent: *

Disallow: /AAA.net/

Disallow: /admin/

Disallow: .jpg$

Disallow: .rar$

這樣寫之后，所有搜索引擎都不會(huì)訪問這2個(gè)目錄。需要注意的是對(duì)每一個(gè)目錄必須分開說明，而不要寫出“Disallow:/AAA.net/ /admin/”。

3、robot特殊參數(shù)(這一部分不熟者不要輕易使用)

(1)Allow

Allow與Disallow是正好相反的功能，Allow行的作用原理完全與Disallow行一樣，所以寫法是一樣的，只需要列出你要允許的目錄或頁面即可。

Disallow和Allow可以同時(shí)使用，例如，需要攔截子目錄中的某一個(gè)頁面之外的其他所有頁面，可以這么寫：

User-agent: *

Disallow: /AAA.net/

Allow: /AAA.net/index.html

這樣說明了所有蜘蛛只可以抓取/AAA.net/index.html的頁面，而/AAA.net/文件夾的其他頁面則不能抓取，還需要注意以下錯(cuò)誤的寫法：

User-agent: *

Disallow: /AAA.net

Allow: /AAA.net/index.html

原因請(qǐng)看上面Disallow值的定義說明。

(2)使用“*”號(hào)匹配字符序列。

例1.攔截搜索引擎對(duì)所有以admin開頭的子目錄的訪問，寫法：

User-agent: *

Disallow: /admin*/

例2.要攔截對(duì)所有包含“?”號(hào)的網(wǎng)址的訪問，寫法：

User-agent: *

Disallow: /*?*

(3)使用“$”匹配網(wǎng)址的結(jié)束字符

例1.要攔截以.asp結(jié)尾的網(wǎng)址，寫法：

User-agent: *

Disallow:/*.asp$

例2.如果“:”表示一個(gè)會(huì)話ID，可排除所包含該ID的網(wǎng)址，確保蜘蛛不會(huì)抓取重復(fù)的網(wǎng)頁。但是，以“?”結(jié)尾的網(wǎng)址可能是你要包含的網(wǎng)頁版本，寫法：

User-agent: *

Allow: /*?$

Disallow: /*?

也就是只抓取.asp?的頁面，而.asp?=1，.asp?=2等等都不抓取。

4、網(wǎng)站地圖(sitemap)

對(duì)于提交網(wǎng)站地圖，我們可以到谷歌站長(zhǎng)工具提交，也可以用robots.txt文件中提示蜘蛛抓?。?/p>

sitemap:AAA.net/sitemaps.xml

5、robots.txt的好處與壞處(解決方法)。

好處：

(1)有了robots.txt，spider抓取URL頁面發(fā)生錯(cuò)誤時(shí)則不會(huì)被重定向至404處錯(cuò)誤頁面，同時(shí)有利于搜索引擎對(duì)網(wǎng)站頁面的收錄。

(2)robots.txt可以制止我們不需要的搜索引擎占用服務(wù)器的寶貴寬帶。

(3)robots.txt可以制止搜索引擎對(duì)非公開的爬行與索引，如網(wǎng)站的后臺(tái)程序、管理程序，還可以制止蜘蛛對(duì)一些臨時(shí)產(chǎn)生的網(wǎng)站頁面的爬行和索引。

(4)如果網(wǎng)站內(nèi)容由動(dòng)態(tài)轉(zhuǎn)換靜態(tài)，而原有某些動(dòng)態(tài)參數(shù)仍可以訪問，可以用robots中的特殊參數(shù)的寫法限制，可以避免搜索引擎對(duì)重復(fù)的內(nèi)容懲罰，保證網(wǎng)站排名不受影響。

壞處：

(1)robots.txt輕松給黑客指明了后臺(tái)的路徑。

解決方法：給后臺(tái)文件夾的內(nèi)容加密，對(duì)默認(rèn)的目錄主文件inde.html改名為其他。

(2)如果robots.txt設(shè)置不對(duì)，將導(dǎo)致搜索引擎不抓取網(wǎng)站內(nèi)容或者將數(shù)據(jù)庫(kù)中索引的數(shù)據(jù)全部刪除。

User-agent: *

Disallow: /

這一條就是將禁止所有的搜索引擎索引數(shù)據(jù)。

創(chuàng)新互聯(lián)友情提醒，在你不能保證robots.txt正確寫法，那么就應(yīng)該保證robots.txt出廠狀態(tài)，不要輕易的去動(dòng)它，避免造成不必要的損失!

分享文章：詳細(xì)的robots.txt學(xué)習(xí)方法，新手學(xué)完分分鐘成大牛
當(dāng)前地址：http://jinyejixie.com/news17/163667.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供域名注冊(cè)、云服務(wù)器、服務(wù)器托管、關(guān)鍵詞優(yōu)化、網(wǎng)站排名、響應(yīng)式網(wǎng)站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

營(yíng)銷型網(wǎng)站應(yīng)該怎么設(shè)計(jì) 2022-06-06
創(chuàng)新互聯(lián)什么樣的宣傳片會(huì)更受歡迎 2022-06-06
一站式創(chuàng)新設(shè)計(jì)：天氣應(yīng)用驚艷登場(chǎng) 2022-06-06
網(wǎng)頁設(shè)計(jì)中如何為色盲設(shè)計(jì) 2022-06-06
兩個(gè)方法讓你迅速掌握不同的插畫風(fēng)格 2022-06-06
SEM中常見的營(yíng)銷工具都有什么作用? 2022-06-05
淺談網(wǎng)頁情景化設(shè)計(jì)方法 2022-06-05
怎樣讓網(wǎng)站獲得更高的流量 2022-06-05

成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

詳細(xì)的robots.txt學(xué)習(xí)方法，新手學(xué)完分分鐘成大牛

1、國(guó)內(nèi)建站需要用到的常見搜索引擎robot的名稱。

2、robots.txt文件基本常用寫法：

3、robot特殊參數(shù)(這一部分不熟者不要輕易使用)

4、網(wǎng)站地圖(sitemap)

5、robots.txt的好處與壞處(解決方法)。

1、國(guó)內(nèi)建站需要用到的常見搜索引擎robot的名稱。

4、網(wǎng)站地圖(sitemap)

5、robots.txt的好處與壞處(解決方法)。