2022-06-17 分類: 網(wǎng)站建設(shè)
Robots協(xié)議(蜘蛛人協(xié)議、機器人協(xié)議)告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
什么是robots.txt文件?
robots.txt文件是每一個搜索引擎蜘蛛到你的網(wǎng)站之后要尋找和訪問的第一個文件,robots.txt是你對搜索引擎制定的一個如何索引你的網(wǎng)站的規(guī)則。網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。這下知道這個文件對于網(wǎng)站的重要性了吧。
robots.txt文件有什么具體作用?
1、屏蔽網(wǎng)站內(nèi)的死鏈接。(網(wǎng)站改版后出現(xiàn)的死鏈、網(wǎng)站被攻擊時來不及刪除的目錄文件和鏈接)
2、屏蔽搜索引擎蜘蛛抓取站點內(nèi)重復(fù)內(nèi)容和頁面。
3、阻止搜索引擎索引網(wǎng)站隱私性的內(nèi)容。(例如網(wǎng)站后臺的登陸地址)
robots.txt文件怎樣寫?
創(chuàng)新互聯(lián)小編首先先給大家介紹幾個robots中用到的名詞:
(1)User-agent:意思是定義搜索引擎類型
因為搜索引擎有好幾種有:百度蜘蛛:Baiduspider;谷歌蜘蛛:Googlebot;360蜘蛛:360Spider;SOSO蜘蛛:Sosospider;有道蜘蛛:YoudaoBot;搜狗蜘蛛:Sogou News Spider
一般沒有特殊要求的話,正確寫法是:User-agent: * 意思是允許所有搜索引擎來抓取。這是robots.txt文件中第一行的寫法。
(2)Disallow:意思是定義禁止抓取的地址
就是禁止蜘蛛抓取的地址,在我們的網(wǎng)站是靜態(tài)或偽靜態(tài)的時候一般網(wǎng)站要禁止蜘蛛抓取動態(tài)路徑(?)、.js、后臺的文件等一些不想讓蜘蛛抓取的文件。它的正確的寫法如下:
Disallow: / 禁止蜘蛛抓取整站(一定不能這么寫,這樣會讓所有搜索引擎不來抓取你的網(wǎng)站內(nèi)容)
Disallow: /wp-admin/ 禁止抓取網(wǎng)站中帶wp-admin的文件夾。
Disallow: /page/ 禁止抓取網(wǎng)站中帶page的文件夾。
Disallow: /*?* 禁止抓取網(wǎng)站中的所有動態(tài)路徑。
Disallow: /.js$ 禁止抓取網(wǎng)站中的所有帶.js的路徑。
Disallow: /*.jpg$ 禁止抓取網(wǎng)站中所有jpg圖片
(3)、Allow:意思是定義允許抓取收錄地址
這個就不需要多說了就是允許的意思,在robots文件中不寫Allow意思就是默認的允許,因此大家沒必要寫上。
(4)、常用的一些語法符號
/ 如果只是一個單個/,搜索引擎會認為是根目錄
* 是所有的意思;例如:Disallow: /*.jpg$ 是禁止抓取網(wǎng)站中所有jpg圖片
$ 是結(jié)束符
以上內(nèi)容就是成都網(wǎng)站建設(shè)小編為大家分享的robots.txt文件的定義、作用以及正確的寫法,這是SEO一項非常重要的優(yōu)化操作,大家一定要熟練掌握!
如沒特殊注明,文章均為創(chuàng)新互聯(lián)成都網(wǎng)站建設(shè)原創(chuàng),轉(zhuǎn)載請注明:創(chuàng)新互聯(lián)jinyejixie.com
當前文章:Robots是什么?對于網(wǎng)站優(yōu)化有哪些好處?
網(wǎng)站路徑:http://jinyejixie.com/news5/168505.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站、建站公司、微信小程序、網(wǎng)站建設(shè)、外貿(mào)建站、用戶體驗
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容