有一種隱藏的,無情的力量×××到網(wǎng)絡(luò)及其數(shù)十億的網(wǎng)頁和文件中,我們大多數(shù)眾生都不知道。我說的是搜索引擎爬蟲和機(jī)器人。每天都有數(shù)以百計(jì)的人出去瀏覽網(wǎng)絡(luò),不管是谷歌(Google)試圖為整個(gè)網(wǎng)絡(luò)建立索引,還是一個(gè)垃圾郵件機(jī)器人收集它能找到的任何不那么體面的電子郵件地址。作為站點(diǎn)所有者,當(dāng)機(jī)器人訪問我們的站點(diǎn)時(shí),我們對(duì)機(jī)器人可以做什么有多么小的控制,存在于一個(gè)名為“robots.txt”的神奇的小文件中。
創(chuàng)新互聯(lián)是一家集網(wǎng)站設(shè)計(jì)制作、網(wǎng)站制作、網(wǎng)站頁面設(shè)計(jì)、網(wǎng)站優(yōu)化SEO優(yōu)化為一體的專業(yè)網(wǎng)站建設(shè)公司,已為成都等多地近百家企業(yè)提供網(wǎng)站建設(shè)服務(wù)。追求良好的瀏覽體驗(yàn),以探求精品塑造與理念升華,設(shè)計(jì)最適合用戶的網(wǎng)站頁面。 合作只是第一步,服務(wù)才是根本,我們始終堅(jiān)持講誠信,負(fù)責(zé)任的原則,為您進(jìn)行細(xì)心、貼心、認(rèn)真的服務(wù),與眾多客戶在蓬勃發(fā)展的市場(chǎng)環(huán)境中,互促共生。“robots.txt”是一個(gè)普通的文本文件,通過它的名稱,對(duì)大多數(shù)網(wǎng)絡(luò)上的“光榮”機(jī)器人具有特殊的意義。通過在此文本文件中定義一些規(guī)則,您可以指示機(jī)器人不爬行和索引站點(diǎn)中的某些文件、目錄,或者根本不對(duì)其進(jìn)行索引。例如,您可能不希望Google爬行站點(diǎn)的/映像目錄,因?yàn)樗鼘?duì)您來說既沒有意義,也浪費(fèi)了站點(diǎn)的帶寬?!皉obots.txt”讓你告訴谷歌。
所以讓我們開始行動(dòng)吧。創(chuàng)建一個(gè)名為“robots.txt”的常規(guī)文本文件,并確保它的名稱準(zhǔn)確。此文件必須上載到根部可訪問的站點(diǎn)目錄,而不是子目錄(即:https://www.google.com但不是https://www.google.com/2/)只有遵循上述兩條規(guī)則,搜索引擎才能解釋文件中的指令。偏離這一點(diǎn),“robots.txt”就變成了一個(gè)普通的文本文件,就像午夜后的灰姑娘一樣。
現(xiàn)在您已經(jīng)知道了如何命名您的文本文件并將其上傳到何處,您需要了解如何將命令發(fā)送到遵循該協(xié)議的搜索引擎(正式上是“機(jī)器人排除協(xié)議”)。該格式對(duì)于大多數(shù)意圖和目的來說都足夠簡單:USERAGENT行,以識(shí)別問題中的爬行器,后面跟著一個(gè)或多個(gè)爬蟲。不允許:線不允許它從你的網(wǎng)站的某些部分爬行。
1)下面是一個(gè)基本的“robots.txt”:
User-agent: * Disallow: /
在上述聲明之后,所有機(jī)器人(由“*”表示)都被指示不要索引任何頁面(由“/”表示)。很可能不是你想要的,但你知道。
2)現(xiàn)在讓我們?cè)賮睃c(diǎn)歧視吧。雖然每個(gè)網(wǎng)站管理員都喜歡Google,但您可能不希望Google的Imagebot爬行您的站點(diǎn)的圖像并制作它們??稍诰€搜索如果只是為了節(jié)省帶寬。下面的聲明將起作用:
User-agent: Googlebot-Image Disallow: /
3)以下內(nèi)容禁止所有搜索引擎和機(jī)器人爬行選擇目錄和頁面:
User-agent: * Disallow: /cgi-bin/ Disallow: /privatedir/ Disallow: /tutorials/blank.htm
4)您可以在“robots.txt”中有條件地針對(duì)多個(gè)機(jī)器人。請(qǐng)看下面的內(nèi)容:
User-agent: * Disallow: / User-agent: Googlebot Disallow: /cgi-bin/ Disallow: /privatedir/
這是很有趣的-在這里我們聲明爬蟲一般不應(yīng)該爬行我們網(wǎng)站的任何部分,除對(duì)于google,它允許爬行整個(gè)站點(diǎn),而不是/CGI-bin/和/Privatedir/。因此,專一性的規(guī)則是適用的,而不是繼承的。
5)有一種使用“不允許”的方法:本質(zhì)上將其轉(zhuǎn)換為“允許所有”,即在分號(hào)(:)之后不輸入一個(gè)值:
User-agent: * Disallow: / User-agent: ia_archiver Disallow:
這里我是說,所有爬蟲都應(yīng)該被禁止爬行我們的網(wǎng)站,除了阿列克莎,這是允許的。
6)最后,一些爬蟲現(xiàn)在支持一個(gè)名為“允許:”的額外字段,最值得注意的是,Google。顧名思義,“允許:”允許您顯式地規(guī)定哪些文件/文件夾可以爬行。然而,這個(gè)領(lǐng)域目前并不是“robots.txt”協(xié)議的一部分,所以我建議只在絕對(duì)需要時(shí)才使用它,因?yàn)樗赡軙?huì)混淆一些不那么聰明的爬蟲器。
每谷歌網(wǎng)站管理員常見問題,下面是不允許所有爬蟲從您的站點(diǎn)上爬行的選方法。除谷歌:
User-agent: * Disallow: / User-agent: Googlebot Allow: /
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。
分享名稱:“robots.txt”簡介-創(chuàng)新互聯(lián)
當(dāng)前地址:http://jinyejixie.com/article34/dpoipe.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站排名、網(wǎng)站制作、網(wǎng)頁設(shè)計(jì)公司、網(wǎng)站營銷、靜態(tài)網(wǎng)站、關(guān)鍵詞優(yōu)化
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容