2024-04-07 分類: 網(wǎng)站建設(shè)
YandexBot 是俄羅斯搜索引擎 Yandex 的網(wǎng)絡(luò)爬蟲,用于索引網(wǎng)頁內(nèi)容,從而幫助 Yandex 的搜索引擎提供相關(guān)的搜索結(jié)果。它是 Yandex 服務(wù)的重要組成部分,負(fù)責(zé)收集和分析互聯(lián)網(wǎng)上的數(shù)據(jù),以提供準(zhǔn)確和及時的搜索結(jié)果。
對于網(wǎng)站管理員和開發(fā)者來說,了解YandexBot的工作原理和如何與其交互是非常重要的。例如,通過配置網(wǎng)站的 robots.txt 文件,可以告訴 YandexBot 哪些頁面可以被索引,哪些頁面應(yīng)該被排除。這有助于網(wǎng)站管理員更好地控制其在 Yandex 搜索引擎中的表現(xiàn)。
此外,了解 YandexBot 的訪問模式也有助于識別潛在的惡意行為或?yàn)E用情況。如果發(fā)現(xiàn) YandexBot 的訪問模式異常,如頻繁訪問或請求大量數(shù)據(jù),可能需要進(jìn)行進(jìn)一步的調(diào)查以確保網(wǎng)站的安全和穩(wěn)定。
總之,YandexBot 是 Yandex 搜索引擎的重要組成部分,對于網(wǎng)站管理員和開發(fā)者來說,了解其工作原理和如何與其交互是非常重要的。
我們經(jīng)常會受到大量的 YandexBot 訪問,我們知道 YandexBot 是 Yandex 的搜索引擎的爬蟲。
大量的 YandexBot 訪問,不僅給服務(wù)器造成了非常大的壓力,同時也會使正常訪客訪問網(wǎng)站變慢,影響體驗(yàn)。
基于以上原因,我們不得不限制 YandexBot 的訪問,但是需要注意的一點(diǎn):限制 Yandex 訪問會損失 Yandex 帶給我們的流量,由于限制了 Yandex 的爬蟲索引我們的網(wǎng)站,所以當(dāng)用戶在 Yandex 搜索我們網(wǎng)站的主題詞時,不會有任何展示,所以也不會給我們帶來任何流量。
如果 Yandex 沒有給我們帶來任何訪客,那我們就屏蔽它吧!
Yandex 支持具有高級功能的 Robots Exclusion 協(xié)議。
當(dāng)抓取一個網(wǎng)站時,Yandex 機(jī)器人會加載 robots.txt 文件。如果對該文件的最新請求顯示某個網(wǎng)站頁面或部分被禁止,機(jī)器人就不會索引它們。
Yandex robots.txt 文件的要求
Yandex 機(jī)器人可以正確處理 robots.txt,但是需要滿足以下要求:
文件大小不超過 500KB。
它是一個名為 "robots "的TXT文件, robots.txt。
該文件位于網(wǎng)站的根目錄中。
該文件可供機(jī)器人使用:托管網(wǎng)站的服務(wù)器以 HTTP 代碼回應(yīng),狀態(tài)為 200 OK。檢查服務(wù)器的響應(yīng)
如果文件不符合要求,該網(wǎng)站被認(rèn)為是開放索引的,也就是 Yandex 搜索引擎可以任意訪問網(wǎng)頁內(nèi)容。
Yandex 支持從位于一個網(wǎng)站的 robots.txt 文件重定向到位于另一個網(wǎng)站的文件。在這種情況下,目標(biāo)文件中的指令被考慮在內(nèi)。這種重定向在移動網(wǎng)站時可能很有用。
Yandex 訪問 robots.txt 的一些規(guī)則
在 robots.txt 文件中,機(jī)器人會檢查以 User-agent: 開頭的記錄,并尋找字符 Yandex(大小寫不重要)或 *。如果 User-agent: Yandex 字符串被檢測到,User-agent: * 字符串會被忽略。如果 User-agent: Yandex和 User-agent: * 字符串未被發(fā)現(xiàn),機(jī)器人將被視為具有無限的訪問權(quán)限。
你可以為 Yandex 機(jī)器人輸入單獨(dú)的指令。
例如下面的一些示例:
User-agent: YandexBot # 用于索引爬蟲的寫法
Disallow: /*id=
User-agent: Yandex # 將會對所有 YandexBot 起效
Disallow: /*sid= # 除了主要的索引機(jī)器人
User-agent: * # 對 YandexBot 不會起作用
Disallow: /cgi-bin
根據(jù)標(biāo)準(zhǔn),你應(yīng)該在每個 User-agent 指令前插入一個空行。#字符指定了注釋。在這個字符之后的所有內(nèi)容,直到第一個換行,都將被忽略。
robots.txt Disallow 與 Allow 指令
Disallow 指令,使用此指令禁止索引站點(diǎn)部分或單個頁面。例子:
包含機(jī)密數(shù)據(jù)的頁面。
帶有站點(diǎn)搜索結(jié)果的頁面。
網(wǎng)站流量統(tǒng)計(jì)。
重復(fù)頁面。
各種日志。
數(shù)據(jù)庫服務(wù)頁面。
下面是 Disallow 指令的示例:
User-agent: Yandex
Disallow: / # 禁止對整個網(wǎng)站進(jìn)行抓取
User-agent: Yandex
Disallow: /catalogue # 禁止抓取以 /catalogue 開頭的頁面。
User-agent: Yandex
Disallow: /page? # 禁止抓取含有參數(shù)的 URL 的頁面
robots.txt Allow 指令
該指令允許索引站點(diǎn)部分或單個頁面。下面是示例:
User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# 禁止索引任何頁面,除了以'/cgi-bin'開頭的網(wǎng)頁
User-agent: Yandex
Allow: /file.xml
# 允許索引 file.xml 文件
robots.txt 組合指令
相應(yīng)的用戶代理塊中的 Allow 和 Disallow 指令會根據(jù) URL 前綴長度(從最短到最長)進(jìn)行排序,并按順序應(yīng)用。如果有幾個指令與一個特定的網(wǎng)站頁面相匹配,機(jī)器人會選擇排序列表中的最后一個指令。這樣,robots.txt 文件中指令的順序就不會影響機(jī)器人使用它們的方式。
# robots.txt 文件示例:
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog
User-agent: Yandex
Allow: /
Disallow: /catalog
Allow: /catalog/auto
# 禁止索引以 '/catalog' 開頭的頁面
IP 地址屏蔽
我們通過 list crawlers YandexBot 查看到 YandexBot 的 IP 地址,我們直接將這些 IP 加入到黑名單里就可以了,我以 Ubuntu 操作系統(tǒng)為例,如何將 IP 加入到防火墻的黑名單里面:
sudo iptables -A INPUT -s 213.180.203.82 -j DROP
上面的 IP 地址就是我們通過 list crawlers YandexBot 頁面查詢到的 IP ,直接一個一個的 IP 輸入就可以了,一個一行。
好處:直接且迅速。
缺點(diǎn):可能漏掉一些 YandexBot 的 IP 地址。
通過 User-agent 屏蔽 YandexBot
通過我的這一篇文章:yandex bot user agent,我們可以看到每個 YandexBot 的具體 User-agent,我們在 Nginx 里面可以這樣屏蔽具體的 User-agent:
if ($http_user_agent ~* "Yandex")
{
return 403;
}
這樣我們就可以通過 User-agent 屏蔽 YandexBot 的目的了。
優(yōu)點(diǎn):可以迅速直接的屏蔽 YandexBot。
通過 robots.txt 屏蔽 YandexBot
前面文章我已經(jīng)具體介紹過如何通過 robots.txt 屏蔽 YandexBot 了,在此不多說,需要的可以看這篇文章:block yandex bot
優(yōu)點(diǎn):符合官方的規(guī)范要求。
缺點(diǎn):Yandex 的有些爬蟲并不遵守 robots.txt 協(xié)議,使用 robots.txt 協(xié)議也就無法屏蔽了。
總結(jié)
這篇文章使用了三種方式屏蔽 YandexBot,并且介紹了優(yōu)缺點(diǎn),總有一種方法適合你。如夠你的網(wǎng)站市場在俄羅斯千萬不要把它給屏蔽了。
網(wǎng)站欄目:YandexBot是什么搜索引擎蜘蛛
當(dāng)前地址:http://jinyejixie.com/news18/322668.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站內(nèi)鏈、App開發(fā)、用戶體驗(yàn)、搜索引擎優(yōu)化、移動網(wǎng)站建設(shè)、域名注冊
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容