2016-11-06 分類: 網(wǎng)站建設(shè)
url,即統(tǒng)一資源定位符,通過對url的分析,我們可以更好地理解頁面抓取過程。今天,SEO學(xué)網(wǎng)帶來的是《頁面抓取過程簡述》。希望本次的SEO技術(shù)培訓(xùn)對大家有所幫助。
一、url是什么意思?
URL,英文全稱為“uniform resource locator”,中文譯為“統(tǒng)一資源定位符”。
在網(wǎng)站優(yōu)化中要求每一個頁面有且僅有一個唯一的統(tǒng)一資源定位符(URL),但往往很多網(wǎng)站同一頁面對應(yīng)了很多個URL,如果都被搜索引擎收錄且未做URL轉(zhuǎn)向,就會產(chǎn)生權(quán)重不集中的情況,通常稱為URL不規(guī)范。
二、url的組成
統(tǒng)一資源定位符(URL),由三部分組成:協(xié)議方案、主機名和資源名。
例如:
https:// www.x**.org /11806
其中https為協(xié)議方案,www.***.org 為主機名 ,11806為資源,不過這個資源不太明顯,一般資源后綴為.html,當(dāng)然還可以是.pdf、.php、.word等格式。
三、頁面抓取過程簡述
無論是我們平時用的互聯(lián)網(wǎng)瀏覽器,還是網(wǎng)絡(luò)爬蟲,雖然是兩種不同的客戶端,但獲取頁面的方式卻是相同的。頁面抓取過程如下:
① 連接DNS域名系統(tǒng)服務(wù)器
客戶端都會先連接到DNS域名服務(wù)器上,DNS服務(wù)器將主機名( www.***.org )轉(zhuǎn)換為IP地址,并反饋給客戶端。
PS:本來我們通過111.152 . 151.45 的地址來訪問某網(wǎng)站,為了方便記憶和使用,才利用DNS域名系統(tǒng)轉(zhuǎn)換為了 www.***.org 。這也就是DNS域名系統(tǒng)的作用。
② 連接IP地址服務(wù)器
該IP服務(wù)器下可能會有很多程序(網(wǎng)站),可以通過端口號來做區(qū)分,同時每個程序(網(wǎng)站)都會監(jiān)聽端口是否有新的連接請求,HTTP網(wǎng)站默認(rèn)為80,HTTPS網(wǎng)站默認(rèn)為443。
不過通常情況下,端口號80和443是默認(rèn)不出現(xiàn)的。
舉例來講:
https://www.***.org:443/ = https://www.***.org/
http://www.***.org:80/ = http://www.***.org/
③ 建立連接并發(fā)送頁面請求
客戶端與服務(wù)器建立連接后,會發(fā)送頁面請求,通常為get,也可以是post。
get 11806 HTTPS/1.0
獲取HTTPS協(xié)議下的頁面11806 返回給客戶端。之后如需繼續(xù)獲取更多頁面,則發(fā)送其他請求,否則將關(guān)閉該連接。
PS:通常情況下 ,/seo/11806.html 可能會更清晰。也就是發(fā)送 https://www.***.org/ 下的 seo文件夾下的 11806.html 的頁面請求。
新聞名稱:網(wǎng)站在優(yōu)化過程中頁面抓取過程簡述
當(dāng)前地址:http://jinyejixie.com/news/61674.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供商城網(wǎng)站、品牌網(wǎng)站建設(shè)、網(wǎng)站設(shè)計公司、域名注冊、外貿(mào)建站、網(wǎng)站改版
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容