2021-02-15 分類: 網(wǎng)站建設(shè)
爬蟲定義、分類和流程
爬蟲定義
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人)就是模擬瀏覽器發(fā)送網(wǎng)絡(luò)請(qǐng)求,接收請(qǐng)求響應(yīng),一種按照一定的規(guī)則,自動(dòng)地抓取互聯(lián)網(wǎng)信息的程序。爬蟲就是模擬瀏覽器的行為,越像越好,越像就越不容易被發(fā)現(xiàn)。原則上,只要是瀏覽器(客戶端)能做的事情,爬蟲都能夠做。爬蟲的分類
通用爬蟲:通常指搜索引擎的爬蟲
聚焦爬蟲:針對(duì)特定網(wǎng)站的爬蟲
爬蟲的用途
爬蟲的流程
robots 協(xié)議
Robots 協(xié)議:網(wǎng)站通過(guò) Robots 協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取,但它僅僅是道德層面上的約束 例如:淘寶的 robots 協(xié)議總結(jié)
HTTP 與 HTTPS 的概念
HTTP
概念:HTTP(超文本傳輸協(xié)議)是應(yīng)用層上的一種客戶端/服務(wù)端模型的通信協(xié)議,它由請(qǐng)求和響應(yīng)構(gòu)成,且是無(wú)狀態(tài)的。 協(xié)議:協(xié)議規(guī)定了通信雙方必須遵守的數(shù)據(jù)傳輸格式,這樣通信雙方按照約定的格式才能準(zhǔn)確的通信。 無(wú)狀態(tài):無(wú)狀態(tài)是指兩次諒解通信之間是沒(méi)有任何聯(lián)系的,每次都是一個(gè)新的連接,服務(wù)端不會(huì)記錄前后的請(qǐng)求信息。HTTP 請(qǐng)求流程
五層網(wǎng)絡(luò)模型
HTTP協(xié)議結(jié)構(gòu)圖
網(wǎng)絡(luò)模型對(duì)應(yīng)關(guān)系
url 地址格式
HTTP 請(qǐng)求
請(qǐng)求格式
案例
請(qǐng)求方式描述GET請(qǐng)求指定的頁(yè)面信息,并返回實(shí)體主體。HEAD類似于 get 請(qǐng)求,只不過(guò)返回的響應(yīng)中沒(méi)有具體的內(nèi)容,用于獲取報(bào)頭POST向指定資源提交數(shù)據(jù)進(jìn)行處理請(qǐng)求(例如提交表單或者上傳文件)。數(shù)據(jù)被包含在請(qǐng)求體中。POST 請(qǐng)求可能會(huì)導(dǎo)致新的資源的建立和/或已有資源的修改。PUT從客戶端向服務(wù)器傳送的數(shù)據(jù)取代指定的文檔的內(nèi)容DELETE請(qǐng)求服務(wù)器刪除指定的頁(yè)面。CONNECTHTTP/1.1 協(xié)議中預(yù)留給能夠?qū)⑦B接改為管道方式的代理服務(wù)器。OPTIONS允許客戶端查看服務(wù)器的性能。TRACE回顯服務(wù)器收到的請(qǐng)求,主要用于測(cè)試或診斷。
請(qǐng)求頭作用CookieCookieUser-Agent瀏覽器名稱Referer頁(yè)面跳轉(zhuǎn)處Host主機(jī)和端口號(hào)Connection鏈接類型Upgrade-Insecure-Requests升級(jí)為 HTTPS 請(qǐng)求Accept傳輸文件類型Accept-Encoding文件編解碼格式x-requested-with : XMLHttpRequestajax 請(qǐng)求
HTTP 響應(yīng)
響應(yīng)頭作用Location這個(gè)頭配合 302 狀態(tài)碼使用,告訴用戶端找誰(shuí)。Set-Cookie設(shè)置和頁(yè)面關(guān)聯(lián)的 CookieContent-Type服務(wù)器通過(guò)這個(gè)頭,回送數(shù)據(jù)的類型Server服務(wù)器通過(guò)這個(gè)頭,告訴瀏覽器服務(wù)器的類型Content-Length服務(wù)器通過(guò)這個(gè)頭,告訴瀏覽器回送數(shù)據(jù)的長(zhǎng)度Connection服務(wù)器通過(guò)這個(gè)頭,響應(yīng)完是保持鏈接還是關(guān)閉鏈接
分類分類描述1**信息,服務(wù)器收到請(qǐng)求,需要請(qǐng)求者繼續(xù)執(zhí)行操作2**成功,操作被成功接收并處理3**重定向,需要進(jìn)一步的操作以完成請(qǐng)求4**客戶端錯(cuò)誤,請(qǐng)求包含語(yǔ)法錯(cuò)誤或無(wú)法完成請(qǐng)求5**服務(wù)器錯(cuò)誤,服務(wù)器在處理請(qǐng)求的過(guò)程中發(fā)生了錯(cuò)誤
HTTPS
1- HTTP + ssl (安全套接字層),即帶有安全套接字層的超本文傳輸協(xié)議 2- 默認(rèn)端口號(hào):443
文章名稱:學(xué)習(xí)網(wǎng)絡(luò)爬蟲需要了解哪些知識(shí)?
分享地址:http://jinyejixie.com/news16/101066.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供靜態(tài)網(wǎng)站、響應(yīng)式網(wǎng)站、網(wǎng)站設(shè)計(jì)公司、定制開(kāi)發(fā)、做網(wǎng)站、關(guān)鍵詞優(yōu)化
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容