2021-02-15 分類: 網(wǎng)站建設(shè)
爬蟲定義、分類和流程
爬蟲定義
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人)就是模擬瀏覽器發(fā)送網(wǎng)絡(luò)請求,接收請求響應(yīng),一種按照一定的規(guī)則,自動地抓取互聯(lián)網(wǎng)信息的程序。爬蟲就是模擬瀏覽器的行為,越像越好,越像就越不容易被發(fā)現(xiàn)。原則上,只要是瀏覽器(客戶端)能做的事情,爬蟲都能夠做。爬蟲的分類
通用爬蟲:通常指搜索引擎的爬蟲
聚焦爬蟲:針對特定網(wǎng)站的爬蟲
爬蟲的用途
爬蟲的流程
robots 協(xié)議
Robots 協(xié)議:網(wǎng)站通過 Robots 協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取,但它僅僅是道德層面上的約束 例如:淘寶的 robots 協(xié)議總結(jié)
HTTP 與 HTTPS 的概念
HTTP
概念:HTTP(超文本傳輸協(xié)議)是應(yīng)用層上的一種客戶端/服務(wù)端模型的通信協(xié)議,它由請求和響應(yīng)構(gòu)成,且是無狀態(tài)的。 協(xié)議:協(xié)議規(guī)定了通信雙方必須遵守的數(shù)據(jù)傳輸格式,這樣通信雙方按照約定的格式才能準(zhǔn)確的通信。 無狀態(tài):無狀態(tài)是指兩次諒解通信之間是沒有任何聯(lián)系的,每次都是一個(gè)新的連接,服務(wù)端不會記錄前后的請求信息。HTTP 請求流程
五層網(wǎng)絡(luò)模型
HTTP協(xié)議結(jié)構(gòu)圖
網(wǎng)絡(luò)模型對應(yīng)關(guān)系
url 地址格式
HTTP 請求
請求格式
案例
請求方式描述GET請求指定的頁面信息,并返回實(shí)體主體。HEAD類似于 get 請求,只不過返回的響應(yīng)中沒有具體的內(nèi)容,用于獲取報(bào)頭POST向指定資源提交數(shù)據(jù)進(jìn)行處理請求(例如提交表單或者上傳文件)。數(shù)據(jù)被包含在請求體中。POST 請求可能會導(dǎo)致新的資源的建立和/或已有資源的修改。PUT從客戶端向服務(wù)器傳送的數(shù)據(jù)取代指定的文檔的內(nèi)容DELETE請求服務(wù)器刪除指定的頁面。CONNECTHTTP/1.1 協(xié)議中預(yù)留給能夠?qū)⑦B接改為管道方式的代理服務(wù)器。OPTIONS允許客戶端查看服務(wù)器的性能。TRACE回顯服務(wù)器收到的請求,主要用于測試或診斷。
請求頭作用CookieCookieUser-Agent瀏覽器名稱Referer頁面跳轉(zhuǎn)處Host主機(jī)和端口號Connection鏈接類型Upgrade-Insecure-Requests升級為 HTTPS 請求Accept傳輸文件類型Accept-Encoding文件編解碼格式x-requested-with : XMLHttpRequestajax 請求
HTTP 響應(yīng)
響應(yīng)頭作用Location這個(gè)頭配合 302 狀態(tài)碼使用,告訴用戶端找誰。Set-Cookie設(shè)置和頁面關(guān)聯(lián)的 CookieContent-Type服務(wù)器通過這個(gè)頭,回送數(shù)據(jù)的類型Server服務(wù)器通過這個(gè)頭,告訴瀏覽器服務(wù)器的類型Content-Length服務(wù)器通過這個(gè)頭,告訴瀏覽器回送數(shù)據(jù)的長度Connection服務(wù)器通過這個(gè)頭,響應(yīng)完是保持鏈接還是關(guān)閉鏈接
分類分類描述1**信息,服務(wù)器收到請求,需要請求者繼續(xù)執(zhí)行操作2**成功,操作被成功接收并處理3**重定向,需要進(jìn)一步的操作以完成請求4**客戶端錯(cuò)誤,請求包含語法錯(cuò)誤或無法完成請求5**服務(wù)器錯(cuò)誤,服務(wù)器在處理請求的過程中發(fā)生了錯(cuò)誤
HTTPS
1- HTTP + ssl (安全套接字層),即帶有安全套接字層的超本文傳輸協(xié)議 2- 默認(rèn)端口號:443
當(dāng)前名稱:學(xué)習(xí)網(wǎng)絡(luò)爬蟲需要了解哪些知識?
文章出自:http://jinyejixie.com/news/101066.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供動態(tài)網(wǎng)站、企業(yè)網(wǎng)站制作、定制開發(fā)、定制網(wǎng)站、ChatGPT、建站公司
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容