成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

如何用python抓取js生成的頁(yè)面-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動(dòng)態(tài)BGP香港云服務(wù)器提供商,新人活動(dòng)買(mǎi)多久送多久,劃算不套路!

成都創(chuàng)新互聯(lián)長(zhǎng)期為超過(guò)千家客戶(hù)提供的網(wǎng)站建設(shè)服務(wù),團(tuán)隊(duì)從業(yè)經(jīng)驗(yàn)10年,關(guān)注不同地域、不同群體,并針對(duì)不同對(duì)象提供差異化的產(chǎn)品和服務(wù);打造開(kāi)放共贏平臺(tái),與合作伙伴共同營(yíng)造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為貴德企業(yè)提供專(zhuān)業(yè)的成都網(wǎng)站設(shè)計(jì)、成都做網(wǎng)站,貴德網(wǎng)站改版等技術(shù)服務(wù)。擁有十載豐富建站經(jīng)驗(yàn)和眾多成功案例,為您定制開(kāi)發(fā)。

這篇文章將為大家詳細(xì)講解有關(guān)如何用python抓取js生成的頁(yè)面,小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。

之前我們爬取的網(wǎng)頁(yè),多是HTML靜態(tài)生成的內(nèi)容,直接從HTML源碼中就能找到看到的數(shù)據(jù)和內(nèi)容,然而并不是所有的網(wǎng)頁(yè)都是這樣的。

如何用python抓取js生成的頁(yè)面

有一些網(wǎng)站的內(nèi)容由前端的JS動(dòng)態(tài)生成,由于呈現(xiàn)在網(wǎng)頁(yè)上的內(nèi)容是由JS生成而來(lái),我們能夠在瀏覽器上看得到,但是在HTML源碼中卻發(fā)現(xiàn)不了。比如今日頭條:

瀏覽器呈現(xiàn)的網(wǎng)頁(yè)是這樣的:

如何用python抓取js生成的頁(yè)面

查看源碼,卻是這樣的:

如何用python抓取js生成的頁(yè)面

網(wǎng)頁(yè)的新聞在HTML源碼中一條都找不到,全是由JS動(dòng)態(tài)生成加載。

遇到這種情況,我們應(yīng)該如何對(duì)網(wǎng)頁(yè)進(jìn)行爬取呢?有兩種方法:

1、從網(wǎng)頁(yè)響應(yīng)中找到JS腳本返回的JSON數(shù)據(jù);2、使用Selenium對(duì)網(wǎng)頁(yè)進(jìn)行模擬訪問(wèn)

一、從網(wǎng)頁(yè)響應(yīng)中找到JS腳本返回的JSON數(shù)據(jù)

即使網(wǎng)頁(yè)內(nèi)容是由JS動(dòng)態(tài)生成加載的,JS也需要對(duì)某個(gè)接口進(jìn)行調(diào)用,并根據(jù)接口返回的JSON數(shù)據(jù)再進(jìn)行加載和渲染。

所以我們可以找到JS調(diào)用的數(shù)據(jù)接口,從數(shù)據(jù)接口中找到網(wǎng)頁(yè)中最后呈現(xiàn)的數(shù)據(jù)。

就以今日頭條為例來(lái)演示:

1、從找到JS請(qǐng)求的數(shù)據(jù)接口

F12打開(kāi)網(wǎng)頁(yè)調(diào)試工具

如何用python抓取js生成的頁(yè)面

選擇“網(wǎng)絡(luò)”選項(xiàng)卡后,發(fā)現(xiàn)有很多響應(yīng),我們篩選一下,只看XHR響應(yīng)。

(XHR是Ajax中的概念,表示XMLHTTPrequest)

然后我們發(fā)現(xiàn)少了很多鏈接,隨便點(diǎn)開(kāi)一個(gè)看看:

我們選擇city,預(yù)覽中有一串json數(shù)據(jù):

如何用python抓取js生成的頁(yè)面

我們?cè)冱c(diǎn)開(kāi)看看:

如何用python抓取js生成的頁(yè)面

原來(lái)全都是城市的列表,應(yīng)該是加載地區(qū)新聞之用的。

現(xiàn)在大概了解了怎么找JS請(qǐng)求的接口的吧?但是剛剛我們并沒(méi)有發(fā)現(xiàn)想要的新聞,再找找看:

有一個(gè)focus,我們點(diǎn)開(kāi)看看:

如何用python抓取js生成的頁(yè)面

與首頁(yè)的圖片新聞呈現(xiàn)的數(shù)據(jù)是一樣的,那么數(shù)據(jù)應(yīng)該就在這里面了。

看看其他的鏈接:

如何用python抓取js生成的頁(yè)面

這應(yīng)該是熱搜關(guān)鍵詞

如何用python抓取js生成的頁(yè)面

這個(gè)就是圖片新聞下面的新聞了。

我們打開(kāi)一個(gè)接口鏈接看看:http://www.toutiao.com/api/pc/focus/

如何用python抓取js生成的頁(yè)面

返回一串亂碼,但從響應(yīng)中查看的是正常的編碼數(shù)據(jù):

如何用python抓取js生成的頁(yè)面

有了對(duì)應(yīng)的數(shù)據(jù)接口,我們就可以仿照之前的方法對(duì)數(shù)據(jù)接口進(jìn)行請(qǐng)求和獲取響應(yīng)了

2、請(qǐng)求和解析數(shù)據(jù)接口數(shù)據(jù)

先上完整代碼:

# coding:utf-8
import requests
import json

url = 'http://www.toutiao.com/api/pc/focus/'
wbdata = requests.get(url).text

data = json.loads(wbdata)
news = data['data']['pc_feed_focus']

for n in news:    
  title = n['title']    
  img_url = n['image_url']    
  url = n['media_url']    
  print(url,title,img_url)

返回出來(lái)的結(jié)果如下:

如何用python抓取js生成的頁(yè)面

代碼分為四部分

第一部分:引入相關(guān)的庫(kù)

# coding:utf-8
import requests
import json

第二部分:對(duì)數(shù)據(jù)接口進(jìn)行http請(qǐng)求

url = 'http://www.toutiao.com/api/pc/focus/'
wbdata = requests.get(url).text

第三部分:對(duì)HTTP響應(yīng)的數(shù)據(jù)JSON化,并索引到新聞數(shù)據(jù)的位置

data = json.loads(wbdata)
news = data['data']['pc_feed_focus'

第四部分:對(duì)索引出來(lái)的JSON數(shù)據(jù)進(jìn)行遍歷和提取

for n in news:    
  title = n['title']    
  img_url = n['image_url']    
  url = n['media_url']    
  print(url,title,img_url)

關(guān)于如何用python抓取js生成的頁(yè)面就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。

網(wǎng)頁(yè)標(biāo)題:如何用python抓取js生成的頁(yè)面-創(chuàng)新互聯(lián)
標(biāo)題URL:http://jinyejixie.com/article4/ceodoe.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供響應(yīng)式網(wǎng)站、小程序開(kāi)發(fā)、營(yíng)銷(xiāo)型網(wǎng)站建設(shè)、手機(jī)網(wǎng)站建設(shè)網(wǎng)站設(shè)計(jì)、靜態(tài)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

小程序開(kāi)發(fā)
天镇县| 宜州市| 兴国县| 宁南县| 商南县| 广灵县| 新干县| 桃江县| 尼木县| 麦盖提县| 江西省| 兴文县| 青铜峡市| 仙居县| 连云港市| 岳阳市| 建宁县| 莱芜市| 平阳县| 民和| 金华市| 柞水县| 靖安县| 元江| 云龙县| 惠来县| 泰来县| 资中县| 左权县| 醴陵市| 云林县| 缙云县| 进贤县| 涪陵区| 富宁县| 富平县| 盐山县| 杨浦区| 益阳市| 大埔县| 邵东县|