成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

如何實(shí)現(xiàn)node.js基于cheerio的爬蟲工具-創(chuàng)新互聯(lián)

這篇文章主要介紹如何實(shí)現(xiàn)node.js基于cheerio的爬蟲工具,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!

成都一家集口碑和實(shí)力的網(wǎng)站建設(shè)服務(wù)商,擁有專業(yè)的企業(yè)建站團(tuán)隊(duì)和靠譜的建站技術(shù),10多年企業(yè)及個(gè)人網(wǎng)站建設(shè)經(jīng)驗(yàn) ,為成都上1000+客戶提供網(wǎng)頁設(shè)計(jì)制作,網(wǎng)站開發(fā),企業(yè)網(wǎng)站制作建設(shè)等服務(wù),包括成都營銷型網(wǎng)站建設(shè),品牌網(wǎng)站設(shè)計(jì),同時(shí)也為不同行業(yè)的客戶提供做網(wǎng)站、成都網(wǎng)站制作的服務(wù),包括成都電商型網(wǎng)站制作建設(shè),裝修行業(yè)網(wǎng)站制作建設(shè),傳統(tǒng)機(jī)械行業(yè)網(wǎng)站建設(shè),傳統(tǒng)農(nóng)業(yè)行業(yè)網(wǎng)站制作建設(shè)。在成都做網(wǎng)站,選網(wǎng)站制作建設(shè)服務(wù)商就選創(chuàng)新互聯(lián)公司。

先上代碼

'use strict';
// 引入模塊
const superagent = require('superagent');
const cheerio = require('cheerio');
const Excel = require('exceljs');
var baseUrl = '';
var Cookies = 'PHPSESSID=1c948cafb361cb5dce87122846e649cd'; //偽裝的cookie
let pageDatas = [];
let count = 1;
let limit = 3;
for (count; count < limit; count++) { 
  baseUrl = `http://bxjd.henoo.com/policy/policyList?page=${count}`;
  loadPage(baseUrl); 
}
function loadPage(baseUrl) { 
   getPageLoad(baseUrl);
} 
async function getPageLoad(baseUrl) {
  try {
    let body = await superagent.get(baseUrl)
      .set("Cookie", Cookies)
    var $ = cheerio.load(body.text);
    var trList = $("#tableList").children("tr");  
      for (var i = 0; i < trList.length; i++) { 
        let item = {};
        var tdArr = trList.eq(i).find("td");
        var id = tdArr.eq(0).text();
        item.sortId = id;
        var detailUrl = `http://bxjd.henoo.com/policy/view?id=${id}`;
        item.policyId = tdArr.eq(1).text();
        item.policyProductName = tdArr.eq(2).text();
        item.policyName = tdArr.eq(3).text();
        item.policyMoney = tdArr.eq(4).text();
        let detailBody = await superagent.get(detailUrl)
          .set("Cookie", Cookies);
        var $$ = cheerio.load(detailBody.text);
        var detailT = $$(".table-view");     
        //投保人證件號(hào)
        item.policyIdNum = detailT.find("tr").eq(11).find("td").eq(1).text();
        //投保人手機(jī)號(hào)
        item.policyPhone = detailT.find("tr").eq(10).find("td").eq(1).text();
        //被保人手機(jī)號(hào)
        item.bePoliciedPhone = detailT.find("tr").eq(16).find("td").eq(1).text();      
        //被保人姓名
        item.bePoliciedName = detailT.find("tr").eq(13).find("td").eq(1).text();
        console.log(item.bePoliciedName)
        //被保人證件號(hào)
        item.bePoliciedIdNum = detailT.find("tr").eq(17).find("td").eq(1).text();
        pageDatas = [...pageDatas,item];
      }
    if (pageDatas.length / 15 == (count - 1)) { 
      writeXLS(pageDatas)
    }
  } catch (error) {
  }
}
function writeXLS(pageDatas) {
  const workbook = new Excel.Workbook();
  const sheet = workbook.addWorksheet('My Sheet');
  const reColumns=[
    {header:'序號(hào)',key:'sortId'},
    {header:'投保單號(hào)',key:'policyId'},
    {header: '產(chǎn)品名稱', key: 'policyProductName'},
    {header: '投保人姓名', key: 'policyName' },
    {header: '投保人手機(jī)號(hào)', key: 'policyPhone' },
    {header: '投保人證件號(hào)', key: 'policyIdNum'},
    {header: '被保人姓名', key: 'bePoliciedName' },
    {header: '被保人手機(jī)號(hào)', key: 'bePoliciedPhone' },
    {header: '被保人證件號(hào)', key: 'bePoliciedIdNum' },
    {header:'保費(fèi)',key:'policyMoney'},
  ];
  sheet.columns = reColumns;
  for(let trData of pageDatas){
    sheet.addRow(trData);
  }
  const filename = './projects.xlsx';
  workbook.xlsx.writeFile(filename)
  .then(function() {
   console.log('ok');
  }).catch(function (error) { 
     console.error(error); 
  });
 }

代碼使用方式

一、npm install 相關(guān)的依賴二、代碼修改

1、修改為自己的baseUrl

2、如果不需要攜帶cookie時(shí)將set("Cookie", Cookies)代碼去掉

3、修改自己的業(yè)務(wù)代碼

三、運(yùn)行 node index四、部分代碼說明

所有代碼不過90行不到,操作了表格數(shù)據(jù)獲取和單條數(shù)據(jù)詳情的獲取

如何實(shí)現(xiàn)node.js基于cheerio的爬蟲工具

接口請(qǐng)求的框架使用superagent的原因是拼接偽裝的cookie的操作比較簡單。因?yàn)橛械臅r(shí)候我們需要獲取登錄后的頁面數(shù)據(jù)。

這個(gè)時(shí)候可能需要請(qǐng)求是攜帶登錄cookie信息。返回后的body對(duì)象通過cheerio.load之后就能拿到一個(gè)類似jquery的文檔對(duì)象。

后面就可以很方便的使用jquery的dom操作方式去拿到頁面內(nèi)自己想要的數(shù)據(jù)了。

如何實(shí)現(xiàn)node.js基于cheerio的爬蟲工具

數(shù)據(jù)寫入到excel中。

五、結(jié)果

如何實(shí)現(xiàn)node.js基于cheerio的爬蟲工具

如何實(shí)現(xiàn)node.js基于cheerio的爬蟲工具

以上是“如何實(shí)現(xiàn)node.js基于cheerio的爬蟲工具”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對(duì)大家有幫助,更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!

文章標(biāo)題:如何實(shí)現(xiàn)node.js基于cheerio的爬蟲工具-創(chuàng)新互聯(lián)
網(wǎng)址分享:http://jinyejixie.com/article22/dpojcc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供全網(wǎng)營銷推廣品牌網(wǎng)站建設(shè)、關(guān)鍵詞優(yōu)化、網(wǎng)站設(shè)計(jì)公司、網(wǎng)站改版自適應(yīng)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

綿陽服務(wù)器托管
南靖县| 封丘县| 武平县| 福泉市| 克什克腾旗| 贵阳市| 潞城市| 富源县| 融水| 松江区| 玉田县| 萨迦县| 龙岩市| 湟中县| 利津县| 崇阳县| 白玉县| 巫山县| 通渭县| 清水县| 巴里| 东安县| 永平县| 龙里县| 基隆市| 武定县| 渝北区| 衡东县| 阆中市| 崇仁县| 苏州市| 温泉县| 南丹县| 涡阳县| 富蕴县| 新野县| 高唐县| 大港区| 凤山市| 遵义市| 乌鲁木齐市|