成人午夜视频全免费观看高清-秋霞福利视频一区二区三区-国产精品久久久久电影小说-亚洲不卡区三一区三区一区

Python爬蟲基礎庫有哪些

這篇文章主要介紹“Python爬蟲基礎庫有哪些”,在日常操作中,相信很多人在Python爬蟲基礎庫有哪些問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”Python爬蟲基礎庫有哪些”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!

創(chuàng)新互聯(lián)專注于鄱陽企業(yè)網站建設,響應式網站建設,商城系統(tǒng)網站開發(fā)。鄱陽網站建設公司,為鄱陽等地區(qū)提供建站服務。全流程按需網站策劃,專業(yè)設計,全程項目跟蹤,創(chuàng)新互聯(lián)專業(yè)和態(tài)度為您提供的服務

爬蟲有三大基礎庫Requests、BeautifulSoup和Lxml,這三大庫對于初學者使用頻率最高,現(xiàn)在大家一起來看看這基礎三大庫的使用。

1、Requests庫

Requests庫的作用就是請求網站獲取網頁數據。

Code:res=requests.get(url)

返回:

  1. 返回200說明請求成功

  2. 返回404、400說明請求失敗

Code:res=request.get(url,headers=headers)

添加請求頭信息偽裝為瀏覽器,可以更好的請求數據信息

Code:res.text

詳細的網頁信息文本

2、BeautifulSoup庫

BeautifulSoup庫用來將Requests提取的網頁進行解析,得到結構化的數據

Soup=BeautifulSoup(res.text,’html.parser’)

詳細數據提取:

infos=soup.select(‘路徑’)

路徑提取方法:在固定數據位置右鍵-copy-copy selector

Python爬蟲基礎庫有哪些

3、Lxml庫

Lxml為XML解析庫,可以修正HTML代碼,形成結構化的HTML結構

Python爬蟲基礎庫有哪些

Code:

From lxml import etree

Html=etree.HTML(text)

Infos=Html.xpath(‘路徑’)

路徑提取方法:在固定數據位置右鍵-Copy-Copy Xpath

實踐案例:

1、爬取酷狗榜單TOP500音樂信息

Python爬蟲基礎庫有哪些

2、網頁無翻頁,如何尋找URL,發(fā)現(xiàn)第一頁URL為:

https://www.kugou.com/yy/rank/home/1-8888.html?from=rank

嘗試把1換成2,可以得到新的網頁,依次類推,得到迭代的網頁URL

Python爬蟲基礎庫有哪些

3、爬取信息為歌曲名字、歌手等

Python爬蟲基礎庫有哪些

4、詳細代碼如下:

import requestsfrom bs4 import BeautifulSoupimport time
headers={"User-Agent": "xxxx"}
def get_info(url):    print(url)    #通過請求頭和鏈接,得到網頁頁面整體信息    web_data=requests.get(url,headers=headers)    #print(web_data.text)    #對返回的結果進行解析    soup=BeautifulSoup(web_data.text,'lxml')    #找到具體的相同的數據的內容位置和內容    ranks = soup.select('span.pc_temp_num')    titles = soup.select('div.pc_temp_songlist > ul > li > a')    times = soup.select('span.pc_temp_tips_r > span')    #提取具體的文字內容    for rank, title, time in zip(ranks, titles, times):        data = {            'rank': rank.get_text().strip(),            'singer': title.get_text().split('-')[0],            'song': title.get_text().split('-')[1],            'time': time.get_text().strip()        }        print(data)
if __name__=='__main__':    urls = ['https://www.kugou.com/yy/rank/home/{}-8888.html?from=rank'.format(i) for i in range(1, 2)]    for url in urls:        get_info(url)    time.sleep(1)

到此,關于“Python爬蟲基礎庫有哪些”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續(xù)學習更多相關知識,請繼續(xù)關注創(chuàng)新互聯(lián)網站,小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>

分享文章:Python爬蟲基礎庫有哪些
本文地址:http://jinyejixie.com/article34/jpoipe.html

成都網站建設公司_創(chuàng)新互聯(lián),為您提供靜態(tài)網站、網站策劃、營銷型網站建設網站營銷、企業(yè)建站、定制開發(fā)

廣告

聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

網站建設網站維護公司
新巴尔虎右旗| 娄底市| 赤城县| 罗甸县| 岳阳县| 历史| 枣强县| 宿州市| 襄城县| 绥宁县| 遵义市| 黄平县| 玉林市| 西华县| 昆山市| 连山| 东山县| 迁安市| 错那县| 甘泉县| 铜陵市| 南郑县| 商丘市| 庆阳市| 晋江市| 阿克苏市| 秭归县| 象州县| 大关县| SHOW| 龙江县| 桦南县| 台南县| 崇文区| 北川| 昔阳县| 保德县| 贡山| 张家界市| 隆昌县| 乳山市|