如何用python登錄主流 24 個(gè)網(wǎng)站,很多新手對此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。
呂梁網(wǎng)站建設(shè)公司創(chuàng)新互聯(lián),呂梁網(wǎng)站設(shè)計(jì)制作,有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為呂梁超過千家提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\外貿(mào)網(wǎng)站制作要多少錢,請找那個(gè)售后服務(wù)好的呂梁做網(wǎng)站的公司定做!
爬蟲腳本是大家經(jīng)常用到的,那就避開不了登錄 這一關(guān)。
使用Python一般需要request庫,補(bǔ)充 header 中的 post 要素,有些還會(huì)有 隱藏的 hidden 參數(shù),可以通過瀏覽器 F12 或者元素審查來發(fā)現(xiàn),對于初學(xué)者來說都是一個(gè)坑。
還有需要解決驗(yàn)證碼的問題,一種方法是下載驗(yàn)證碼圖片識(shí)別驗(yàn)證碼再次post,或者使用云打碼平臺(tái)。當(dāng)然,有些驗(yàn)證碼及其變態(tài)就不那么容易解決了,比如選字順序、滑塊、12306那種人為都會(huì)選錯(cuò)的。
上面是作者已經(jīng)完成的一些主流網(wǎng)站了,其中有的是通過 selenium登錄,有的是通過 抓包直接模擬登錄,有的是利用 scrapy框架。
這個(gè)很容易理解,因?yàn)橛械?a href="http://jinyejixie.com/" target="_blank">網(wǎng)站設(shè)計(jì)比較復(fù)雜,通過抓包很難實(shí)現(xiàn)模擬登錄,這樣用 selenium+webdriver 就會(huì)相對輕松一些。
雖然在登錄的時(shí)候采用的是selenium,為了效率,我們可以在登錄過后得到的cookie維護(hù)起來,然后調(diào)用requests或者scrapy等進(jìn)行數(shù)據(jù)采集,這樣數(shù)據(jù)采集的速度可以得到保證。
這里給大家展示一個(gè)模擬登錄GitHub的代碼。
"""
github第二種登錄方式
info:
author:CriseLYJ
github:https://github.com/CriseLYJ/
update_time:2019-3-7
"""
import re
import requests
from lxml import etree
class Login(object):
class GithubLogin(object):
def __init__(self, email, password):
# 初始化信息
self.headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
'Referer': 'https://github.com/',
'Host': 'github.com'
}
self.session = requests.Session()
self.login_url = 'https://github.com/login'
self.post_url = 'https://github.com/session'
self.session = requests.Session()
self.email = email
self.password = password
# 模擬登錄
def login_GitHub(self):
# 登錄入口
post_data = {
'commit': 'Sign in',
'utf8': '?',
'authenticity_token': self.get_token(),
'login': self.email,
'password': self.password
}
resp = self.session.post(
self.post_url, data=post_data, headers=self.headers)
print('StatusCode:', resp.status_code)
if resp.status_code != 200:
print('Login Fail')
match = re.search(r'"user-login" content="(.*?)"', resp.text)
user_name = match.group(1)
print('UserName:', user_name)
response = self.session.post(self.post_url, data=post_data, headers=self.headers)
print(response.status_code)
print(post_data)
if response.status_code == 200:
print("登錄成功!")
else:
print("登錄失敗!")
# 獲取token信息
# Get login token
def get_token(self):
response = self.session.get(self.login_url, headers=self.headers)
html = etree.HTML(response.content.decode())
token = html.xpath('//input[@name="authenticity_token"]/@value')[0]
return token
if response.status_code != 200:
print('Get token fail')
return None
match = re.search(
r'name="authenticity_token" value="(.*?)"', response.text)
if not match:
print('Get Token Fail')
return None
return match.group(1)
if __name__ == '__main__':
email = input('請輸入您的賬號(hào): ')
password = input('請輸入您的密碼: ')
email = input('Account:')
password = input('Password:')
login = Login(email, password)
login = GithubLogin(email, password)
login.login_GitHub()
相信這對初學(xué)爬蟲的朋友是一個(gè)很好的教程。
但提示一下,模擬登錄的代碼隨時(shí)都有可能失效,因?yàn)榍岸说木W(wǎng)頁HTML、CSS、JS等結(jié)構(gòu)可能會(huì)根據(jù)公司業(yè)務(wù)調(diào)整之類的發(fā)生變化。
所以,重點(diǎn)是掌握了各種技巧,學(xué)會(huì)這些完全可以自己調(diào)試完成登錄,那時(shí)候你也可以成為 contributor 了!
看完上述內(nèi)容是否對您有幫助呢?如果還想對相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝您對創(chuàng)新互聯(lián)的支持。
新聞名稱:如何用python登錄主流24個(gè)網(wǎng)站
文章位置:http://jinyejixie.com/article28/psiojp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供定制網(wǎng)站、網(wǎng)站內(nèi)鏈、網(wǎng)站維護(hù)、用戶體驗(yàn)、、服務(wù)器托管
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)