有沒(méi)有原網(wǎng)頁(yè)信息,xpath 寫(xiě)絕對(duì)路徑是及其容易出錯(cuò)的,要寫(xiě)相對(duì)路徑+元素的屬性,如上改為//a[@屬性=值]或類(lèi)似形式比較好。
創(chuàng)新互聯(lián)建站成都網(wǎng)站建設(shè)按需網(wǎng)站設(shè)計(jì),是成都網(wǎng)站推廣公司,為成都塔吊租賃提供網(wǎng)站建設(shè)服務(wù),有成熟的網(wǎng)站定制合作流程,提供網(wǎng)站定制設(shè)計(jì)服務(wù):原型圖制作、網(wǎng)站創(chuàng)意設(shè)計(jì)、前端HTML5制作、后臺(tái)程序開(kāi)發(fā)等。成都網(wǎng)站維護(hù)熱線(xiàn):028-86922220
把from lxml import etree改成from lxml.etree import HTML,下面的etree.HTML改成HTML就行了。
//div[@class=list-wrap]//li/text()然后用循環(huán),不然所有內(nèi)容會(huì)混在一起。
你輸出html看看,根本不是網(wǎng)頁(yè)。這網(wǎng)站好像有反爬限制。你用基于瀏覽器的爬蟲(chóng)試試。例如 chrome 的 Web Scraper。
這次給大家?guī)?lái)如何使用Python爬蟲(chóng)來(lái)進(jìn)行JS加載數(shù)據(jù)網(wǎng)頁(yè)的爬取,使用Python爬蟲(chóng)來(lái)進(jìn)行JS加載數(shù)據(jù)網(wǎng)頁(yè)爬取的注意事項(xiàng)有哪些,下面就是實(shí)戰(zhàn)案例,一起來(lái)看一下。
種方法可以定位爬蟲(chóng)位置:傳統(tǒng) BeautifulSoup 操作 經(jīng)典的 BeautifulSoup 方法借助 from bs4 import BeautifulSoup,然后通過(guò) soup = BeautifulSoup(html, lxml) 將文本轉(zhuǎn)換為特定規(guī)范的結(jié)構(gòu),利用 find 系列方法進(jìn)行解析。
在iframe里面獲取的話(huà)可以直接通過(guò)input的id定位,在父頁(yè)面的話(huà)可以通過(guò)給iframe寫(xiě)一個(gè)id,通過(guò)iframe的id定位到input ,$(#iframe的id).contents().find(#userNo)。
首先要明確想要爬取的目標(biāo)。對(duì)于網(wǎng)頁(yè)源信息的爬取首先要獲取url,然后定位的目標(biāo)內(nèi)容。先使用基礎(chǔ)for循環(huán)生成的url信息。然后需要模擬瀏覽器的請(qǐng)求(使用request.get(url)),獲取目標(biāo)網(wǎng)頁(yè)的源代碼信息(req.text)。
您可以嘗試使用element.get_attribute(value)來(lái)獲取該元素的值,因?yàn)榭赡茉撛氐奈谋局挡⒎强梢?jiàn)文本,而是元素的值屬性。
應(yīng)該是driver.find_element_by_xpath(//android.widget.ScrollView/android.widget.RelativeLayout[5]/android.widget.TextView[2]).click()吧。
應(yīng)該為L(zhǎng)inearLayout[1]\ListView[0],至于原因,想想數(shù)組的調(diào)用 xpath的獲取,如果是網(wǎng)頁(yè)端的很方便 用chrome, 選中你要獲取的元素右鍵鼠標(biāo),審查元素。
您可以嘗試使用element.get_attribute(value)來(lái)獲取該元素的值,因?yàn)榭赡茉撛氐奈谋局挡⒎强梢?jiàn)文本,而是元素的值屬性。
先貼一個(gè)lxml的簡(jiǎn)單框架:其中,最主要的在于xpath路徑的獲取和解析,而XPath就是地址,具體地,就是需要知道所要尋找的內(nèi)容處在哪個(gè)地址下。
通過(guò)截圖就可以看到元素的屬性,那怎么元素定位呢? 問(wèn)題 xpath 相對(duì)定位:如果相對(duì)定位中這個(gè)元素是有 id 的,這個(gè) id 是唯一的,xpath 定位中優(yōu)先通過(guò) id 來(lái)定位。
); WebElement element = driver.findElement(By.className(cpBtn-zj)); System.out.println(element.getTagName()); }}參考這一段java代碼,關(guān)鍵是你這個(gè)控件需要使用className來(lái)定位。
名稱(chēng)欄目:關(guān)于xpath定位html5的信息
分享鏈接:http://jinyejixie.com/article30/dgpdeso.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站排名、App開(kāi)發(fā)、面包屑導(dǎo)航、建站公司、企業(yè)建站、全網(wǎng)營(yíng)銷(xiāo)推廣
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)