selenium獲取網(wǎng)頁內(nèi)容(selenium獲取頁面元素及個(gè)數(shù))
2接著,我們按F12調(diào)出開發(fā)者工具,依次點(diǎn)擊“Network”“XHR”,F(xiàn)5刷新頁面,就會(huì)看到動(dòng)態(tài)加載的json文件,查看這個(gè)文件,內(nèi)容如下,左邊為json文件的url地址,右邊就是我們需要爬取的div數(shù)據(jù)3最后對(duì)應(yīng)上面的json文件。
iframe是html中常用的一種技術(shù),即一個(gè)頁面中嵌套了另一個(gè)網(wǎng)頁,selenium默認(rèn)是訪問不了frame中的內(nèi)容的,對(duì)應(yīng)的解決思路是 思路先定位并切換至iframe內(nèi),再進(jìn)行你安排前元素操作 最后可通過切換至窗口,從iframe中切換出。
整個(gè)網(wǎng)頁代碼啥樣的代碼中只出現(xiàn)兩個(gè)div那就用css選擇器,看下面。
獲取標(biāo)簽內(nèi)容 使用elementattribute方法獲取dom元素的內(nèi)容,如dr = driverfind_element_by_id#39tooltip#39drget_attribute#39dataoriginaltitle#39 #獲取tooltip的內(nèi)容 drtext #獲取該鏈接的text 獲取標(biāo)簽屬性 l。
抓取動(dòng)態(tài)頁面有兩種常用的方法,一是通過JavaScript逆向工程獲取動(dòng)態(tài)數(shù)據(jù)接口真實(shí)的訪問路徑,另一種是利用selenium庫模擬真實(shí)瀏覽器,獲取JavaScript渲染后的內(nèi)容但selenium庫用起來比較繁瑣,抓取速度相對(duì)較慢,所以第一種。
在Selenium中,可以使用getText方法來獲取某個(gè)元素顯示在網(wǎng)頁上的文本。
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由飛速云SEO網(wǎng)絡(luò)優(yōu)化推廣發(fā)布,如需轉(zhuǎn)載請(qǐng)注明出處。