pyppeteer爬虫案例

阅读：评论：0

pyppeteer爬虫案例

pyppeteer官方说明网站API Reference — Pyppeteer 0.0.25 documentation.html

import asyncio
from pyppeteer import launch
from lxml import etree
from txdpy import siasync def main():browser = await launch({'headless':False,                #headless指定浏览器是否以无头模式运行'args': ['--disable-infobars',   #代表关闭浏览上方的“Chrome 正受到自动测试软件的控制'--window-size=1920,1080'#设置浏览器的显示大小]})page=wPage()await page.setViewport({'width': 1920, 'height': 1080})  # 设置页面的大小# evaluate()是执行js的方法，js逆向时如果需要在浏览器环境下执行js代码的话可以利用这个方法# js为设置webdriver的值，防止网站检测await page.evaluate('''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36')# ('/',timeout=30000)# xpath1= '//ul/a[@title="安徽"]'# await page.waitForXPath(xpath1)# anhui = await page.Jx(xpath1)# await anhui[0].click()('=844&pname=%E5%AE%89%E5%BE%BD&redirectUrl=/',timeout=30000)await asyncio.sleep(1)await page.waitForXPath('//*[@id="btntopSearch"]')pe('#searchwd','西安交通大学')sousuo = await page.Jx('//*[@id="btntopSearch"]')await sousuo[0].click()await page.waitFor('.news-list-con')tree=etree.HTML(t())news=tree.xpath('//*[@class="news-list-con"]')for new in news:print('t'.join(si(new.xpath('.//text()'))[:7]).strip())await asyncio.sleep(200)await browser.close()_event_loop().run_until_complete(main())

本文发布于:2024-02-08 20:01:31，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170739391568633.html

上一篇：张光明：儿童癫痫发病多，应正规诊疗越早预后越好，防止进入认识误区

下一篇：empecs网爬虫案例

标签：爬虫案例 pyppeteer

留言与评论（共有 0 条评论）