pyppeteer爬虫案例

阅读: 评论:0

pyppeteer爬虫案例

pyppeteer爬虫案例

pyppeteer官方说明网站API Reference — Pyppeteer 0.0.25 documentation.html

import asyncio
from pyppeteer import launch
from lxml import etree
from txdpy import siasync def main():browser = await launch({'headless':False,                #headless指定浏览器是否以无头模式运行'args': ['--disable-infobars',   #代表关闭浏览上方的“Chrome 正受到自动测试软件的控制'--window-size=1920,1080'#设置浏览器的显示大小]})page=wPage()await page.setViewport({'width': 1920, 'height': 1080})  # 设置页面的大小# evaluate()是执行js的方法,js逆向时如果需要在浏览器环境下执行js代码的话可以利用这个方法# js为设置webdriver的值,防止网站检测await page.evaluate('''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36')# ('/',timeout=30000)# xpath1= '//ul/a[@title="安徽"]'# await page.waitForXPath(xpath1)# anhui = await page.Jx(xpath1)# await anhui[0].click()('=844&pname=%E5%AE%89%E5%BE%BD&redirectUrl=/',timeout=30000)await asyncio.sleep(1)await page.waitForXPath('//*[@id="btntopSearch"]')pe('#searchwd','西安交通大学')sousuo = await page.Jx('//*[@id="btntopSearch"]')await sousuo[0].click()await page.waitFor('.news-list-con')tree=etree.HTML(t())news=tree.xpath('//*[@class="news-list-con"]')for new in news:print('t'.join(si(new.xpath('.//text()'))[:7]).strip())await asyncio.sleep(200)await browser.close()_event_loop().run_until_complete(main())

本文发布于:2024-02-08 20:01:31,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170739391568633.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:爬虫   案例   pyppeteer
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23