是用Scrapy Shell调试爬虫,测试jandan的是否发现,煎蛋网好像有简单的防爬功能。各种百度。总结一下
1.start_requests(self)添加user-agent字段
2.中间件方式。
但是上述方式都不能在shell中奏效,调试很不方便。
很简单;直接修改scrapy的user-agent默认值搞定。
settings/default-setting.py
246 #USER_AGENT = 'Scrapy/%s (+)' % import_module('scrapy').__version__
247 USER_AGENT = 'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0'
使用shell再次,发现已经可以正常访问html不会在出现403错误了。
本文发布于:2024-01-28 18:24:05,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/17064374509362.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |