Scrapy项目之User timeout caused connection failure(异常记录)

阅读: 评论:0

Scrapy项目之User timeout caused connection failure(异常记录)

Scrapy项目之User timeout caused connection failure(异常记录)

Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0,

 

提示:此文存在问题,真正测试, 请勿阅读,

 

07-14 14:26更新:

经过两个多小时的测试,发现此问题的原因是 昨天编写爬虫程序后,给爬虫程序添加了下面的属性:

download_timeout = 20

此属性的解释:

The amount of time (in secs) that the downloader will wait before timing out.

在获取某网站的子域名的文件时,需要的时间远远超过20秒,因此,即便有三次重试的机会,也会最终失败。

此值默认为180,因为某网站是国内网站,因此,孤以为它的文件全部都会下载的很快,不需要180这么大,于是更改为20,谁知道,其下子域名的却需要这么久:

测试期间更改为30时,状况好了,目前已取消设置此值,已能抓取到需要的数据。

可是,为什么会下载这么慢呢?

 

删除Request中定义的errback进行测试,也可以获取到需要的数据。

那么,在Request中定义errback有什么用呢?

 

现在,再次在项目内、项目外执行下面的命令都不会发生DNSLookupError了࿰

本文发布于:2024-02-02 00:40:23,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170681094340271.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:异常   项目   User   Scrapy   timeout
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23