Scrapy项目之User timeout caused connection failure（异常记录）

阅读：评论：0

Windows 10家庭中文版，Python 3.6.4，Scrapy 1.5.0，

提示：此文存在问题，真正测试，请勿阅读，

07-14 14:26更新：

经过两个多小时的测试，发现此问题的原因是昨天编写爬虫程序后，给爬虫程序添加了下面的属性：

download_timeout = 20

此属性的解释：

The amount of time (in secs) that the downloader will wait before timing out.

在获取某网站的子域名的文件时，需要的时间远远超过20秒，因此，即便有三次重试的机会，也会最终失败。

此值默认为180，因为某网站是国内网站，因此，孤以为它的文件全部都会下载的很快，不需要180这么大，于是更改为20，谁知道，其下子域名的却需要这么久：

测试期间更改为30时，状况好了，目前已取消设置此值，已能抓取到需要的数据。

可是，为什么会下载这么慢呢？

删除Request中定义的errback进行测试，也可以获取到需要的数据。

那么，在Request中定义errback有什么用呢？

现在，再次在项目内、项目外执行下面的命令都不会发生DNSLookupError了࿰

本文发布于:2024-02-02 00:40:23，感谢您对本站的认可！

标签：异常项目 User Scrapy timeout

留言与评论（共有 0 条评论）