爬取并下载url不变的pdf文件

阅读: 评论:0

爬取并下载url不变的pdf文件

爬取并下载url不变的pdf文件

1 引言

为了更好的卖保险(导师要求),需要下载保险业协会官网-信息披露中保险公司披露的pdf文件。保险公司很多,每家又有不少年度披露的pdf。同时,神奇的是,无论怎么点击页面,网页的url都没有发生变化。为了拒绝当人肉爬虫,我们再次尝试使用Python帮助我们高效、自动地下载这些pdf文件。

2 具体步骤

我们打开保险业协会网站,点击不同的科目,如保险公司年度信息披露,我们发现页面的url并没有发生变化。这时,请不要怀疑自己的眼睛或是砸烂电脑,我们应该合理地怀疑页面采取了某些异步请求(Ajax)的方式。
此时,我们需要找到发送真实请求的页面。我们打开开发者工具,在Network中勾选ALL,清空后重新点击我们要选取的科目,如关联交易合并披露。神奇的事情出现了,红框中标示出来了一个新的url,那么这个url是不是我们真正要找的OnePiece呢?

.do?columnid=2016072012158397

Real url

我们进入此url。完蛋,这只是一个和上一页面神似但是长得更丑的网址。

本文发布于:2024-01-29 06:54:35,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170648248013495.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文件   url   pdf
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23