爬取并下载url不变的pdf文件

阅读：评论：0

爬取并下载url不变的pdf文件

1 引言

为了更好的卖保险(导师要求)，需要下载保险业协会官网-信息披露中保险公司披露的pdf文件。保险公司很多，每家又有不少年度披露的pdf。同时，神奇的是，无论怎么点击页面，网页的url都没有发生变化。为了拒绝当人肉爬虫，我们再次尝试使用Python帮助我们高效、自动地下载这些pdf文件。

2 具体步骤

我们打开保险业协会网站，点击不同的科目，如保险公司年度信息披露，我们发现页面的url并没有发生变化。这时，请不要怀疑自己的眼睛或是砸烂电脑，我们应该合理地怀疑页面采取了某些异步请求(Ajax)的方式。
此时，我们需要找到发送真实请求的页面。我们打开开发者工具，在Network中勾选ALL，清空后重新点击我们要选取的科目，如关联交易合并披露。神奇的事情出现了，红框中标示出来了一个新的url，那么这个url是不是我们真正要找的OnePiece呢？

.do?columnid=2016072012158397

Real url

我们进入此url。完蛋，这只是一个和上一页面神似但是长得更丑的网址。

本文发布于:2024-01-29 06:54:35，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170648248013495.html

上一篇：30秒就能学会代码？什么东西这么厉害？

下一篇：转载：《砸烂LINUX 桌面》

标签：文件 url pdf

留言与评论（共有 0 条评论）