python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)

阅读: 评论:0

python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)

python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)

***第一次写文章,希望通过这种方式促进自己对错误的印象与理解。(如有错误之处望斧正。)

本文利用requests与json来爬取金十上的快讯的相关信息
并且保存到本地中

对应网站URL:/

1. 通过浏览器的F12来解析网页数据,并从中提取需要的JSON数据;
在这里插入图片描述


按F5加载啦(因为是小白=.=,使用刚开始的时候搞了不少乌龙,想着:“诶?怎么我的没显示数据勒?”)

然后找到JS数据的板块,会发现我们所需要的快讯的内容就保存在了“flash_newest.js”上,点击后是这样子的

因为我们目的是提出json数据,使用为了更加直观的看到数据结构,我们可以(1). 百度搜索JSON解析器,复制对应的url到上面就可以解析啦;**(注意:这里的url是flash_json.js的Headers里的url哦)(2).下载插件

2. 但是这个案例注意的是:就是我们提出的数据是JavaScript格式的数据


所以我们要清楚,我们提取到的数据不是json格式的数据,而是JavaScript格式的,所以我们要在python上对所提取回来的数据进行必要处理,使它装换成json格式的数据:
(1).先让我们看看提出到的JavaScript格式数据


(2).然后去头去尾转换成json数据

去头:

去尾:

即是尾部多出的“
我这里是使用python对字符串的截取来处理

然后得到的就是我们需要的json格式数据了。
(可以先了解一下json数据格式的数据哦!)

3.接下来就是对取得的json格式数据进行处理来的到我们所需要的内容了
(1).首先先了解我们所需要的数据存储在哪里

我们可以看到“快讯内容”和“快讯时间”分别保存在了“content”和“time”上
(2).提出内容

这样子我们就可以获得快讯的内容和时间,并且保存到了变量当中啦!
4. 然后就是保存到本地当中了


不仅仅是爬取这里哦,小伙伴们还可以去爬取豆瓣上的电影呀,相片等,大伙们是不是饥渴难耐了?哈哈哈,很开心可以记录自己的学习,错误之处,忘大伙斧正。

本文发布于:2024-01-28 09:15:48,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/17064045546374.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:格式   爬虫   数据处理   转换成   快讯
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23