python3.6爬虫库

阅读: 评论:0

python3.6爬虫库

python3.6爬虫库

目标:抓取LaGou网爬虫职位,下载于数据库MongoDB,并可视化于pycharm。

我们采用:requests(获取)——MongoDB——PyCharm可视化

废话不多说,先上结果与代码:

前言:

①:安装PyMongo(pip install pymongo),这是Python操作MongoDB的驱动程序

②:抓取页面,如图

现重点讲解代码四个部分:

一:MongoDB

这将建立连接到默认主机(localhost)和端口(27017)

mongodb的详细功用可前往官网

二:真实的urls

异步加载中,真实的url并非=&fromSearch=true&suginput=,真正的url需要我们通过抓包获取,流程如图:

所以我们得出真实url:.json?needAddtionalResult=false&isSchoolJob=0

三:请求方法post (之前的文章都是get)

通过抓包我们可以看出拉钩网的请求方法是post,所以我们要加入请求表单form_data

四:请求头(headers)

每个网站的请求头都会不一样,但爬取的网站,都有例子,大家初期,跟着选就行,如图:

大家可以对比下我第四篇知乎的请求头

总结:

数据库是学习Python爬虫的必经之路,大家记得安装哦

MongoDB、pycharm可视化的安装,我都会在知乎上发表

下一篇文章,将学习使用函数实现LaGou翻页

有不清楚的地方,大家可以留言,点赞,我看到了,会第一时间回复你

近来考试与课程设计,很久没有更新,还望大家谅解

本系列文章同步跟新于微信公众号:工科男雷先生。知乎:雷之

本文发布于:2024-02-01 08:23:46,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170674702835207.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:爬虫
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23