爬取拉勾网之一:利用requests和lxml库爬取

阅读: 评论:0

爬取拉勾网之一:利用requests和lxml库爬取

爬取拉勾网之一:利用requests和lxml库爬取

     首先要说明的是该代码并不能完美运行(可运行代码见下篇),因为请求拉勾网的cookie信息中加入了时间元素,cookie信息很快就会过期,在爬去几条信息后就不能再提取信息了,会报错:IndexError: list index out of range,就是因为请求网站后已经获取不到信息了而导致列表越界。完整代码如下

import requests
from lxml import etree
import re
import timeheaders = {'User-Agent': "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) ""Chrome/73.0.3683.103 Safari/537.36",'Referer': "",}
# 获取主页面的cookie
urls = '?&cl=false&fromSearch=true&labelWords=&suginput='
s = requests.Session()
s.get(urls, headers=headers)
cookie = s.cookiesdef requests_list_page():url = '.json?city=%E5%B9%

本文发布于:2024-02-01 08:21:49,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170674691335192.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23