首先要说明的是该代码并不能完美运行(可运行代码见下篇),因为请求拉勾网的cookie信息中加入了时间元素,cookie信息很快就会过期,在爬去几条信息后就不能再提取信息了,会报错:IndexError: list index out of range,就是因为请求网站后已经获取不到信息了而导致列表越界。完整代码如下
import requests
from lxml import etree
import re
import timeheaders = {'User-Agent': "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) ""Chrome/73.0.3683.103 Safari/537.36",'Referer': "",}
# 获取主页面的cookie
urls = '?&cl=false&fromSearch=true&labelWords=&suginput='
s = requests.Session()
s.get(urls, headers=headers)
cookie = s.cookiesdef requests_list_page():url = '.json?city=%E5%B9%
本文发布于:2024-02-01 08:21:49,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170674691335192.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |