爬取拉勾网之一：利用requests和lxml库爬取

阅读：评论：0

首先要说明的是该代码并不能完美运行（可运行代码见下篇），因为请求拉勾网的cookie信息中加入了时间元素，cookie信息很快就会过期，在爬去几条信息后就不能再提取信息了，会报错：IndexError: list index out of range，就是因为请求网站后已经获取不到信息了而导致列表越界。完整代码如下

import requests
from lxml import etree
import re
import timeheaders = {'User-Agent': "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) ""Chrome/73.0.3683.103 Safari/537.36",'Referer': "",}
# 获取主页面的cookie
urls = '?&cl=false&fromSearch=true&labelWords=&suginput='
s = requests.Session()
s.get(urls, headers=headers)
cookie = s.cookiesdef requests_list_page():url = '.json?city=%E5%B9%

本文发布于:2024-02-01 08:21:49，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170674691335192.html

上一篇：爬虫之数据提取方法（一、json提取）

下一篇：LAGOU23 在线考试系统（项目）

标签：requests 爬取拉勾网库爬取 lxml

留言与评论（共有 0 条评论）