python爬虫爬取链家二手房数据

阅读：评论：0

python爬虫爬取链家二手房数据

一、简介

本次爬虫用到的第三方库如下:

import randomimport requests
from lxml import etree
import time

二、打开网页

打开链家官网，进入二手房页面，可以看到该城市房源总数以及房源列表数据。

三、所有源码

import randomimport requests
from lxml import etree
import timeclass LianJia(object):def __init__(self):self.url = '{}/'self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.63 Safari/537.36 Edg/102.0.1245.30'}# 获取响应def get_page(self, url):req = (url, headers=self.headers)html = # 调用解析函数self.parse_page(html)# 解析数据 提取数据def parse_page(self, html):parse_html = etree.HTML(html)li_list = parse_html.xpath('//*[@id="content"]/div[1]/ul/li')# 传入字典house_dict = {}for li in li_list:# 传入字典house_dict['名称'] = li.xpath('.//div[@class="positionInfo"]/a[1]/text()')# # 总价# price=li.xpath().strip()house_dict['总价-万'] = li.xpath('//div[@id="content"]/div[1]/ul/li[6]/div[1]/div[6]/div[1]/span/text()')# # 单价house_dict['单价'] = li.xpath('//div[@id="content"]/div[1]/ul/li[6]/div/div/div[2]/span/text()')print(house_dict)# 保存数据def write_page(self):pass# 主函数def main(self):# 爬取页数for pg in range(1, 5):url = self.url.format(_page(url)# 休眠time.sleep(random.randint(0, 2))if __name__ == '__main__':start = time.time()spider = LianJia()spider.main()end = time.time()print('执行时间：%.2f' % (end - start))

爬取内容展示

本文发布于:2024-01-28 05:16:27，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/17063902025056.html

上一篇：基于python二手房数据分析可视化系统毕业设计开题报告

下一篇：没有机会就创造机会

标签：爬虫二手房数据链家 python

留言与评论（共有 0 条评论）

python爬虫 爬取链家二手房数据

python爬虫 爬取链家二手房数据

一、简介

二、打开网页

三、所有源码

爬取内容展示

python爬虫爬取链家二手房数据

python爬虫爬取链家二手房数据