Python爬取某电商平台商品数据及评论!

阅读: 评论:0

Python爬取某电商平台商品数据及评论!

Python爬取某电商平台商品数据及评论!

目录

  • 一、数据采集逻辑
    • 二、数据Schema
      • 三、数据爬取
        • 四、数据存储

一、数据采集逻辑

在进行数据采集之前,明确哪些数据为所需,制定数据Schema为爬取工作做出要求,并根据数据Schema制定出有针对性的爬取方案和采集逻辑。

二、数据Schema

三、数据爬取

抓取某东平台任一商品的评论信息,此案例抓取的商品是某一店铺的车厘子评价信息。

评论信息是由JS动态加载的,所以直接抓取商品详情页的URL并不能获得商品评论信息。因此我们需要先找到存放商品评价信息的文件,通过使用浏览器的开发者工具进行查找。

目标URL地址:

.action?callback=fetchJSON_comment98&productId=10056364088483&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1

通过发现可知,productId为当前商品的商品Id,page为页码(从0开始),爬取该商品的所有评价信息只需要改变page参数即可。(京东商品评价页只显示前100页,所以page最大值为99)

  1. 导入库
import random
import requests
import json
import re
import csv
import time
import pymysql
  1. 对爬虫程序进行伪装
header = {'refer': 'https: // item.jd /','cookie': '','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50'}
  1. 抓取商品评论信息

将python程序伪装成浏览器后,就可以对评论信息进行爬取,在前面的分析中,productId和page为重要参数,在本案例中爬取的商品为车厘子,productId已确定,只需要对page进行更改即可达到需要。通过parms提交参数,使代码更有逻辑感并方便更改两个重要参数。

parm = {'callback': 'fetchJSON_comment98','productId': '10056364088483','score': '0','sortType': '5','page': page,'pageSize': '10','isShadowSku': '0','fold': '1'}
url = '.action'
res = (url, params=parm, headers=header)
  1. 防止反爬,每爬取一页数据后,设置程序休眠环节
# 程序休眠
time.sleep(random.randint(40, 80) * 0.1)
print('第%d页正在爬取' % (page + 1))爬取完成后,需要对页面进行编码,不影响后期的数据提取和数据清洗工作。使用正则对数据进行提取,返回字符串。字符串转换为json格式数据。ding = 'gb18030'
html = 
data = re.findall('fetchJSON_comment98((.*?));', html)
data = json.loads(data[0])  # 将处理的数据进行解析
comments = data['comments']
print(data['comments'])
四、数据存储
  1. 存储到csv
# 写入csv文件
f = open("evalution_data.csv", "a", newline='', encoding='gb18030')
header = ["id", "content", "creationTime", "score", "productColor", "productSize"]
# 创建一个DictWriter对象,第二个参数就是上面创建的表头
writer = csv.DictWriter(f, header)
writer.writeheader()for i in comments:id = i['id']content = i['content']creationTime = i['creationTime']score = i['score']productColor = i['productColor']productSize = i['productSize']writer.writerow({"id": id, "content": content, "creationTime": creationTime, "score": score, "productColor": productColor,"productSize": productSize})
f.close()
  1. 存储到数据库
# 写入数据库
conn = t(host='', user='', password='', port=, db='')
cursor = conn.cursor()for i in comments:#Python学习,交流群748989764id = i['id']content = i['content']creationTime = i['creationTime']score = i['score']productColor = i['productColor']productSize = i['productSize']sql = "insert into evalution_data(id,content,creationTime,score,productColor,productSize) values('%d','%s','%s','%d','%s','%s')&#ute(sql)connmit()cursor.close()
conn.close()

本文发布于:2024-01-28 03:35:30,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/17063841384498.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:商品   数据   平台   Python   爬取某电商
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23