京东商品爬取
1.商品的名称
2.商品的价格
3.评论数量
4.商家名称
1.搜索框属性值: class=“text”
2.搜索按钮属性值: class=“button”
3.下一页属性值:
能点: class=“pn-next”
不能点: class=“pn-next disabled”
4.页面商品节点对象列表xpath表达式
//div[@id=“J_goodsList”]/ul/li
from selenium import webdriver
import time
import csv# 创建浏览器对象
# opt = webdriver.ChromeOptions()
# opt.set_headless()
# driver = webdriver.Chrome(options=opt)
driver = webdriver.Chrome()
# 向京东发送请求
('/')
key = input('请输入要爬取的内容:')
driver.find_element_by_class_name('text').send_keys(key)
# 点击搜索
driver.find_element_by_class_name('button').click()
time.sleep(2)
n = 1
# while True:
for i in range(3):# 执行JS脚本,进度条拉到最下面ute_script('window.scrollTo(0,document.body.scrollHeight)')time.sleep(2)# 基准xpath,每个商品的节点对象列表rList = driver.find_elements_by_xpath('//div[@id="J_goodsList"]//ul/li')for r in rList:info = r.text.split('n')# 价格price = info[0]if info[1] != '拍拍':name = info[1]# 评论commit = info[2]# 商家market = info[3]else:name = info[2]commit = info[3]market = info[4]L = [price, commit, market, name]# 存入csv文件with open('京东.csv','a',newline='',encoding='utf-8') as f :writer = csv.writer(f)writer.writerow(L)print('第%d页爬取成功' % i)n += 1# 点击下一页if driver.page_source.find('pn-next disabled') == -1:driver.find_element_by_class_name('pn-next').click()time.sleep(1)else:break
本文发布于:2024-02-01 07:40:36,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170674443634953.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |