python2.7爬取京东商品评论

阅读: 评论:0

python2.7爬取京东商品评论

python2.7爬取京东商品评论

大神请绕路,新手先别急着上车 我们先来了解一下京东商品评论的地址,他们的客户评论看似是在商品页(item.jd),但实际上是在club.jd/review/这个url里面,要找到这个只要打开浏览器的console看看页面元素的href的连接看仔细点就行。 club.jd/review/在这一页里面留心点看看comment-content,你就会有找到你想要的
#encoding:utf-8
import urllib
from snownlp import SnowNLP
r = False
l = ''
n = 0
sno = raw_input('please input goods number:n')
f = open('','w')
try:for i in range (1,64) :p = urllib.urlopen('/%s-3-%d-0.html'%(sno,i))for j ad():if j == 'n':#print lif r :if '</dd>' in l:l = l.replace('t','')l = l.replace(' ','')l = l.replace('<dd>','')l = l.replace('</dd>','')n = n+1print lf.write(str(n))f.write(' ')f.write(l)f.write(' ')s = SnowNLP(l.decode('gbk')).sentimentsf.write(str(s))f.write('n')r = Falseif 'comment-content' in l :r = Truel = ''else:l = l + j
except Exception,e:f.close()
f.close()
print 'All Finish!'
里面的snownlp模块是用来进行情感分析的,将评论解码成unicode格式,然后调入snownlp模块的sentisments就可以得到一个感情值,0.5为中性,越接近1越是喜欢,越接近0越是厌恶
在这个url:  /%s-3-%d-0.html  %s是我们一开始输入的商品代号,%d是评论的第几页,京东的客户评论一页有20条,通过for循环,我可以把所有的评论页都遍历一遍 每次抓取网页的主要思路是先找到标签里的comment-content,然后将r设置为true,之后等到爬取的html行中出现<dd>,就提取<dd></dd>标签里的评论,然后将r设置为false继续读取下一行html内容直到读取完网页内容,或者网页不存在为止 程序抓取的评论会保存在同目录下的  文件里面 最后实现的效果请看: 或者下载资源包

本文发布于:2024-02-01 07:40:16,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170674441634951.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:京东   商品
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23