python爬取流浪地球

阅读: 评论:0

python爬取流浪地球

python爬取流浪地球

代码很简单,一看就懂。

(没有模拟点击,所以都是未展开的)

地址:

=&start=0这里start就是后面参数变化的地方。一页20条,所以循环的话 每次start加20就好。代码:

import requests

from bs4 import BeautifulSoup

page=0

# url = '=&start='+str(page)

# s = requests.session()

# res = s.get(url).text

# soup = BeautifulSoup(res,'html.parser')

# comments = soup.find_all("div",class_="short-content")

# print (comments[2].get_text().replace("(展开)"," ").strip())

while 1:

url = '=&start=' + str(page)

s = requests.session()

res = s.get(url).text

soup = BeautifulSoup(res, 'html.parser')

comments = soup.find_all("div", class_="short-content")

with open('流浪地球.txt', 'a', encoding='gb18030', errors='ignore') as f:

for comment in comments:

str_comment = _text().replace("(展开)"," ").strip()

text = place("这篇影评可能有剧透"," ").strip()

f.write(text+"n")

page+=20

生成词云代码:

# -*- coding: utf-8 -*-

from wordcloud import WordCloud

import matplotlib.pyplot as plt

import jieba

# 生成词云

def create_word_cloud(filename):

text = open("流浪地球.txt".format(filename), encoding='gb18030', errors='ignore').read()

# 结巴分词

wordlist = jieba.cut(text, cut_all=True)

wl = " ".join(wordlist)

# 设置词云

wc = WordCloud(

# 设置背景颜色

background_color="white",

# 设置最大显示的词云数

max_words=2000,

# 这种字体都在电脑字体中,一般路径

font_path='C:Windowsf',

height=1200,

width=1600,

# 设置字体最大值

max_font_size=100,

# 设置有多少种随机生成状态,即有多少种配色方案

random_state=30,

)

myword = wc.generate(wl) # 生成词云

# 展示词云图

plt.imshow(myword)

plt.axis("off")

plt.show()

<_file('py_book_流浪地球.png') # 把词云保存下

if __name__ == '__main__':

create_word_cloud('word_py')

结果:

撸码千万条,简洁第一条。代码不规范,编译两行泪。

本文发布于:2024-01-31 23:48:31,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170671611432277.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:地球   python
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23