2019年政府工作报告词频分析

阅读: 评论:0

2019年政府工作报告词频分析

2019年政府工作报告词频分析

(文末福利)
基本思路很简单:(1)使用requests、beautifsoup4提取网页内容;(2)jieba词频统计

代码如下:

import jieba
import jieba.analyse
from wordcloud import WordCloud, ImageColorGenerator
import matplotlib.pyplot as plt
import os
import PIL.Image as Image
import numpy as np
from collections import Counter
import requests
from bs4 import BeautifulSoup
import jieba.posseg as psg
import re
url = '.htm'def word_num(txt):'''输入需要统计词频的文本'''seg_list = jieba.cut(txt)c = Counter()for x in seg_list:if len(x)>1 and x != 'rn':c[x] += 1print('常用词频度统计结果')for (k,v) st_common(100):print('%s%s %s  %d' % ('  '*(5-len(k)), k, '*'*int(v/3), v))def extract_html_text(url):"""url: 传入的网页地址"""page_source = (url).contentbs_source = BeautifulSoup(page_source,'lxml')report_text = bs_source.find_all('p')#查找所有段落内容text = ''for p in report_text:text += p.get_text()text += 'n'return texttext = extract_html_text(url)
# re.sub('n','',text)
word_num(text)

运行结果如下

词频度统计结果发展 ********************************************  134改革 ******************************  92加强 ********************  62推进 *******************  59建设 ******************  56企业 *****************  51经济 ***************  46加快 **************  43完善 **************  43创新 *************  41支持 *************  40推动 *************  40政府 *************  39政策 ************  38全面 ************  36中国 ************  36促进 ***********  35深化 ***********  34坚持 ***********  33

如果需要Python网络爬虫相关书籍教程的话,可以微信扫描下面二维码关注公众号“向芽塔”,后台回复“python爬虫”获取哦!

本文发布于:2024-02-02 10:27:37,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170684085643194.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23