import jieba
import pandas as pd
from collections import Counter
from pyecharts.charts import Line,Pie,Scatter,Bar,Map,Grid
from pyecharts.charts import WordCloud
from pyecharts import options as opts
from pyecharts.globals import ThemeType
from pyecharts.globals import SymbolType
from pyechartsmons.utils import JsCode
全国热门旅游景点数据,包含城市、名称、星级、评分、价格、销量、省/市/区、坐标、简介、是否免费、具体地址等字段信息
字段:城市、名称、星级、评分、价格、销量、省/市/区、坐标、简介、是否免费、具体地址
字段 | 数据类型 |
---|---|
城市 | string |
名称 | string |
星级 | string |
评分 | float |
价格 | float |
销量 | int |
省/市/区 | string |
坐标 | string |
简介 | string |
是否免费 | bool |
具体地址 | string |
df = pd.read_excel(r'./data/旅游景点.xlsx')
df.head()
df.info()
df.describe()
df.loc[df['销量']==0,:].head()
一共有123行。
df = df[df['销量']!=0]
去除后还剩下2320行数据。
df.isnull().sum()
星级存在1407个空值,简介37个空值,具体地址2个空值,其他列不存在空值,数据还算比较完整。
df.fillna('未知', inplace=True)
df.sort_values('销量', ascending=False).head()
华东、华南、华中等地区属于国民出游热点地区,尤其是北京、上海、江苏、广东、四川、陕西等地区出行比较密集。
江苏、安徽、河南、北京、湖北等地区4A、5A级景区数量比较多。
本文发布于:2024-01-28 06:47:43,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/17063956665566.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |