数据分析案例

阅读: 评论:0

数据分析案例

数据分析案例

如果你手上有一批数据,你可能应用统计学、挖掘算法、可视化方法等技术玩转你的数据,但你没有数据的时候,我该怎么玩呢?接下来就带着大家玩玩没有数据情况下的数据分析。

本文从如下几个目录详细讲解数据分析的流程:

1、数据源的获取;

2、数据探索与清洗;

3、模型构建(聚类算法和线性回归);

4、模型预测;

5、模型评估;

一、数据源的获取

正如本文的题目一样,我要分析的是上海二手房数据,我想看看哪些因素会影响房价?哪些房源可以归为一类?我该如何预测二手房的价格?可我手上没有这样的数据样本,我该如何回答上面的问题呢?

互联网时代,网络信息那么发达,信息量那么庞大,随便找点数据就够喝一壶了。前几期我们已经讲过了如何从互联网中抓取信息,采用Python这个灵活而便捷的工具完成爬虫,例如:

通过Python抓取天猫评论数据

使用Python实现豆瓣阅读书籍信息的获取

使用Python爬取网页图片

当然,上海二手房的数据仍然是通过爬虫获取的,爬取的平台来自于链家,页面是这样的:

我所需要抓取下来的数据就是红框中的内容,即上海各个区域下每套二手房的小区名称、户型、面积、所属区域、楼层、朝向、售价及单价。先截几张Python爬虫的代码,源代码和数据分析代码写在文后的链接中,如需下载可以到指定的百度云盘链接中下载。

上面图中的代码是构造所有需要爬虫的链接。

上面图中的代码是爬取指定字段的内容。

爬下来的数据是长这样的(总共28000多套二手房):

二、数据探索与清洗(一下均以R语言实现)

当数据抓下来后,按照惯例,需要对数据做一个探索性分析,即了解我的数据都长成什么样子。

1、户型分布# 户型分布

library(ggplot2)

type_freq <- data.frame(table(house$户型))

# 绘图

type_p <- ggplot(data =type_freq, mapping = aes(x = reorder(Var1, -Freq),y = Freq)) &#

本文发布于:2024-02-02 18:50:44,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170687104345745.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:案例   数据
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23