缺失值在数据中无处不在,需要在分析的初始阶段仔细探索和处理。在本次示例中,会详细介绍naniar
包探索缺失值的方法和理念,它和ggplot2
和tidy
系列使用方法非常相似,上手并不困难。
有时,解释缺失值出现的原因可能很简单,比如,可能是由于记录不全,各种意外等,但实现这一解释的过程可能并不简单,而且可能需要比开发探索性数据分析和模型所需的更多时间。
本次学习主要探讨3个问题:
开始探索缺失值
探索缺失值的机制
模型化缺失值
当你面对新的数据时,可能首先会使用各种汇总函数查看数据的基本情况,比如:
summary()
str()
skimr::skim
dplyr::glimpse()
...
但是当数据有缺失值时,就会影响接下来的分析。所以首先还要查看数据的缺失情况。
R包visdat
可以展示缺失值数据,主要有2个函数:
vis_dat()
vis_miss()
vis_dat()
library(visdat)
vis_dat(airquality)
本文发布于:2024-01-28 22:48:56,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170645334310851.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |