原书第三版
Jiawei Han Micheline Kamber Jian Pei 著
在进行数据挖掘之前,首先需要准备好数据,熟悉数据。
一个数据对象代表一个实体,又称样本、实例、数据点或对象。
属性是一个数据字段,表示数据对象的一个特征,又称维、特征和变量。
二元属性:一种标称属性(又称布尔属性)
序数属性:可能的值之间具有有意义的序。相继值之间的差未知。
以上三种属性都是定性的,即它们描述对象的特征,而不给出实际大小或数量
数值属性:定量的
离散属性与连续属性
把握数据的全貌
中心趋势度量:均值、中位数和众数
均值(mean)
均值
加权算术平均
中位数(median):有序数据值的中间值
度量数据散布:极差、四分位数、方差、标准差和四分位数极差
分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合
盒图:体现了五数概括
数据的基本统计描述的图形显示
分位数图
分位数-分位数图(又称q-q图)
直方图
散点图
通过图形清晰有效地表达数据
基于像素的可视化技术
值越小,颜色越淡
对于宽窗口,以线性方法填充的效果不够好。第一个元素与前一行的最后一个元素相隔太远,但是在全局序下他们是彼此贴近的。这种情况下,可以采用空间填充曲线。
另外,窗口不必是矩形的。圆弓分割技术使用圆弓形窗口。
几何投影可视化技术
理解多维空间的数据分布
散点图:使用笛卡尔坐标显示多维数据点。
散点图矩阵是二维散点图的n*n网络
随着维数的继续增加,另一种技术称为平行坐标。绘制n个等距离,相互平行的轴,每维一个。缺点是当数据集大时,可读性较差,视觉上重叠较多。
基于图符的可视化技术
切尔诺夫脸:用眼、耳、口、鼻等的形状、大小、位置和方向表示维的值。
人物线条画:把多维数据映射到5段人物线条画上。每个画都有四肢和一个躯体。两个维被映射到显示轴,其余维被映射到四肢角度和(或)长度。
层次可视化技术:把所有维划分成子空间,这些子空间按层次可视化。
可视化复杂对象和关系
相似性和相异性都称为邻近性
相异性矩阵(对象-对象结构):n个对象两两之间的邻近度
d(i,j)是对象i和对象j之间的相异性,数值越大差异越大(最下为0,无差异)。d(i,j) = d(j,i),矩阵是对称的。
对于标称数据,相似性sim(i,j) = 1 - d(i,j)
标称属性的邻近性度量
二元属性的邻近性度量
对于标称属性可以进行二元属性编码,为M种状态的每个状态创建一个二元属性(即该状态的二元属性值为1,其余为0)
q:对象i和j都取1的属性数
r:对象i取1,对象j取0的属性数
s:对象i取0,对象j取1的属性数
t:对象i和j都取0的属性数
对称二元属性
非对称的二元属性
负匹配数t被认为是不重要的。
相似性被称为Jaccard系数
数值属性的相异性
在某些情况下,计算距离之前数据应该规范化,试图给所有属性相同的权重
欧几里得距离
曼哈顿距离
闵可夫斯基距离(Lp范数)
Lp范数中的p,在上面公式中写为h,p=1即为曼哈顿距离,p=2表示欧几里得距离。
上确界距离(切比雪夫距离)
是h趋于无穷时,闵可夫斯基距离的推广。
余弦相似性
有时会出现稀疏的数值数据(0很多),采取传统的距离度量,可能会因为过多的0项导致彼此不相似,例如词频统计,可能很多词在两句话中都没有出现,需要关注的是它们共有的词,以及这些词出现的频率。
余弦值越接近1,意味着夹角越小,也就是匹配度越大。
当属性是二值属性时,简单变化如下:
这个函数被称为Tanimoto系数。
自己加油加油 笨鸟后飞也要飞呀飞
本文发布于:2024-01-28 01:25:16,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/17063763243822.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |