针对不平衡数据的分类 ---->对少数类进行过采样---->如何有效选取关键的少数类样本---->边界样本采样
现在研究的重点就是如何选取更加有效的方式对少数类边界样本进行采样。
先用 K-means聚类将整个数据集划分为K个簇,再用SVDD算法并行训练K个簇,最后再对获得的K个局部支持向量集训练‚即得到最终的全局决策边界。由于采用了分而治之并行计算的方法,提高了算法的效率。
聚类进行采样
数据类别:不平衡的时间序列数据
特点:数据的高维度和高变量间相关性
论文提出了解决高维不平衡时间序列分类(OHIT)的过采样方法,具有保持数据结构的功能。此外,为了进一步提高对不平衡时间序列数据进行分类的性能,我们将OHIT集成到boosting框架中,得到了一种新的集成算法OHITBoost。
OHIT 利用基于密度比的共享最近邻聚类算法来捕获高维空间中少数类的模式。 它对每个模态应用大维协方差矩阵的收缩技术,得到准确可靠的协方差结构。最终基于具有估计协方差矩阵的多元高斯分布生成保留结构的合成样本。
简单描述OHIT 合成样本: 对于 DRSNN 发现的簇 i i i,我们首先计算其簇均值 u i u_i ui 和收缩协方差矩阵 ( S i ∗ {S_i}^* Si∗),然后根据高斯分布 ( u i , S i ∗ ) (u_i,{S_i}^*) (ui,Si∗)生成合成样本。 这样,合成样本可以保持每个模式的协方差结构。
文章贡献:
(1) 文中设计了一种鲁棒的 DRSNN 聚类算法来捕获高维空间中少数类的潜在模式。
(2) 文中利用基于夏普单指标模型的收缩技术改进了小样本和高维背景下协方差矩阵的估计。
(3) 文中提出了一种新的集成算法 OHITBoost 来激发 OHIT 和 boosting 之间的正协同作用。
OHIT涉及三个关键问题:
为高维数据开发了基于共享最近邻相似性(SNN)的密度聚类方法。在密度聚类中,核心点的概念有助于解决不同大小和形状的聚类问题。在SNN相似性中,一对样本之间的相似性通过其最近邻居列表中的公共邻居的数量来测量。由于距离排名在高维空间中仍然有意义,SNN被视为处理高维数据的良好二级相似性度量。
SNN:用于形成聚类,根据不同的邻域参数形成不同的簇,k小,多簇; k大,少簇,多个簇易合并成簇。所以SNN的缺点就是难以设置合适的参数值。
SNN步骤:(MinPts和Esp是SNN聚类中的两个重要参数。据所知,没有设置适当值的一般原则)
SNN图示:根据k值的不同,形成的聚类效果也不同,如下图,主要缺点是很难为参数设置合适的值,导致聚类性能不稳定。
基于SNN的缺点:
本文提出了新的聚类方法:DRSNN。
为了避免使用Esp,DRSNN将样本密度定义为该样本与其每个共享最近邻居之间的相似度之和。
DRSNN:
(1)根据某种主要相似性或距离度量,找到少数样本的k近邻。
(2)计算SNN相似度。对于所有少数样本对,计算其SNN相似度。
(3)计算每个样品的密度。
(4)计算每个样品的密度比。
(5)确定核心点,即密度比大于drT的所有样本。
(6)找到每个核心点的直接密度可达样本集。
(7)构建集群。彼此直接密度可达的核心点被放置在相同的簇中;不能直接从任何核心点获得密度的样本被视为异常值;最后,将所有其他点分配给其直接密度可达核心点所在的簇。
在高维和小样本量的情况下,样本协方差矩阵不再是真实协方差矩阵的准确可靠估计。收缩技术作为改进协方差矩阵估计的最常见方法之一,旨在线性组合非限制样本协方差矩阵S和约束目标矩阵F,以产生具有较小估计误差的收缩估计器。即
收缩技术可以通过在S和F之间进行适当的权衡来获得更精确的协方差矩阵估计。一个关键问题是如何找到最佳收缩强度,一旦获得α,就可以确定收缩率估计器S*。一种流行的解决方案是通过最小化均方误差(MSE)来分析选择α的值。
经过一系列的推导:
由于样本的数量有限: α ^ ∗ hat{alpha}^* α^∗的值可能大于(或小于)1(或0)
步骤:
最后将将OHIT集成到boosting框架中,得到了一种新的集成算法OHITBoost。
步骤:
首先根据权重分布采集少数类样本得到 S m i n t S_{min}^t Smint(第4行);
其次计算每簇的均值和收缩协方差矩阵(6-7行);
然后基于高斯分布 ( μ t l , S t l ) (mu^l_t,S^l_t) (μtl,Stl)合成样本(8-9行)。
然后根据权重分布抽取多数类样本 S m a j t S_{maj}^t Smajt(第11行)。
基于 S m i n t S_{min}^t Smint和 S m a j t S_{maj}^t Smajt训练子分类器,计算损失,然后更新样本的权重分布。
(生成的合成样本的数量与所考虑的模式的样本大小成比例。原因是,如果某个模式的样本更多,则表示该模式的样本可能具有更高的权重。因此,应该为这种模式生成更多的合成样本,以使后续分类器更好地学习它)
论文:
Zhu, Tuanfei, et al. “Minority oversampling for imbalanced time series classification.” Knowledge-Based Systems 247 (2022): 108764.
刘艳红, 薛安荣, and 史习云. “K-means 聚类与 SVDD 结合的新的分类算法.” 计算机应用研究 3 (2010): 883-886.
本文发布于:2024-01-29 10:48:31,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170649651414740.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |