机器学习中检验样本抽样的均匀——KL散度检验和K

阅读：评论：0

最近做的一个项目中，需要对原来的数据进行一定量的采样形成训练集，因此需要保证采样的均匀性以保证样本参数的同分布性。

样本数据是这样的：

ID.wav

Date

可以看到，样本数据只有日期参数可以使用，所以我采用对抽样后的样本跟总体的日期参数进行分布检验的方法。

因为日期的分布不具有分布假设，所以需要用非参数检验方法，直接比较两个分布的差异，我找到两种方法：

1.机器学习中常用的KL散度方法

2.社会统计学中常用的K-S检验方法

简单介绍一下这两种方法：

KL散度

在总体分布P的每一个值上进行加权，对于P很大的时候Q也要很大，P很小时Q的大小没关系，以保证Q是P的局部样本

直观来说，这是对随机变量的每个取值上，这个值的加权平均。这里加权的权值是（其实就是算了个期望）。

本文发布于:2024-02-08 19:45:30，感谢您对本站的认可！

标签：样本均匀机器 KL

留言与评论（共有 0 条评论）