什么是Data

阅读：评论：0

什么是Data

本篇文章为本人基于Andrew Ng的深度学习课程进行的总结，加上一些个人的感悟和认识。有误之处，还望海涵。

数据集划分：
在进行机器学习系统开发时我们最常使用的数据集划分方式即为：
“训练集（train_set），开发集（dev_set/cross_validation_set），测试集（test_set）”。三者在模型训练中的功能各不相同，在这里不详细叙述，感兴趣的同学可以自行检索。

常见问题：

high bias 问题：high bias 问题主要指训练集误差与“人类水平”（或bayes optimal error）之间存在较大差距的状况。遇此类问题说明目前的机器学习系统仍然有很大的进步空间，可通过设计更复杂的模型，调节参数等进行改善。
high variance 问题：high variance 问题指训练集误差与开发集误差之间存在较大的差距。与此类问题可以说明可能存在过拟合现象，可以尝试通过正则化或增加数据集等方式来解决

2 开发新系统时可能遇到的数据困难

假设现在需要开发一个“车载导航语音助手”（接收用户的语音输入，输出规划路径），输入为用户语料信息。开发这样一个语言处理系统需要大量的语料数据进行支撑，但事实上我们可能很难收集到大量“车载导航”背景下的语料信息，这时如何解决？
一种可能的解决方式是：结合其他背景下的语料信息进行训练。假设目前我们手头有“家庭生活语料信息”，那么我们可以结合这些语料信息，加上目前收集到的“车载导航”背景语料信息共同进行模型训练。
面对这种情况，常规的数据集划分方式有两种：

混合所有语料信息（shuffle），并按照常规Train-Dev-Test方式进行划分。
这种方式显然是不合理的。在进行机器学习系统开发时，最关键的环节之一是明确目标（target），如果训练目标都不准确，那么即使进行了大量的训练也不会取得良好的实用效果。
为什么说这种划分方式可能出现目标偏差呢？
在“车载导航”系统的背景下其实这是显而易见的，如果我们混合了其他语料背景下的信息作为 dev 以及 test set 的数据，那么我们就存在偏离目标的可能。（因为通常评估一个模型的优劣是基于模型在 dev 以及 test 数据集上的表现来判断的）
将“车载导航”语料背景下的数据划分为两部分，一部分作为 dev 以及 test 数据集，另一部分加入 train 数据集中。
这样解决了前面提到的目标偏差的问题，但是很显然这样同样是存在问题的，见下小节

3 什么是 data-dismatch problem?

在上一小节中我们提出了两种数据集划分方式，针对第一种数据集划分方式我们提出了其问题，那么对于第二种数据集划分方式又存在什么问题呢？
事实上，如果仅仅只是加入了少量其他背景下的语料信息那么第二种数据集划分方式是合理的，但是假设以下状况：其他背景下的语料信息共有500,000条，而“车载导航”背景下的语料信息仅有10,000条。在这种偏差巨大的情况下，由于数据集偏差引发的问题就凸显出来了：我们可能在 train set 上表现良好，但是当迁移到 dev 或者 test 数据集上时则表现急剧下降。这就是我们所说的data-dismatch problem.

4 通过train-dev set 甄别数据不匹配错误

解决问题的前提是能够准确的发现问题，只有证明问题的存在我们才能够对症下药，不浪费宝贵的开发时间。

通过 train-dev set 甄别数据不匹配错误

首先什么是train-dev set？简单而言就是将原来的 train set 作进一步的划分，分解为 train set 与 train-dev set 两部分。

那么 train-dev set 是如何甄别数据不匹配错误的呢？这里引用一张Anderw Ng授课PPT：

模型的训练仍然仅在 train set 上进行，而 train-dev set 则充当了常规模型训练时的 dev set 的作用，用来衡量 variance 的大小。而 train-dev set 与 dev set 的对比则成为了甄别数据不匹配问题的关键。如果两者差距较大则说明数据偏差较大需要进一步改善，否则说明该问题并不关键。

5 如何改善数据不匹配问题？

完成了问题的甄别如何改善呢？事实上，截止目前为止仍然没有较为系统的解决办法，以下为可供参考的解决方案：

人工差别分析：当我们甄别到存在数据不匹配问题时则说明 train set 与 dev/test set 之间存在较大的差别。基于以上观点，我们可以观察这些数据差别究竟在哪里并为后面的工作指明方向。
制造数据：基于差别分析我们可以认识到数据差异在何处。还是以之前的“车载导航”系统为例，假设经过分析我们认识当其他语料背景下的信息与车载语料背景下信息的最大差异在于车载语料背景存在很多的噪音。在这种情况下，我们可以通过信息合成的手段（synthesis）制造符合分布期望的数据集。需要注意的是，如果我们的制造方式不合理可能出现其他问题，如对特定的噪声特别敏感等等。