i

阅读：评论：0

一、i-vector

i-vector 模型是输出一个400维的向量
二、d-vecto

DNN 会输入一个固定长度的语音，对它做 Speaker Recognition。然后我们把这个模型的最后一层隐层抽取出来，它就是这段语音的 d-vector。不用 output layer 中的最后一层输出，因为它的维度是和训练时语者数目有关的。而是它前面的那一层隐层输出。

在实际预测的时候，输入语音是不等长的，会把语音截成多段，然后取这几段特征的d-vector的平均值作为最后的speaker embedding。

三、x-vector

x-vector 是d-vector的升级版，它不像 d-vector 那样简单的取平均，而是把每一小段的声音信号输出的特征，算一个 mean 和 variance，然后concat起来，再放进一个DNN里去来判断是哪个说话人说的。其他的部分和d-vector一致。

本文发布于:2024-02-03 00:29:50，感谢您对本站的认可！

上一篇：npm i

标签：

留言与评论（共有 0 条评论）